Ready, Set, Go! Wyścigi Google Botów

28 marca 2019

3 min.

Max Cyrek

Aktualizacja wpisu: 28 sierpnia 2023

SEO – tym nietypowym zawodom z dużym zaangażowaniem codziennie przygląda się ponad 1,8 mld stron internetowych. Składają się one z wielu konkurencji, potocznie zwanych czynnikami rankingowymi. Co roku ktoś stara się opisać jak najwięcej z nich, ale nikt tak naprawdę nie wie, na czym do końca polegają wszystkie i ile ich właściwie jest. Prawie nikt, oprócz Google Bota. To on codziennie przemierza petabajty danych, stawiając webmasterów do rywalizacji w przedziwnych dyscyplinach, potem wybierając tych najlepszych. Przynajmniej tak mu się zdaje.

Bieg na 1000m (z przeszkodami), czyli sprawdzamy szybkość indeksowania

Do tej konkurencji wystawiłem 5 podobnych struktur danych. Każda z nich liczyła 1000 podstron z unikalnymi treściami oraz dodatkowe strony nawigacyjne (np. kolejne podstrony lub kategorie). Poniżej przedstawiam cztery bieżnie.

Niniejsza struktura informacyjna była niezwykle uboga. Na jednej podstronie linki do 1000 podstron z unikalnym contentem (czyli 1000 linków wewnętrznych). Przecież wszyscy specjaliści SEO (w tym ja…) powtarzają jak mantrę: nie może być więcej niż 100 linków wewnętrznych na stronie, bo Google nie poradzi sobie z przejściem po tak obszernej stronie i po prostu zignoruje część linków, a już na pewno ich nie zaindeksuje. Postanowiłem to sprawdzić.
To przeciętna bieżnia. Sto kolejnych podstron (na każdej widoczne linki do kilku poprzednich stron, do kilku następnych oraz do pierwszej i ostatniej). Na każdej podstronie po 10 linków wewnętrznych do stron z contentem. Pierwsza strona zawieraja tag meta robots index/follow, pozostałe noindex/follow. Klasyczny pasek z linkami do poszczególnych podstron (maksymalnie 8 aktywnych linków do podstron):Pages: 1 … 6 7 8 9 10 11 12 … 100
Chcąc wprowadzić trochę zamieszania, postanowiłem zbudować strukturę silosu na stronie i tak podzieliłem stronę na 50 kategorii. W każdej z nich znalazło się 20 linków do stron contentowych rozdzielonych na dwie strony.
Ta bieżnia to czarny koń tych zawodów. Brak normalnego stronicowania, a zamiast niego tylko i wyłącznie stronicowanie przy pomocy nagłówków rel=”next” i rel=”prev” z określeniem kolejnej strony, do której miał trafić Google Bot.
Podobnie jak bieżnia numer dwa. Z tą różnicą, że pozbyłem się noindex/follow oraz ustawiłem rel canonical dla wszystkich podstron na pierwszą stronę.

i wystartowali…

	Bieżnia 1 (1000 linków na stronie)		Bieżnia 2 (klasyczne stronicowanie)		Bieżnia 3 (struktura silosu)		Bieżnia 4 (stronicowanie rel next / prev)		Bieżnia 5 (rel canonical na pierwszą stronę)
	hits	indexed	hits	indexed	hits	indexed	hits	indexed	hits	indexed
Dzień 1	4	0	2	0	246	0	4	0	198	1
Dzień 10	2700	240	1471	121	2644	255	55	10	2684	455
Dzień 20	3932	861	2182	390	3398	810	121	10	3527	980
Dzień 30	4252	880	2274	352	3643	920	152	10	3821	992

hits – sumaryczna ilość odwiedzin Google Bot’a
indexed – ilość zaindeksowanych stron

Przyznam szczerze, że wnioski mnie rozczarowały. Najbardziej liczyłem na wykazanie tego, że struktura silosu przyśpiesza crawlowanie oraz indeksowanie serwisu. Niestety tak się nie stało. Strukturę silosu najczęściej wdrażam i rekomenduje w serwisach, którymi się zajmuję przede wszystkim ze względu na możliwości, jakie daje w takiej strukturze wewnętrzne linkowanie. Niestety przy powyższej próbce danych nie idzie to w parze z szybkością indeksowania.

Natomiast ku mojemu zdziwieniu Google Bot bez problemu poradził sobie zarówno ze zczytaniem 1000 linków wewnętrznych i ich odwiedzeniem przez 30 dni, jak i zaindeksowaniem większości. Przecież przyjęło się, że rekomendowaną ilością jest 100 linków wewnętrznych na stronie. Czyli chcąc przyśpieszyć indeksacje, warto budować mapy strony w formacie HTML nawet z tak dużą ilością linków.

Jednocześnie klasyczne indeksowanie z użyciem noindex / follow zdecydowanie przegrywa ze stronicowaniem z użyciem index / follow oraz rel=canonical wskazującym na pierwszą stronę.

Jednocześnie klasyczne indeksowanie z użyciem noindex / follow zdecydowanie przegrywa ze stronicowaniem z użyciem index / follow oraz rel=canonical wskazującym na pierwszą stronę. W przypadku tego ostatniego Google Bot zgodnie z oczekiwaniami miał nie zaindeksować poszczególnych zestronicowanych podstron. Jednak spośród 100 zestronicowanych podstron, zaindeksował 5 mimo wskazania kanonicznego na pierwszą stronę co wykazuje ponowniem (wcześniej o tym pisałem tutaj), że ustawienie rel canonical nie gwarantuje uniknięcia zaindeksowania strony, a co za tym idzie bałagany w indeksie wyszukiwarki.

Jednym z istotnych wniosków artykułu (już po kilku dniach od wystartowania eksperymentu) miało być wykazanie tego, że Google Bot ignoruje tagi rel=next i rel=prev. Niestety, spóźniłem się z publikacją tego testu (w oczekiwaniu na pozostałe wyniki) i John Mueller 21.03.2019 oznajmił światu, że w rzeczy samej powyższe tagi nie są uwzględniane przez Google Bota. Zastanawiam się tylko, czy fakt, że ten artykuł piszę w Google Doc’s ma tu jakieś znaczenie #teoriespiskowe 🙂

W tym miejscu warto byłoby się przyjrzeć stronom zawierającym infinity scroll, czyli dynamiczne doładowywanie treści ładowane po zescrollowaniu w niższe partie strony i nawigację opartą na rel=prev i rel=next. Jeśli brak jakiejkolwiek innej nawigacji np. normalnego stronicowania ukrytego w CSS (niewidocznego dla użytkownika, ale widocznego dla Google Bot’a) możemy być pewni, że dostęp do doładowywanych treści (produktów, artykułów, zdjęć) może być utrudniony dla Google Bot’a co będzie niosło katastrofalne skutki dla pozycjonowania serwisu.

Formularz kontaktowy

Rozwijaj swoją markę

dzięki współpracy z Cyrek Digital

Max Cyrek

CEO

"Do not accept ‘just’ high quality. Anyone can do that. If the sky is the limit, find a higher sky.”

Razem z całym zespołem Cyrek Digital pomagam firmom w cyfrowej transformacji. Specjalizuje się w technicznym SEO. Na działania marketingowe patrzę zawsze przez pryzmat biznesowy.

zobacz artykuły

Skontaktuj się ze mną

Masz pytania? Napisz do mnie.

Oceń tekst

Średnia ocena: artykuł nieoceniony. 0