• Home
  • Blog
  • Ready, Set, Go! Wyścigi Google Botów

Ready, Set, Go! Wyścigi Google Botów

SEO - tym nietypowym zawodom z dużym zaangażowaniem codziennie przygląda się ponad 1,8 mld stron internetowych. Składają się one z wielu konkurencji, potocznie zwanych czynnikami rankingowymi. Co roku ktoś stara się opisać jak najwięcej z nich, ale nikt tak naprawdę nie wie, na czym do końca polegają wszystkie i ile ich właściwie jest. Prawie nikt, oprócz Google Bota. To on codziennie przemierza petabajty danych, stawiając webmasterów do rywalizacji w przedziwnych dyscyplinach, potem wybierając tych najlepszych. Przynajmniej tak mu się zdaje.

Bieg na 1000m (z przeszkodami), czyli sprawdzamy szybkość indeksowania

Do tej konkurencji wystawiłem 5 podobnych struktur danych. Każda z nich liczyła 1000 podstron z unikalnymi treściami oraz dodatkowe strony nawigacyjne (np. kolejne podstrony lub kategorie). Poniżej przedstawiam cztery bieżnie.

  1. Niniejsza struktura informacyjna była niezwykle uboga. Na jednej podstronie linki do 1000 podstron z unikalnym contentem (czyli 1000 linków wewnętrznych). Przecież wszyscy specjaliści SEO (w tym ja...) powtarzają jak mantrę: nie może być więcej niż 100 linków wewnętrznych na stronie, bo Google nie poradzi sobie z przejściem po tak obszernej stronie i po prostu zignoruje część linków, a już na pewno ich nie zaindeksuje. Postanowiłem to sprawdzić.
  2. To przeciętna bieżnia. Sto kolejnych podstron (na każdej widoczne linki do kilku poprzednich stron, do kilku następnych oraz do pierwszej i ostatniej). Na każdej podstronie po 10 linków wewnętrznych do stron z contentem. Pierwsza strona zawieraja tag meta robots index/follow, pozostałe noindex/follow. Klasyczny pasek z linkami do poszczególnych podstron (maksymalnie 8 aktywnych linków do podstron):

    Pages: 1 ... 6 7 8 9 10 11 12 ... 100
  3. Chcąc wprowadzić trochę zamieszania, postanowiłem zbudować strukturę silosu na stronie i tak podzieliłem stronę na 50 kategorii. W każdej z nich znalazło się 20 linków do stron contentowych rozdzielonych na dwie strony.
  4. Ta bieżnia to czarny koń tych zawodów. Brak normalnego stronicowania, a zamiast niego tylko i wyłącznie stronicowanie przy pomocy nagłówków rel="next" i rel="prev" z określeniem kolejnej strony, do której miał trafić Google Bot.
  5. Podobnie jak bieżnia numer dwa. Z tą różnicą, że pozbyłem się noindex/follow oraz ustawiłem rel canonical dla wszystkich podstron na pierwszą stronę.

i wystartowali…

Bieżnia 1 (1000 linków na stronie) Bieżnia 2 (klasyczne stronicowanie) Bieżnia 3 (struktura silosu) Bieżnia 4 (stronicowanie rel next / prev) Bieżnia 5 (rel canonical na pierwszą stronę)
hits indexed hits indexed hits indexed hits indexed hits indexed
Dzień 1 4 0 2 0 0 4 0 198
Dzień10 240 1471 121 2644 255 55 10 2684
Dzień 20 861 2182 390 3398 810 121 10 3527
Dzień 30 880 2274 352 3643 920 152 10 3821

hits - sumaryczna ilość odwiedzin Google Bot’a
indexed - ilość zaindeksowanych stron

Przyznam szczerze, że wnioski mnie rozczarowały. Najbardziej liczyłem na wykazanie tego, że struktura silosu przyśpiesza crawlowanie oraz indeksowanie serwisu. Niestety tak się nie stało. Strukturę silosu najczęściej wdrażam i rekomenduje w serwisach, którymi się zajmuję przede wszystkim ze względu na możliwości, jakie daje w takiej strukturze wewnętrzne linkowanie. Niestety przy powyższej próbce danych nie idzie to w parze z szybkością indeksowania.

Natomiast ku mojemu zdziwieniu Google Bot bez problemu poradził sobie zarówno ze zczytaniem 1000 linków wewnętrznych i ich odwiedzeniem przez 30 dni, jak i zaindeksowaniem większości. Przecież przyjęło się, że rekomendowaną ilością jest 100 linków wewnętrznych na stronie. Czyli chcąc przyśpieszyć indeksacje, warto budować mapy strony w formacie HTML nawet z tak dużą ilością linków.

Jednocześnie klasyczne indeksowanie z użyciem noindex / follow zdecydowanie przegrywa ze stronicowaniem z użyciem index / follow oraz rel=canonical wskazującym na pierwszą stronę.

Jednocześnie klasyczne indeksowanie z użyciem noindex / follow zdecydowanie przegrywa ze stronicowaniem z użyciem index / follow oraz rel=canonical wskazującym na pierwszą stronę. W przypadku tego ostatniego Google Bot zgodnie z oczekiwaniami miał nie zaindeksować poszczególnych zestronicowanych podstron. Jednak spośród 100 zestronicowanych podstron, zaindeksował 5 mimo wskazania kanonicznego na pierwszą stronę co wykazuje ponowniem (wcześniej o tym pisałem tutaj), że ustawienie rel canonical nie gwarantuje uniknięcia zaindeksowania strony, a co za tym idzie bałagany w indeksie wyszukiwarki.

Jednym z istotnych wniosków artykułu (już po kilku dniach od wystartowania eksperymentu) miało być wykazanie tego, że Google Bot ignoruje tagi rel=next i rel=prev. Niestety, spóźniłem się z publikacją tego testu (w oczekiwaniu na pozostałe wyniki) i John Mueller 21.03.2019 oznajmił światu, że w rzeczy samej powyższe tagi nie są uwzględniane przez Google Bota. Zastanawiam się tylko, czy fakt, że ten artykuł piszę w Google Doc’s ma tu jakieś znaczenie #teoriespiskowe :-)

W tym miejscu warto byłoby się przyjrzeć stronom zawierającym infinity scroll, czyli dynamiczne doładowywanie treści ładowane po zescrollowaniu w niższe partie strony i nawigację opartą na rel=prev i rel=next. Jeśli brak jakiejkolwiek innej nawigacji np. normalnego stronicowania ukrytego w CSS (niewidocznego dla użytkownika, ale widocznego dla Google Bot’a) możemy być pewni, że dostęp do doładowywanych treści (produktów, artykułów, zdjęć) może być utrudniony dla Google Bot’a co będzie niosło katastrofalne skutki dla pozycjonowania serwisu.

Max Cyrek
Max Cyrek
SEO Expert, CEO of Cyrek Digital
linkedin twitter facebook
"Do not accept ‘just’ high quality. Anyone can do that. If the sky is the limit, find a higher sky.”

Razem z całym zespołem Cyrek Digital pomagam firmom w cyfrowej transformacji. Specjalizuje się w technicznym SEO. Na działania marketingowe patrzę zawsze przez pryzmat biznesowy.
Ready, Set, Go! Wyścigi Google Botów