Spis treści

08 lutego 20235 min.
Borys Bednarek
Borys Bednarek
Aktualizacja wpisu: 28 sierpnia 2023

Robots.txt – czym jest plik robots i do czego go wykorzystać?

Robots.txt – czym jest plik robots i do czego go wykorzystać?

Robots.txt to plik tekstowy z wskazówkami dla robotów indeksujących wyszukiwarek. Co zawiera ten dokument i do czego dokładnie służy?

Czym jest robots.txt?

Robots.txt to plik z najważniejszymi informacjami dla robotów wyszukiwarek, takich jak Google czy Bing. Ma format zwykłego pliku tekstowego (.txt). Zawsze umieszcza się go pod adresem twojastronainternetowa.pl/robots.txt. Powinien wykorzystywać kodowanie znaków UTF-8.

Robots.txt jest jednym z mechanizmów Robots Exclusion Protocol. Jego początków należy szukać w lutym 1994 roku, kiedy to holenderski informatyk Martijn Koster napisał pierwszy tego typu plik. Szybko stał się on obowiązującą de facto normą dla robotów indeksujących. We wrześniu 2022 roku stał się oficjalnym standardem Internet Engineering Task Force.

W jakim celu tworzy się plik robots.txt?

Robots.txt zarządza ruchem robotów indeksujących w obrębie Twojej witryny. Używa się go głównie na dużych serwisach, zawierających treści, na których indeksacji właścicielom nie zależy, lub wręcz chcą tego uniknąć. Ograniczenie dostępu do pewnych niezbyt istotnych elementów przyspiesza proces indeksacji podstron, na których najbardziej nam zależy. Dokument przydaje się więc w SEO

W celu wykluczenia części podstron, umieszcza się specjalne komendy w pliku robots.txt. Mogą blokować dostęp do konkretnych części witryny lub nawet uniemożliwiać wejście określonym rodzajom robotów (np. mogą “wpuszczać” robota Google, ale zabraniać wstępu robotom Binga czy Yandexa). 

Robots.txt pozwala także wykluczać z wyników wyszukiwania konkretne typy plików, np. graficzne czy dźwiękowe. 

Służy też do blokowania plików zasobów. W tym wypadku jednak należy zwrócić uwagę, czy np. brak danego skryptu nie utrudnia interpretacji strony robotowi Google – może to uniemożliwić skuteczne crawlowanie strony.

Ograniczenia robots.txt

Robots.txt ma swoje ograniczenia. Dokument nie może niczego narzucić robotom – należy traktować go raczej jako zbiór zaleceń. Niektóre boty mogą całkowicie zignorować komendy zawarte w robots.txt. 

Blokada witryn w robots.txt nie blokuje też całkowicie możliwości indeksacji. Jeśli do niedozwolonej w dokumencie podstrony prowadzą linki z innych stron, może ona pojawić się w wynikach wyszukiwania. Żeby nie wyświetlały się w wyszukiwaniu Google, konieczne może okazać się zabezpieczenie hasłem lub użycie metatagu noindex.

Kolejnym ograniczeniem są różnice w interpretacji składni przez roboty różnych wyszukiwarek. Z tego powodu trzeba zwracać dużą uwagę na odpowiednią składnię poleceń, ponieważ część botów może ich nie rozpoznawać lub nie „rozumieć”.

Jak stworzyć plik robots.txt?

Aby utworzyć plik robots.txt wystarczy systemowy Notatnik. Po zakończeniu prac i nadaniu dokumentowi nazwy „robots.txt” należy umieścić go w głównym katalogu strony.

Najprostszy, statyczny plik będzie więc zwykłym dokumentem .txt, w którym znajdą się reguły poruszania się robotów po stronie. Wszystkie komendy trzeba w takim przypadku wpisać ręcznie.

Inną metodą stworzenia pliku robots.txt jest skorzystanie z pomocy specjalnych generatorów. Z reguły wystarczy w nich zaznaczyć opcje, które chciałbyś uwzględnić na swojej witrynie, po czym wygenerować gotowy plik.

Istnieje też trzeci sposób stworzenia pliku robots.txt – można tego dokonać za pomocą aplikacji lub strony, której dotyczy dokument. Najlepiej widać to na przykładzie CMS-ów takich jak WordPress, które mogą automatycznie generować i aktualizować robots.txt, w zależności od wybranych ustawień. Jeśli chcesz mieć większą kontrolę nad plikiem robots, z pewnością jedna z wtyczek SEO do wordpress’a pomoże rozwiązać Ci ten problem.

Co znajduje się w pliku robots.txt?

W pliku robots.txt najważniejsze są dyrektywy zezwalające i blokujące oraz oznaczenia konkretnych robotów. Poza nimi można jeszcze wskazać lokalizację mapy witryny i kilka innych dyrektyw:

Allow i Disallow

Dyrektywa Allow pozwala robotom skanować dany adres URL. Z kolei Disallow blokuje do niego dostęp. Jeśli dostęp do podstron nie zostanie ograniczony dyrektywami Disallow, roboty będą domyślnie skanować wszystkie. 

Blokować można nie tylko podstrony, ale także roboty. 

Konkretne podstrony i katalogi przeznaczone do blokowania wyróżnia się znakiem „/”. Przykładowa reguła może wyglądać następująco:

Disallow: /nazwablokowanegokatalogu/nazwablokowanegopliku.html

Identyczną zasadę stosuje się w przypadku dyrektywy Allow lub konkretnych user-agentów.

User-agent

User-agent oznacza informacje skierowane do konkretnych robotów. Przykładowo, reguła:

User-agent: Googlebot-News

będzie oznaczała polecenie dla robota indeksującego Google News. W ten sposób można np. ograniczać dostęp do witryny niektórym botom, albo umożliwiać im wejście tylko do określonych obszarów.

Sitemap

Choć nie jest to konieczne, umieszczenie w robots.txt linku do mapy strony w formacie XML może pomóc robotom poruszać się po witrynie.

Host

Opcjonalna dyrektywa, która wskazuje robotom preferowaną domenę.

Crawl delay

Opcjonalna dyrektywa, która opisuje preferowane opóźnienie (w sekundach) w przypadku crawlingu. Roboty Google jej nie obsługują, ale może być przydatna w przypadku np. Binga.

Inne zasady rządzące plikiem robots.txt

Tworząc robots.txt należy pamiętać, że boty indeksujące domyślnie będą skanować całą stronę. Jeśli na Twojej witrynie nie znajdują się żadne elementy, które chciałbyś zablokować, teoretycznie nie trzeba umieszczać na niej pliku robots.txt. 

Choć zamieszczenie robots.txt nie jest konieczne, znakomita większość stron posiada go w choćby najbardziej podstawowej wersji, więc roboty mogą traktować strony bez dokumentu jako niedokończone. 

Dla robotów wielkość liter ma znaczenie, więc będą one w stanie rozróżnić od siebie nazwapliku.php i NazwaPliku.php.

Warto też pamiętać o operatorach. Jednym z nich jest gwiazdka – „*”. Jest operatorem wieloznacznym, co oznacza, że w jej miejscu może pojawić się ciąg znaków dowolnej długości. Dla przykładu, reguła:

Allow: /*/nazwapliku.html

będzie odnosić się zarówno do lokalizacji /katalog/nazwapliku.html, jak i /katalog/folder/nazwapliku.html. Umieszczenie gwiazdki przed konkretnym rozszerzeniem sprawi, że roboty będą stosować konkretną regułę do wszystkich plików tego typu. Gwiazdkę można stosować nie tylko w dyrektywach, ale także we wskazaniu robotów. Może ona też zastąpić całą ścieżkę lub występować jako prefiks lub sufiks.

Innym operatorem jest znak „$”. Służy on do blokowania konkretnego rozszerzenia lub plików kończących się danym ciągiem znaków. Reguła:

User-agent: *
Disallow: /*.gif$

oznacza, że wszystkie boty nie będą mogły indeksować wszystkich plików z rozszerzeniem .gif.

Testowanie robots.txt

Skuteczność robots.txt należy przetestować. Można to zrobić za pomocą Google Search Console, w którym znajduje się Tester pliku robots.txt. Zweryfikuje on poprawność wszystkich komend oraz sprawdzi, czy roboty stosują się do nich. Za pomocą testera można także powiadomić Google o zmianach wprowadzonych w pliku.

Robots.txt – jak wpływa na Twoją stronę?

Plik robots.txt jest instrukcją obsługi dla odwiedzających Twoją stronę robotów – im mniejszy margines błędu im pozostawisz, tym… popełnią mniej błędów w indeksacji. 

Powinien być starannie spisany i dokładnie sprawdzony. Jeden błąd w pliku może uniemożliwić indeksowanie nawet całości strony, co może mieć fatalny wpływ na jej ruch organiczny. 

Warto jednak pamiętać, że choć robots.txt jest istotną częścią technicznego SEO, to zdecydowanie nie jest najważniejszą – zwykle więcej uwagi trzeba poświęcić optymalizacji innych elementów strony. 

Przypisy

  1. https://web.archive.org/web/20131029200350/http://inkdroid.org/tmp/www-talk/4113.html

Formularz kontaktowy

Rozwijaj swoją markę

dzięki współpracy z Cyrek Digital
Wyślij zapytanie
Pola wymagane
Borys Bednarek
Borys Bednarek
Head of SEO
Skontaktuj się ze mną
Masz pytania? Napisz do mnie.
Oceń tekst:
Średnia ocena: artykuł nieoceniony. 0

Być może zainteresują Cię:

Mapa strony
© 2010 - 2023 Cyrek Digital. All rights reserved.