
Robots.txt – czym jest plik i do czego go wykorzystać?

Plik robots.txt może wydawać się jedynie prostym dokumentem tekstowym, ale w rzeczywistości to potężne narzędzie, które wpływa na to, jak wyszukiwarki widzą Twoją stronę. Dobrze skonfigurowany, chroni zasoby, oszczędza crawl budget i zapobiega niepotrzebnemu indeksowaniu. Źle napisany – może zablokować kluczowe treści i zepchnąć witrynę w otchłań internetu.
Z tego tekstu dowiesz się m.in.:
- Czym jest robots.txt?
- Jak robots.txt wpływa na stronę?
- Jakie są cele robots.txt?
- Jakie są ograniczenia robots.txt?
- Jakie są elementy robots.txt?
- Jakie są metody generowania pliku robots.txt?
- Jakie są zasady tworzenia pliku robots.txt?
- Gdzie należy umiejscowić plik robots.txt?
- Jak testować robots.txt?
Najważniejsze informacje:
- Robots.txt to plik tekstowy umieszczony w katalogu głównym strony, który instruuje roboty wyszukiwarek, które zasoby mogą być indeksowane, a które powinny zostać pominięte. To podstawowe narzędzie zarządzania dostępem do treści.
- Robots.txt kontroluje widoczność zasobów w wyszukiwarkach, chroni sekcje administracyjne, zapobiega indeksowaniu duplikatów oraz oszczędza budżet indeksowania. Może jednak błędnie użyty zablokować ważne treści i ograniczyć widoczność strony.
- Cele robots.txt to zarządzanie ruchem botów, ochrona wrażliwych danych, eliminacja duplikatów treści z indeksu oraz optymalizacja crawl budgetu. Plik nie jest narzędziem zabezpieczającym, ale komunikacyjnym dla robotów wyszukiwarek.
- Robots.txt nie wymusza przestrzegania reguł – to zalecenie, nie zakaz. Nie chroni przed dostępem bezpośrednim, nie ukrywa treści przed użytkownikami i nie zapewnia prywatności danych – każdy może plik przeczytać i zignorować.
- Podstawowe elementy to: User-agent, określający adresata reguł; Disallow, wskazujący zakazane ścieżki; Allow, zezwalający na dostęp; oraz Sitemap, informujący o lokalizacji mapy witryny. Każdy wpis musi być precyzyjnie sformułowany.
- Robots.txt można tworzyć ręcznie w edytorze tekstowym lub automatycznie za pomocą generatorów online, CMS-ów (np. WordPress + Yoast) lub dedykowanych narzędzi SEO. Kluczowe jest testowanie i poprawność składni pliku.
- Plik musi być zapisany jako UTF-8, bez rozszerzenia .txt w nazwie URL, z jedną regułą na wiersz. Powinien być logicznie uporządkowany, nie zawierać błędnych ścieżek i unikać blokowania zasobów niezbędnych do renderowania strony.
- Plik robots.txt musi znajdować się w katalogu głównym domeny, czyli pod adresem: https://twojadomena.pl/robots.txt. Tylko w tym miejscu boty go odnajdą i zastosują zawarte w nim dyrektywy.
- Robots.txt testujesz za pomocą narzędzi Google Search Console, np. „Tester pliku robots.txt”. Można też symulować działanie botów za pomocą narzędzi zewnętrznych, sprawdzając, czy określone zasoby są poprawnie zablokowane lub dopuszczone.
Robots.txt – definicja
Plik robots.txt to brama wejściowa dla robotów indeksujących – prosty, ale niezwykle ważny plik tekstowy, który mówi wyszukiwarkom, gdzie mają wchodzić, a gdzie mają trzymać się z daleka. Jest to absolutny fundament w komunikacji między Twoją stroną a robotami wyszukiwarek – szczególnie z takimi gigantami jak Google bot, czyli bot indeksujący wyszukiwarki Google. Stosując się do tzw. robots exclusion protocol, czyli protokołu wykluczania robotów, plik ten zawiera informacje, które mówią botowi wprost: „tych zasobów nie dotykaj, a te możesz śmiało analizować”.
Robots.txt to plik umieszczony w katalogu głównym witryny, który zawiera instrukcje dla robotów wyszukiwarek dotyczące indeksowania określonych zasobów strony.
Definicja robots.txt
Do czego służy plik robots? Przede wszystkim do zarządzania indeksowaniem Twojej strony – nie tyle do jej ochrony, co do kontrolowania, które adresy URL mają pojawić się w wyszukiwarce, a które powinny zostać pominięte. Administratorzy witryn wykorzystują go do wskazania robotom, gdzie leży wartość, a gdzie zaczyna się chaos – np. zaplecze CMS-a, wyniki wyszukiwania wewnętrznego, podstrony testowe lub dynamiczne parametry URL, które generują duplikaty.
Wewnątrz pliku stosuje się wyłącznie znaki ASCII – bez HTML, bez stylów, bez kodowania UTF-8 z BOM. To ma być czysty, surowy tekst zawierający jasne dyrektywy: User-agent, Disallow, Allow, Sitemap. Ta ostatnia to osobny atut – dzięki niej możesz wskazać botom, gdzie znajdują się Twoje mapy strony, czyli pliki XML z listą wszystkich ważnych adresów URL. To pozwala Google’owi szybciej i dokładniej przeskanować strukturę Twojej witryny.
Plik umieszcza się w głównym katalogu strony, co oznacza, że jego adres musi wyglądać dokładnie tak: https://twojadomena.pl/robots.txt. Umieszczenie go gdziekolwiek indziej – np. w podkatalogu lub na subdomenie – sprawi, że nie zadziała. Googlebot po prostu go nie znajdzie, bo odwiedza wyłącznie jeden ustalony punkt wejścia.
Warto dodać, że plik robots.txt nie jest twardą blokadą – działa bardziej jak tabliczka z napisem „Nie wchodzić”. Większość porządnych botów, jak Googlebot, będzie go respektować, ale jeśli chcesz mieć całkowitą kontrolę, musisz sięgnąć po inne mechanizmy – np. nagłówki noindex, zabezpieczenia serwera czy uwierzytelnianie.
Administratorzy wykorzystują robots.txt, by ograniczyć indeksację zasobów nieprzeznaczonych dla użytkownika – jak panele logowania, katalogi techniczne czy strony testowe. Dobrze napisany plik może poprawić efektywność budżetu indeksowania i zapobiec pojawianiu się śmieciowego contentu w wynikach wyszukiwania. Źle skonfigurowany? Może wykluczyć całą stronę z indeksu i zniszczyć widoczność w Google’u jednym znakiem.
Mądrze napisany robots.txt to cichy bohater widoczności w sieci – pracuje w tle, ale jego wpływ na indeksowanie Twojej strony jest ogromny. Dzięki niemu możesz kierować uwagę Google dokładnie tam, gdzie chcesz – i chronić swoją stronę przed przypadkowymi wpadkami w wynikach wyszukiwania.
Wpływ robots.txt na stronę
Wpływ pliku robots.txt na stronę internetową wykracza daleko poza prostą kontrolę nad indeksacją. To narzędzie działa jak bramka selekcyjna: nie decyduje, czy strona zostanie zaindeksowana – od tego są meta tagi lub nagłówki HTTP – ale gdzie roboty mogą wejść i jak głęboko sięgnąć. Działa na poziomie infrastruktury crawlowania, czyli tego, jak boty Google „chodzą” po stronie, poruszając się z pomocą linków i analizując strukturę serwisu w obrębie witryny.
Robots.txt to pierwsza linia komunikacji między stroną a robotem Google’a – jeśli nie powiesz mu, czego nie ma ruszać, zrobi to po swojemu. To prosty, ale bardzo precyzyjny język, w którym liczy się każdy znak. W SEO to narzędzie strategiczne – nie tylko techniczne.
Max Cyrek, CEO of Cyrek Digital
Wyobraź sobie, że strona to galeria z wieloma pomieszczeniami. Robots.txt rozdaje klucze do tych pomieszczeń – pozwala lub zabrania zaglądania do wybranych części. Może ograniczyć dostęp do strefy testowej, zaplecza CMS-a, folderów z PDF-ami czy katalogów technicznych, które obciążają serwer, a nie wnoszą żadnej wartości do wyników wyszukiwania Google. Pozwala też uniknąć indeksowania wersji roboczych, filtrów, dynamicznych URL-i i duplikatów – rzeczy, które mogą osłabić jakość widoczności w wyszukiwarce lub prowadzić do niezamierzonego ukrywania strony internetowej.
W praktyce plik ten bezpośrednio wpływa na tzw. crawl budget, czyli limit zasobów, które Googlebot – oficjalny robot indeksujący Google – przeznacza na indeksowanie jednej witryny. Jeśli boty błąkają się po bezwartościowych podstronach, mogą pominąć te istotne. Przez to nowe treści pojawiają się w wynikach z opóźnieniem, a cała strona wygląda dla algorytmu mniej spójnie i mniej aktualnie.
Działa to też w drugą stronę. Zbyt agresywne wycinanie botów z kluczowych sekcji – np. plików zasobów takich jak CSS, JS czy zdjęcia – może zniekształcić sposób, w jaki Google renderuje stronę. A to z kolei wpływa na ocenę jakości UX i może obniżyć pozycję w wynikach wyszukiwania Google.
Warto też pamiętać, że robots.txt może zawierać odwołanie do mapy witryny – czyli pliku w formacie XML, który wskazuje robotom wszystkie ważne adresy HTTPS w witrynie, które warto odwiedzić. Wpisanie Sitemap: https://twojastrona.pl/sitemap.xml w pliku robots.txt pomaga Googlebotowi szybciej zorientować się, gdzie znajduje się kluczowa zawartość strony.
Cele robots.txt
Plik robots.txt nie powstał po to, żeby utrudniać życie wyszukiwarkom – wręcz przeciwnie. Jego głównym celem jest sterowanie ruchem robotów indeksujących w sposób, który chroni wydajność serwera i promuje treści naprawdę istotne z punktu widzenia widoczności. To narzędzie działa na zapleczu, ale wpływa na front tego, co widzi użytkownik i algorytm. Od jego konfiguracji zależy, czy proces indeksacji przebiegnie sprawnie, czy wyszukiwarka pogubi się w strukturze serwisu.
Nie każda dana strona powinna pojawić się w Google. Pliki logowania, zasoby tymczasowe, wyniki wyszukiwania wewnętrznego, panele admina – to elementy, które nie niosą wartości dla użytkownika, a mogą zaśmiecać indeks i obniżać jakość witryny w oczach algorytmu. Robots.txt pozwala je wyciąć z marszu, zanim zostaną w ogóle odwiedzone. Dodatkowo, dzięki precyzyjnemu wskazaniu lokalizacji pliku, boty wiedzą, gdzie kończy się otwarty dostęp.
Drugi cel to optymalizacja budżetu indeksowania. Google nie ma nieskończonych zasobów i nie odwiedza każdej strony równie często. Robots.txt pomaga mu skupić się na priorytetach: treściach kluczowych dla SEO, aktualizowanych regularnie, konwertujących. Im mniej czasu robot spędzi na nieistotnych podstronach, tym szybciej trafi do tych, które naprawdę mają znaczenie – w tym do stron z aktualną ofertą, contentem blogowym czy widocznością mediów, jak zdjęcia i pliki video, których dostępność może być kluczowa dla oceny jakości strony.
Przy dużych serwisach i sklepach internetowych, gdzie setki lub tysiące adresów mogą się dynamicznie generować, niekontrolowany crawl potrafi przeciążyć infrastrukturę. Robots.txt pozwala odciążyć backend, blokując zasoby generujące duży ruch botów, ale mało wartościowy ruch organiczny. Tu objawiają się ograniczenia pliku: nie zablokuje dostępu złośliwym robotom, nie zabezpieczy danych, ale sprawnie pokieruje ruchem tym, którzy reguł przestrzegają.
Dzięki robots.txt możesz zarządzać tym, jak wygląda Twoja witryna z punktu widzenia wyszukiwarki – które foldery są eksponowane, które ukryte, jakie wersje adresów są dostępne. To sposób na techniczne uporządkowanie chaosu – na zdefiniowanie, co ma trafić do indeksu, a co ma pozostać w cieniu. I choć wpisy w pliku nie wymagają dekoracji, warto pamiętać: w robots.txt nie ma miejsca na cudzysłowy drukarskie ani dodatkowe formatowanie – tylko surowy tekst, zrozumiały dla maszyny.
Ograniczenia robots.txt
Plik robots.txt to strażnik, ale nie policjant. Choć może wydawać się narzędziem kontrolnym, w rzeczywistości działa bardziej jak sugestia niż nakaz. Roboty wyszukiwarek, takich jak Googlebot, zazwyczaj respektują jego dyrektywy, ale nie są do tego zobligowane. Niektóre roboty – w tym scrapery, boty spamujące czy narzędzia automatyzujące pozyskiwanie danych – po prostu je ignorują. To oznacza, że jeśli ktoś użyje nieautoryzowanego bota albo scraper napisany z pominięciem zasad, robots.txt go nie powstrzyma – zostanie całkowicie zignorowany.
Robots.txt nie usuwa stron z indeksu. Jeśli strona została już wcześniej zaindeksowana i później ją zablokujesz, to treść może pozostać w wynikach wyszukiwania – ale bez fragmentu podglądu i bez możliwości kliknięcia. Dlaczego? Bo Google nie może już do niej zajrzeć i ocenić, co się tam znajduje, więc zostawia pusty szkielet. To może wywołać chaos informacyjny lub niechciane efekty w SERP-ach, zwłaszcza jeśli mówimy o duplikatach treści, które nagle stają się „niewidzialne” dla algorytmu.
Plik nie obsługuje złożonych reguł logicznych – działa na prostych wyrażeniach typu Disallow i Allow. Nie da się w nim ustawić zaawansowanej kontroli np. po czasie ostatniej aktualizacji lub liczbie linków przychodzących. Co więcej, niektóre dyrektywy działają tylko dla adresów URL zaczynających się od konkretnej ścieżki – brakuje tu wsparcia dla pełnych wyrażeń regularnych. W dodatku kolejność reguł ma znaczenie tylko w niektórych wyszukiwarkach – każda interpretuje je nieco inaczej, co rodzi ryzyko nieprzewidywalnych efektów działania w danym pliku.
Istotna też jest kwestia pozornej ochrony prywatności. Wielu właścicieli stron mylnie zakłada, że zablokowanie czegoś w robots.txt „ukryje” to przed światem. W praktyce wystarczy, że ktoś zna adres – i może wejść. Blokada dotyczy tylko robotów indeksujących, a nie dostępu dla użytkownika. Jeśli chcesz coś naprawdę zabezpieczyć, użyj uwierzytelniania lub nagłówków HTTP – a nie robots.txt. Bo robots.txt służy do zarządzania ruchem indeksującym, a nie do ukrywania wrażliwych danych.
Robots.txt nie zastępuje dobrze napisanej architektury informacji i strategii SEO. To plaster, nie chirurgia. Możesz go używać, by tymczasowo wyłączyć katalog lub odciążyć witrynę przed przeciążeniem serwera, ale nie zbudujesz na nim solidnego SEO. Warto go mieć, trzeba nim zarządzać, ale nie można na nim polegać jako na jedynym środku kontroli widoczności. Jeśli potraktujesz go jako wszechmocne narzędzie, wcześniej czy później się sparzysz.
Elementy robots.txt
Plik robots.txt to z pozoru zwykły dokument tekstowy, ale jego składniki wpływają na sposób, w jaki boty poruszają się po stronie. Każdy element pełni konkretną funkcję, a ich poprawne użycie decyduje o skuteczności całego pliku. Co ważne – wszystkie wpisy tworzy się w oparciu o kod ASCII, bez formatowania i bez znaków specjalnych, a wielkość liter ma znaczenie: /Admin/ i /admin/ to dla botów dwa różne adresy.
Oto główne komponenty, które zgodnie ze składnią powinny znajdować się w poprawnie skonfigurowanym pliku:
User-agent
To pierwszy punkt zaczepienia – określa, do którego robota wyszukiwarki kierujesz daną regułę. Może być ogólny (User-agent: *), co oznacza wszystkich, albo konkretny, np. User-agent: Googlebot. To jak rozpoczęcie rozmowy: „Hej, Googlebot, to do Ciebie mówię”.
Disallow
To zakaz wstępu – wskazuje ścieżki, których bot nie powinien odwiedzać. Przykład: Disallow: /admin/ mówi: „Trzymaj się z dala od panelu administracyjnego”. To najczęściej używana dyrektywa w całym pliku i kluczowy element kontroli dostępu. Wpływa na to, czy konkretne zasoby trafią do indeksu Google, czy zostaną pominięte już na etapie crawl.
Allow
To przeciwieństwo Disallow, ale nie zawsze musi iść samodzielnie. Najczęściej występuje w zestawie, np. gdy blokujesz cały katalog, ale chcesz wpuścić bota do jednej strony wewnątrz niego:
Disallow: /sklep/
Allow: /sklep/produkt-abc.html
Ta dyrektywa Allow ma niższy priorytet niż Disallow, ale przy odpowiednim ustawieniu (bardziej szczegółowa ścieżka) pozwala na precyzyjne sterowanie dostępem do podstron.
Sitemap
To wskazówka: „Tutaj znajdziesz mapę mojej strony”. Dodanie linku do pliku sitemap.xml pozwala botom szybciej i efektywniej zrozumieć strukturę serwisu. Przykład: Sitemap: https://www.twojastrona.pl/sitemap.xml. Choć nie jest dyrektywą kontroli dostępu, znacząco wspiera proces indeksowania, szczególnie gdy zależy Ci na szybkiej obecności nowych treści w indeksie Google.
Crawl-delay
To limit prędkości, który mówi botowi, ile sekund powinien odczekać między kolejnymi żądaniami. Stosuje się go, gdy bot przeciąża serwer. Przykład: Crawl-delay: 10 – czyli 10 sekund przerwy między jednym a drugim ruchem. Trzeba jednak pamiętać, że nie wszystkie roboty go respektują – szczególnie te bardziej agresywne lub niezależne.
Comment (komentarze)
Zaczynają się od # i nie wpływają na działanie pliku, ale pomagają utrzymać porządek i wyjaśnić, dlaczego dana reguła się tam znalazła. Przykład:
# Blokujemy dostęp do folderów technicznych
Metody generowania pliku robots.txt
Do tworzenia pliku robots.txt można wybrać jeden z kilku sposobów – od ręcznego kodowania po użycie zaawansowanych narzędzi wspierających zarządzanie większymi serwisami. Wybór metody zależy od wielkości strony, doświadczenia osoby odpowiedzialnej za SEO oraz potrzeb w zakresie kontroli dostępu. Oto najczęściej stosowane metody generowania tego pliku:
Ręczne tworzenie w edytorze tekstu
To najbardziej podstawowa i jednocześnie najczęściej stosowana metoda. Wystarczy otworzyć prosty edytor tekstu (jak Notatnik, VS Code czy Sublime Text), wpisać odpowiednie dyrektywy i zapisać zwykły plik tekstowy jako robots.txt. Tę metodę wybierają najczęściej osoby techniczne – webmasterzy i specjaliści SEO – którzy wiedzą, co chcą zablokować i jak to zapisać zgodnie ze składnią.
Wbudowane kreatory w CMS (np. WordPress, Joomla, Shopify)
Wiele systemów zarządzania treścią ma wtyczki lub natywne ustawienia pozwalające wygenerować i edytować plik robots.txt bez wchodzenia na serwer. W WordPressie popularna jest np. wtyczka Yoast SEO, która umożliwia zarówno podgląd, jak i edycję pliku z poziomu panelu administracyjnego. To metoda wygodna dla mniej technicznych użytkowników.
Narzędzia SEO i generatory online
W sieci dostępne są bezpłatne generatory pliku robots.txt, np. od SEOptimer, Ryte, czy Google Search Central (dawniej Webmaster Tools). Wybierasz z listy, co chcesz zablokować, dla jakiego bota i dostajesz gotowy kod. To szybkie rozwiązanie, ale wymaga świadomości, by nie wygenerować przypadkowo reguł, które zablokują zbyt wiele.
Automatyczne generowanie przez frameworki i sklepy internetowe
Niektóre frameworki (jak Next.js czy Laravel) oraz platformy e-commerce (np. PrestaShop, Magento) automatycznie tworzą robots.txt na podstawie domyślnych ustawień. Choć to wygodne, pliki te często wymagają ręcznego dopasowania – domyślne reguły bywają zbyt ogólne lub nieadekwatne do konkretnej strategii SEO.
Generowanie przez narzędzia DevOps lub CI/CD
W przypadku dużych serwisów i projektów opartych o pipeline’y CI/CD (Continuous Integration/Continuous Deployment), plik robots.txt może być generowany lub modyfikowany automatycznie w czasie wdrożeń – w zależności od środowiska (dev/staging/production). Przykład? W środowisku staging blokujesz wszystko (Disallow: /), a w produkcji dajesz pełny dostęp do treści.
Zasady tworzenia pliku robots.txt
Tworzenie pliku robots.txt to nie jest sztuka dla sztuki – to precyzyjna robota, która wymaga technicznej dyscypliny i strategicznego myślenia. Choć składnia pliku jest prosta, to konsekwencje błędów bywają drastyczne: jedno źle ustawione polecenie potrafi wyrzucić całą witrynę z wyników wyszukiwania. Dlatego trzeba trzymać się kilku żelaznych zasad.
- Plik musi znajdować się w katalogu głównym (ang. root directory). Google i inne boty nie będą go szukały w podfolderach. Ma być dostępny pod adresem https://twojastrona.pl/robots.txt, bo tylko tam zagląda robot. Jeśli go tam nie znajdzie, uzna, że nie ma żadnych ograniczeń.
- Zachowaj poprawną składnię i hierarchię reguł. Każdy wpis musi zaczynać się od deklaracji User-agent, a dopiero potem pojawiają się Disallow lub Allow. Bez tego bot nie wie, do kogo kierujesz polecenia. Dodatkowo: Google interpretuje tylko najdłuższą pasującą ścieżkę — jeśli masz sprzeczne reguły, ta bardziej szczegółowa wygrywa.
- Unikaj niepotrzebnych blokad. Nie blokuj zasobów takich jak pliki CSS, JS czy obrazki, jeśli są potrzebne do prawidłowego renderowania strony. Googlebot analizuje nie tylko treść, ale też wygląd i funkcjonalność – zablokowanie tych zasobów może zafałszować ocenę jakości strony i obniżyć jej pozycję.
- Nie traktuj robots.txt jako narzędzia do ukrywania danych. Ten plik jest publiczny — każdy może go podejrzeć. Jeśli próbujesz “ukryć” zawartość przez wpisanie Disallow, robisz to na pokaz, nie dla ochrony. Chcesz coś zabezpieczyć? Użyj autoryzacji serwera albo nagłówków noindex.
- Testuj plik przed publikacją. Nawet jeśli znasz składnię, zawsze warto sprawdzić gotowy plik w narzędziach takich jak Google Search Console (moduł „Tester pliku robots.txt”). Bo co innego pisać, a co innego zobaczyć, jak robot to interpretuje.
- Dokumentuj, co i dlaczego blokujesz. Dodawaj komentarze (# komentarz), zwłaszcza jeśli nad witryną pracuje więcej osób. Dzięki temu unikniesz sytuacji, w której ktoś usunie ważną regułę, bo nie rozumie jej celu.
- Dostosuj plik do etapu rozwoju serwisu. W środowiskach testowych możesz zablokować wszystko (Disallow: /), ale w produkcji powinieneś pozwolić robotom na crawl kluczowych treści. Brak aktualizacji pliku po migracji to jeden z częstszych błędów, które po cichu zabijają widoczność strony.
Plik robots.txt to nie tylko zestaw dyrektyw — to manifest tego, jak chcesz, by wyszukiwarki obchodziły się z Twoją witryną. Im bardziej przemyślany i dopasowany do architektury strony, tym skuteczniej prowadzi roboty tam, gdzie chcesz je mieć — a nie tam, gdzie same się zaplączą.
Umiejscowienie pliku robots.txt
Plik robots.txt musi znaleźć się w jednym, konkretnym miejscu — w katalogu głównym domeny, czyli bezpośrednio na poziomie root serwera. To nie jest kwestia konwencji, tylko twardy wymóg techniczny. Wyszukiwarki nie przeszukują katalogów w poszukiwaniu tego pliku — zaglądają wyłącznie pod jeden adres: https://twojastrona.pl/robots.txt.
Jeśli plik umieścisz w podkatalogu (/pliki/robots.txt), bot go zignoruje. Jeśli dasz go na subdomenie (cdn.twojastrona.pl/robots.txt), będzie obowiązywał tylko dla tej subdomeny — nie dla całej witryny. Każda domena i każda subdomena wymagają oddzielnego pliku robots.txt, osadzonego lokalnie w ich własnym katalogu głównym. Dla blog.twojastrona.pl i shop.twojastrona.pl potrzebujesz osobnych plików, jeśli chcesz zarządzać ich indeksacją.
W praktyce plik trafia do katalogu głównego serwera, czyli tam, gdzie znajduje się plik index.html lub index.php. Jeśli korzystasz z CMS-a, dostęp do katalogu root możesz uzyskać przez klienta FTP, SSH lub panel hostingowy. Tam umieszczasz plik tekstowy o nazwie dokładnie robots.txt — bez rozszerzenia .html, bez wielkich liter, bez dziwnych nazw typu robots_config.txt.
Jeśli masz stronę działającą tylko przez HTTPS, plik musi być dostępny również pod https://, nie tylko http://. Google i inne wyszukiwarki traktują te protokoły jako osobne byty, a brak wersji HTTPS może skutkować niepełnym crawlingiem.
Testowanie robots.txt
Najpewniejszym i najczęściej wykorzystywanym narzędziem do testowania plików robot.txt jest Tester w Google Search Console. Pozwala on w czasie rzeczywistym sprawdzić, czy dany adres URL jest dostępny dla konkretnego robota Google, np. Googlebot, Googlebot-Image czy Googlebot-News. Wystarczy wkleić zawartość pliku, podać adres strony i kliknąć „Testuj”. Google pokaże, czy dostęp został przyznany, czy zablokowany — oraz która reguła dokładnie za to odpowiada. To szczególnie ważne, gdy masz skomplikowany zestaw Allow i Disallow, które wzajemnie się przecinają.
Możesz też używać narzędzi zewnętrznych jak Screaming Frog SEO Spider, Ryte, Ahrefs czy DeepCrawl – które analizują plik robots.txt w kontekście całej struktury witryny i wskazują nie tylko błędy, ale też potencjalne kolizje w regułach lub brak dostępu do plików krytycznych (np. CSS i JS).
W testowaniu ważna jest też obserwacja długoterminowa. Po wdrożeniu zmian monitorujesz, czy boty odwiedzają ważne podstrony i czy zawartość pojawia się w indeksie. Pomagają w tym logi serwera (w których widać, które zasoby crawlował robot), raporty z Google Search Console (np. „Stan indeksowania” lub „Pokrycie”) oraz narzędzia do monitorowania widoczności jak Senuto, Semrush czy Searchmetrics.
Nigdy nie testuj zmian „na produkcji w ciemno”. Twórz kopie robocze pliku robots.txt, testuj je w środowisku staging lub lokalnie. A dopiero po weryfikacji wgrywaj na serwer główny. Bo jeśli zablokujesz robotom dostęp do całej strony, dowiesz się o tym dopiero wtedy, gdy Twoje wyniki w Google zaczną topnieć – a wtedy będzie już za późno na szybkie naprawy.
FAQ
Formularz kontaktowy
Zadbaj o widoczność swojej witryny

Specjalista SEO z ponad 12-letnim doświadczeniem w budowaniu strategii widoczności marek w wyszukiwarkach. Head of SEO w Cyrek Digital, a od 2024 roku również lider zespołu Performance Marketingu. Odpowiada za planowanie działań SEO w oparciu o dane, analizę algorytmów Google oraz skuteczne wdrażanie synergii między działaniami SEO, Google Ads i content marketingiem.
Skutecznie łączy analityczne podejście z komunikacją zespołową — wspiera specjalistów w tworzeniu zoptymalizowanych treści, które przekładają się na wysokie pozycje w SERP-ach i realny wzrost konwersji. Ekspert w zakresie technicznego SEO, optymalizacji contentu, researchu słów kluczowych oraz integracji danych z narzędzi takich jak GA4, GSC czy Looker Studio.
Oceń tekst
Być może zainteresują Cię:


