Spis treści

Wybierz do której części artykułu chcesz przejść

Jeśli prowadzisz stronę internetową, z pewnością słyszałeś o pojęciu robots.txt. Dla wielu właścicieli witryn to po prostu jeden z technicznych elementów, który „gdzieś tam musi być”. Dla specjalistów SEO – ważny plik kontrolujący dostęp robotów wyszukiwarek do zawartości strony. W praktyce plik robots.txt może wpłynąć na to, czy dana podstrona znajdzie się w wynikach wyszukiwania, czy też zostanie przez robota Google całkowicie zablokowana.

W tym artykule dowiesz się, czym dokładnie jest robots.txt, jak działa, jak wygląda jego składnia, co zawiera jego zawartość, a także jak go poprawnie utworzyć, wdrożyć i testować – zarówno w przypadku prostych witryn, jak i systemów takich jak WordPress.

Czym dla wyszukiwarki google jest plik robots.txt?

Robots.txt to specjalny plik tekstowy, który znajduje się w głównym katalogu domeny i zawiera instrukcje dla robotów indeksujących, np. Googlebota, czyli robota wykorzystywanego przez Google Search. Za jego pomocą możemy określić, które części witryny mają być indeksowane, a które chcemy wykluczyć z procesu indeksacji.

To nie jest plik dla ludzi – robots.txt powstał z myślą o robotach wyszukiwarek, które analizują jego treść tuż po wejściu na naszą stronę. Dzięki niemu można na przykład zablokować dostęp do panelu logowania, folderów z plikami tymczasowymi, zasobów o niskiej wartości SEO czy stron testowych, które nie powinny pojawiać się w wynikach wyszukiwania.

Jak działa robots.txt i co zawiera?

Z punktu widzenia technicznego, plik robots.txt jest bardzo prosty. Składa się z jednej lub kilku dyrektyw, które wskazują, jak konkretny robot (określony za pomocą user-agent) ma się zachować względem wybranych zasobów. Najczęściej używane dyrektywy to:

  • User-agent – określa, którego robota wyszukiwarki dotyczy dana reguła (np. Googlebot).
  • Disallow – oznacza zakaz dostępu do wskazanego adresu URL lub katalogu.
  • Allow – umożliwia dostęp, często stosowane w kontrze do Disallow, zwłaszcza gdy chcemy dopuścić konkretny plik z zablokowanego folderu.
  • Sitemap – wskazuje lokalizację mapy strony XML, co ułatwia robotom indeksację.

Dla przykładu, poniższy kod oznacza, że wszystkie roboty mają zablokowany dostęp do folderu /private/, ale mogą wejść do pliku /private/info.html:

User-agent: *
Disallow: /private/
Allow: /private/info.html

Taki plik zapisujemy w formacie txt UTF-8 i umieszczamy na serwerze, dokładnie w lokalizacji: https://twojadomena.pl/robots.txt.

Jak utworzyć plik robots.txt?

Tworzenie pliku robots.txt nie wymaga specjalnego oprogramowania. Wystarczy edytor tekstowy, np. Notepad++ lub Visual Studio Code. Ważne, by zapisać plik jako czysty tekst (bez formatowania), z rozszerzeniem .txt i nazwą „robots”.

Po zapisaniu, plik należy przesłać na główny katalog domeny – najczęściej przez FTP lub panel zarządzania plikami w hostingu. Jeśli strona działa na WordPressie, dostęp do pliku można uzyskać również poprzez wtyczki SEO, np. Yoast SEO, które umożliwiają edycję zawartości pliku robots.txt bez konieczności logowania się na serwer.

AD 4nXeA vw9eI77TRLdlnrXyldzoPpIklU0Lme 14W4d8tavI7L0cHWlGa 91lvaKzsd29PpizoUDgMy4SmRadLtCslvUybP8txR2kAkT2KRR8z7nLMuCm05mv9ti7TblXsranMhFg4?key=auw2sxE7 jUQZJmrFfutg

Co można zablokować w robots.txt?

Nie wszystko, co chcemy „ukryć” przed światem, powinno być blokowane za pomocą robots.txt. Ten plik nie chroni danych – nie jest zabezpieczeniem przed dostępem użytkowników, a jedynie prośbą do robotów, by nie indeksowały danego zasobu. Roboty przestrzegają tych zasad, ale złośliwy użytkownik może w każdej chwili wejść pod dany adres URL i zobaczyć zawartość.

Typowe zastosowania robots.txt obejmują:

  • zablokowanie dostępu do katalogów systemowych, takich jak /wp-admin/ w WordPressie,
  • wykluczenie zasobów nieistotnych z punktu widzenia SEO (pliki .pdf, obrazy, archiwa),
  • zapobieganie indeksowaniu duplikatów treści, np. wyników wyszukiwania wewnętrznego,
  • ograniczenie indeksacji zasobów generowanych dynamicznie, np. filtrów w e-commerce,
  • wskazanie ścieżki do sitemap.xml, co wspomaga roboty Google w pełnym skanowaniu witryny.

Jak sprawdzić poprawność pliku robots.txt?

Po utworzeniu i wdrożeniu pliku, warto przeprowadzić testowanie, by upewnić się, że reguły działają zgodnie z oczekiwaniami. Najlepszym miejscem do tego jest Google Search Console, a konkretnie narzędzie „Tester pliku robots.txt” (dostępne w starszej wersji GSC).

Możesz również po prostu wpisać adres: https://twojadomena.pl/robots.txt i sprawdzić zawartość pliku w przeglądarce. Jeśli roboty indeksujące mają działać zgodnie z Twoją strategią SEO, każdy błąd w pliku może skutkować nieindeksowaniem ważnych stron lub, przeciwnie – ujawnieniem treści, które powinny zostać ukryte.

Warto pamiętać, że błędna składnia pliku może uniemożliwić jego interpretację przez roboty wyszukiwarek. Dlatego dobrze jest trzymać się oficjalnych zaleceń Google i testować każdą zmianę przed jej wprowadzeniem na produkcji.

Robots.txt a SEO – co warto wiedzieć?

Choć robots.txt to techniczny element witryny, ma ogromny wpływ na optymalizację SEO. Przede wszystkim umożliwia zarządzanie zasobami, które mają być widoczne w wyszukiwarce, a które powinny być pominięte. Z jego pomocą możemy kontrolować, które strony pojawią się w Google Search, a które nie obciążą niepotrzebnie procesu crawl.

Ważne jest jednak, by stosować go z rozwagą. Nieumiejętnie napisany plik robots.txt może doprowadzić do wykluczenia całych sekcji witryny z indeksu Google. Pamiętaj też, że Googlebot Disallow nie oznacza usunięcia treści z wyników – jeśli strona była już zindeksowana i później ją zablokujesz, Google nadal może ją wyświetlać, ale bez opisu.

Zamiast tego, do trwałego usuwania treści lepiej używać metadanych noindex lub odpowiednich nagłówków HTTP. Robots.txt służy do zarządzania crawl budgetem i wskazywania priorytetów robotom, a nie do całkowitego blokowania obecności w wyszukiwarce.

Robots.txt w CMS-ie WordPress – jak to wygląda?

W przypadku stron opartych na WordPressie, system ten automatycznie generuje domyślny plik robots.txt, dostępny pod adresem twojastrona.pl/robots.txt. Taki plik zawiera najprostsze dyrektywy, ale zazwyczaj nie wystarcza dla bardziej zaawansowanych działań.

Jeśli posiadasz WordPressa korzystasz z wtyczek SEO, takich jak Yoast SEO, możesz z poziomu panelu administracyjnego edytować plik robots.txt, dodając własne reguły. To przydatne, jeśli chcesz zablokować konkretne katalogi, adresy URL lub eksperymentować z różnymi instrukcjami.

Podsumowanie

Robots.txt

Robots.txt to niepozorny, ale niezwykle ważny element każdej strony internetowej. To właśnie on mówi robotom wyszukiwarek, co mogą indeksować, a co należy wykluczyć. Odpowiednio przygotowany plik robots.txt pozwala zoptymalizować pracę Googlebota, zadbać o prywatność danych i poprawić efektywność działań SEO.

Choć jego struktura jest prosta, konsekwencje błędnej konfiguracji mogą być poważne. Dlatego warto zrozumieć, jak działa, jak go utworzyć, gdzie wdrożyć, jak sprawdzić jego działanie i kiedy go używać z rozwagą. Tylko wtedy roboty indeksujące będą poruszać się po Twojej stronie zgodnie z Twoimi intencjami, a adresy URL pojawią się w wyszukiwarkach dokładnie tak, jak chcesz.

Zostań partnerem inmarketing!

Skontaktuj się z nami
Bartłomiej Speth SEO Specialist

Bartłomiej Speth

SEO Specialist

W inmarketing Bartek zajmuje się pozycjonowaniem stron klientów czyli SEO 🙂 Przeprowadza audyty stron, zarówno pod kątem technicznym jak i contentowym. Dba o wartościowy link building pozycjonowanych stron. W branży od 2008 roku, odczuł na własnej skórze wszystkie możliwe aktualizacje algorytmów wyszukiwarki Google. Od początku kariery słyszy, że SEO umarło, mimo to nadal ma się dobrze 🙂