Plik robots.txt – co to jest, jak go poprawnie używać?

Plik robots.txt – co to jest, jak go poprawnie używać?

Dzięki robots.txt możemy komunikować się z robotami indeksującymi naszą stronę internetową. Warto zasugerować im, w jaki sposób powinny to zrobić. W tym celu musimy jednak poznać zrozumiały dla nich język.

Ostatnio na naszym blogu: Struktura URL - jaka zbudować przyjazny link?

Celem stworzenia własnej strony zawsze jest chęć bycia widocznym w internecie. Dlatego też coraz częściej decydujemy się na optymalizację witryny pod kątem wytycznych Google, by pojawiała się jak najwyżej w wynikach organicznych. Podstawowe pytanie brzmi – jak to się dzieje, że Google lub inna wyszukiwarka zna treść naszej strony? Otóż po nieprzebranych zasobach internetu wędrują tzw. roboty indeksujące. W przypadku wysłanników wyszukiwarek, ich głównym zadaniem jest właśnie badanie treści witryn. Kiedy już trafią na naszą, warto poinformować je gdzie mogą, a gdzie nie powinny zaglądać. Istnieje bowiem pewna grupa podstron, których widoczność jest niewskazana.

Robots.txt – co to jest?

Do komunikacji z robotami internetowymi wykorzystujemy między innymi plik robots.txt. To właśnie tego prostego pliku tekstowego poszukują jako pierwszego, gdy dotrą na naszą witrynę. Składa się on z kombinacji komend zgodnych ze standardem Robots Exclusion Protocol – “językiem” zrozumiałym dla botów. Dzięki temu możemy wpłynąć na kierunek ich ruchu, ograniczając dostęp do zasobów, które w kontekście wyników wyszukiwania są zbędne. Mogą być to pliki graficzne, style, skrypty, a co najważniejsze – określone podstrony naszej witryny.

Miejsca, których robot nie powinien indeksować

Strony internetowe już dawno przestały być prostymi plikami zawierającymi tylko i wyłącznie treść w postaci tekstu. Zwłaszcza sklepy internetowe posiadają często tysiące podstron, wsród których pewna część nie ma żadnej wartości w kontekście wyników wyszukiwania, a w najgorszym wypadku spowoduje duplikację treści (Jakie to strony i jak sobie z nimi radzić dowiesz się z naszego wcześniejszego wpisu o duplikacji treści).

Elementy, takie jak sklepowy koszyk, wewnętrzna wyszukiwarka, procedura składania zamówienia czy panel użytkownika, nie powinny być dostępne dla robotów. Dużo większe jest prawdopodobieństwo, że ze względu na swoją konstrukcję, wprowadzą zbędne zamieszanie, niż to, że poprawią naszą widoczność w SERPach.Warto blokować również kopie podstron wykonywane przez CMS, które zwiększają duplikację wewnętrzną strony.

Zachowaj szczególną ostrożność!

Tworząc reguły kierujące ruchem botów indeksujących, należy dobrze znać strukturę strony internetowej. Istnieje bowiem ryzyko, że jedną komendą zablokujemy im dostęp do całości witryny lub ważnych dla nas treści. Rezultat będzie więc odwrotny do zamierzonego – znikniemy z wyników wyszukiwania.

Robots.txt to tylko zalecenia

Wspomniany wcześniej protokół komunikacji to tzw. system honorowy. Robot może podążać za naszymi zaleceniami, ale nie możemy mu w ten sposób naszej woli narzucić. Dzieje się tak z różnych powodów. Przede wszystkim, robot Google – czyli Googlebot – nie jest jednym botem przeglądającym strony internetowe. O ile twórcy największej na świecie wyszukiwarki zapewniają, że ich wysłannik uzna nasze zalecenia, o tyle inne już nie muszą. Konkretny adres URL może również zostać zaindeksowany, jeśli link do niego pojawi się na innej, indeksowanej witrynie. W zależności od potrzeb, można się przed taką sytuacją uchronić na kilka sposobów. Przykładem może być tutaj metatag “noindex” lub nagłówek HTTP “X-Robots-Tag”. Prywatne dane zawsze warto zabezpieczyć hasłem – roboty nie potrafią sobie z nim poradzić. Dlatego też w kontekście tego pliku mówimy o ukrywaniu danych, a nie ich kasowaniu z indeksu wyszukiwarki.

Jak stworzyć plik robots.txt?

W internecie znaleźć można wiele generatorów, a systemy CMS wyposażone są często w mechanizm wspierający użytkownika w tworzeniu takiego pliku. Niewielkie są szanse, że pojawi się konieczność ręcznego przygotowania instrukcji. Warto jednak poznać składnię protokołu, czyli reguły i komendy jakie możemy wydać robotom indeksującym.

Konstrukcje

Tworzymy plik tekstowy robots.txt. Według zaleceń Google system kodowania znaków to ASCII lub UTF-8. Generalnie – powinien być jak najprostszy. Do wydawania poleceń używamy kilku kluczowych słów zakończonych dwukropkiem, tworząc reguły dostępu.

User-agent: – określa adresata komendy. Wpisujemy tutaj nazwę bota indeksującego. W internecie znajdziemy obszerną bazę nazw (http://www.robotstxt.org/db.html), najczęściej jednak chcemy się komunikować z robotem Google – czyli wspomnianym już Googlebot lub wszystkimi na raz – używamy wówczas gwiazdki “*”. Przykładowo więc, dla bota Google pierwsza linijka reguł wygląda następująco:

User-agent: Googlebot

Disallow: – po tym słowie podajemy adres, którego boty nie powinny skanować. Najpopularniejsze metody to ukrywanie zawartości całych katalogów poprzez wpisanie ścieżki dostępu zakończonej symbolem “/”, np:

Disallow: /zablokowany/

lub plików:

Disallow: /katalog/zablokowanyplik.html

Allow: – jeśli wewnątrz ukrytego katalogu znajduje się zawartość, którą chcielibyśmy udostępnić robotom do przeskanowania, ścieżkę do niej podajemy po słowie Allow:

Allow: /zablokowany/odblokowanykatalog/

Allow: /zablokowany/inne/odblokowanyplik.html

Sitemap:  – po tym słowie określamy ścieżkę do mapy witryny  Element ten nie jest jednak konieczny do prawidłowego działania pliku robots.txt. Przykładowo:

Sitemap: http://www.mojswietnyadres.com/sitemap.xml

Zasady wprowadzania oznaczeń w robots.txt

Reguła domyślna

Przede wszystkim warto pamiętać, że domyślną instrukcją dla robotów indeksujących jest zgoda na przeskanowanie całej witryny. Tak więc, jeśli plik robots.txt ma mieć postać właśnie tej reguły:

User-agent: *
Allow: /

to nie mamy obowiązku umieszczenia go w katalogu strony. Boty będą ją skanować według własnego uznania. Warto jednak taki plik zamieścić, aby uniknąć ewentualnych błędów podczas jej analizy.

Wielkość liter

Może to być zaskoczeniem, ale roboty są w stanie rozpoznawać małe i wielkie litery. Zatem plik.php i Plik.php będą dla nich dwoma różnymi adresami.

Potęga gwiazdki

Inną, praktyczną funkcjonalnością jest operator wieloznaczny, czyli wspomniana już wcześniej gwiazdka – *. W Robots Exclusion Protocol jest to informacja, że w danym miejscu może się pojawić dowolny ciąg znaków, nieograniczonej długości (również zerowej). Przykładowo, reguła:

Disallow: /*/plik.html

będzie dotyczyć zarówno pliku znajdującego się w lokalizacji:

/katalog1/plik.html

jak i tego w folderze:

/folder1/folder2/folder36/plik.html

Gwiazdkę możemy wykorzystać w inny sposób. Instrukcja w której umieścimy ją przed konkretnym rozszerzeniem pliku, pozwala nam odnieść regułę do wszystkich plików tego typu. Przykładowo:

Disallow: /*.php

odniesie się do wszystkich plików .php na naszej stronie (z wyjątkiem ścieżki “/”, nawet jeśli prowadzi to pliku o rozszerzeniu .php), a reguła:

Disallow: /folder1/test*

do wszystkich plików i katalogów w folderze folder1 ze znakami “test” na początku.

Zakończenie ciągu znaków

Warto również wiedzieć o istnieniu operatora “$” który oznacza koniec adresu. Tym sposobem, dla przykładu korzystając z reguły:

User-agent: *
Disallow: /folder1/
Allow: /folder1/*.php$

zalecimy, by boty nie indeksowały zawartości katalogu folder1, ale jednocześnie pozwolimy na skanowanie plików .php w jego wnętrzu. Ścieżki zawierające np. przesłane parametry typu:

http://mojastrona.pl/katalog1/strona.php?page=1

nie będą sprawdzane przez boty. Tego typu kwestię można jednak łatwo rozwiązać przy użyciu linków kanonicznych.

Komentarze

Jeżeli powstały plik i nasza strona są dość złożone, warto dodać komentarze wyjaśniające nasze decyzje. Jest to bardzo proste – wystarczy dodać “#” na początku linii. Roboty podczas swojej pracy pominą jej zawartość.

Kilka przykładów

Regułę, która odblokowuje dostęp do wszystkich plików, przytoczyliśmy wcześniej. Warto również poznać tę, która spowoduje że boty opuszczą naszą witrynę.

User-agent: *
Disallow: /

Jeśli więc nasza strona nie jest w ogóle widoczna w wyszukiwarce, warto sprawdzić czy w jej pliku robots.txt nie znalazł się ten zapis.

Ciekawym przykładem gotowego pliku robots.txt może być poniższy, znajdujący się na stronie sklepu internetowego: 

Przykład pliku robots.txt

Zawiera on zbiór wszystkich wspomnianych wcześniej konstrukcji oprócz niewymaganego Sitemap. Reguły kierowane są do wszystkich botów. Zablokowano np. katalog “environment” jednocześnie dopuszczając roboty do ścieżki “/environment/cache/images/”. Niedostępne dla wyszukiwarki będą tutaj również m.in. koszyk, strony logowania, kopie treści (index, full) a także wewnętrzna opcja szukaj czy dodawanie komentarzy.

Gdzie umieścić plik robots.txt?

Stworzyliśmy już plik tekstowy zgodny ze wszystkimi standardami. Jedyne co nam pozostało, to przesłać go na serwer. Tutaj zasada jest bardzo prosta. Musi się on znaleźć w katalogu głównym hosta naszej strony internetowej. Każda inna lokalizacja spowoduje, że boty go nie odnajdą. Tak więc przykładowy adres to:

http://mojastrona.pl/robots.txt

Jeżeli posiadamy kilka wersji adresu, np. z http, https, www i bez www, warto zastosować odpowiednie przekierowania do jednej, głównej domeny. Dzięki temu będą się one indeksować poprawnie.

Informacje dla Google

Prawidłowo zlokalizowany plik zostanie rozpoznany przez roboty wyszukiwarki. Jednak możemy im w tym dodatkowo pomóc. Google umożliwia użytkownikom narzędzia Search Console przetestowanie obecnego pliku, sprawdzenie działania planowanych modyfikacji i zgłoszenie nowego pliku robots.txt. Linki z oficjalnej dokumentacji Google kierują do starej wersji GSC, więc i my z niej skorzystamy.

Robots.txt - sprawdzanie
źródło: https://www.google.com/webmasters/tools/robots-testing-tool

Korzystając z tego narzędzia możemy sprawdzić, czy konkretne elementy naszej witryny są widoczne dla robotów. Dla przykładu adres /wp/wp-admin/test.php będzie dla nich niedostępny ze względu na ograniczenie nałożone linijką oznaczoną na czerwono. Jeśli zaktualizowaliśmy plik robots.txt możemy o tym poinformować Google korzystając z opcji “Prześlij”, prosząc o ponowną weryfikację.

Podsumowanie

Plik robots.txt jest zbiorem zaleceń dla botów indeksujących naszą witrynę. Nie mają obowiązku się do nich zastosować. Jednak największe wyszukiwarki honorują nasze instrukcje. Jeśli więc przygotowaliśmy plik zgodnie z zaleceniami Google, z pewnością przyczyni się on do prawidłowego zaindeksowania kolejnych podstron. Chcąc całkowicie i ze stuprocentową pewnością zablokować dostęp do określonych danych na serwerze, warto jednak wykorzystać inne metody, wśród których najpewniejszą będzie trudne do złamania hasło.

  5,00 / 5 ( 2 )
Autor
Junior SEO Specialist - Bartek

Junior SEO Specialist

W Delante pracuje od maja 2018 r. W swojej pracy tworzy treści, dostosowane nie tylko do wymogów wyszukiwarek, ale przede wszystkim do potencjalnego czytelnika. Pasjonat nowych technologii, głównie w zakresie komunikacji, internetu i odnawialnych źródeł energii.

Ostatnio na naszym blogu

Jesteś ciekawy, jak wygląda pozycjonowanie sklepów internetowych, a może chcesz wejść na rynek szwajcarski i ciekawi Cię, jak wygląda pozycjonowanie zagraniczne? Na naszym blogu znajdziesz odpowiedzi na te pytania i wiele innych porad ważnych dla rozwoju Twojego biznesu.