Spis
treści
Co to są roboty Google??
Robotami nazywa się programy, które za pomocą linków automatycznie odnajdują i skanują strony internetowe. Główny robot indeksujący Google’a to Googlebot (określany również mianem crawlera czy pająka), a każda wyszukiwarka (Bing, Yahoo itp.) ma własnego bota.
Googlebot został tak zaprojektowany, aby mógł równolegle działać na milionach komputerów. Wyszukuje on nowe i zaktualizowane treści, odczytuje je, a następnie ocenia, czy dany zasób warto dodać do indeksu, czyli bazy danych wyszukiwarki zawierającej informacje o wszystkich stronach internetowych. Jeśli tak się stanie, to do zasobu mają dostęp wszyscy użytkownicy Internetu.
Należy jednak wyjaśnić, że pod nazwą Googlebot kryją się tak naprawdę 2 rodzaje robotów indeksujących Google’a:
- komputerowy – robot symulujący działania użytkownika na komputerze,
- na smartfony – robot symulujący działania użytkownika na urządzeniu mobilnym.
Warto wiedzieć, że Google w obrębie większości stron internetowych indeksuje głównie wersję mobilną witryny. Oznacza to, że większość żądań indeksowania realizuje robot na smartfony, a dopiero pozostałe robot komputerowy.
Wśród innych botów indeksujących można wymienić robota Google’a do weryfikacji witryn w ramach Mobile-Friendly Test Tool i Google Search Console. Co ważne, taki crawler ignoruje reguły w pliku robots.txt.
Jak działają roboty Google?
Aby Twoja strona znalazła się w SERP-ach, musi przejść przez proces indeksowania, na który składają trzy czynności – crawling, indexing, ranking. Omówmy dokładniej każdą z nich.
Skanowanie (crawling)
Roboty Google’a cały czas szukają nowych i zaktualizowanych stron. Niektóre witryny są już im znane, bo zostały wcześniej odwiedzone przez crawlery. O nowych stronach Google dowiaduje się, badając zawartość napotkanych na innych stronach linków. Wykrywanie adresów URL odbędzie się tylko wtedy, gdy Googlebot uzyska dostęp witryny, a nie zawsze tak się dzieje, o czym więcej w dalszej części artykułu.
Indeksacja (indexing)
Kiedy roboty Google odkryją nową stronę, w pierwszej kolejności szukają pliku robots.txt, w którym znajdują się informacje o tym, do których adresów URL w serwisie crawlery mogą mieć dostęp. Taki plik usprawnia samo indeksowanie, ponieważ dzięki niemu nie dochodzi do przeciążenia serwera na skutek nadmiernych żądań Googlebota. Plik robots.txt wskazuje również, które strony są nieistotne lub podobne do tych, które już zostały wcześniej zaindeksowane.
Następnie roboty Google’a przystępują do renderowania witryny w taki sposób, jak zrobiłaby to przeglądarka. Próbują przy tym określić tematykę stronę, przetwarzając i analizując dostępną zawartość tekstową, słowa kluczowe, znaczniki title czy atrybuty alt.
W trakcie indeksowania Googlebot weryfikuje również, czy strona jest kanoniczna, czy stanowi duplikat innej strony. Strona kanoniczna to taka, które może pojawić się w wynikach wyszukiwania. Do tego celu roboty Google’a gromadzą w klaster wszystkie strony o podobnej tematyce w obrębie danej domeny i następnie wybierają tę, która jest najbardziej reprezentatywna dla danej frazy.
Dane o stronie kanonicznej i jej klastrze mogą być przechowywane w indeksie Google’a, ale nie muszą, ponieważ nie każda strona przetwarzana przez roboty jest indeksowana.
Wyświetlanie wyników wyszukiwania (Ranking)
Po wpisaniu przez użytkownika zapytania, Google wyszukuje w swoim indeksie strony, które mu odpowiadają i następnie wyświetla te, które są jego zdaniem najtrafniejsze. Takie zestawienie powstaje w oparciu o wielu czynników rankingowych. Jeśli Twoja strona została tylko zaindeksowana, ma szansę pojawić się w SERP-ach.
Już na etapie indeksacji Googlebot zbiera informacje o stronie kanonicznej (np. języku czy kraju). W ten sposób na zapytanie “wymiana opon” inne wyniki będą wyświetlać się w Opolu, a inne w Berlinie.
Fragment wyników wyszukiwania dla frazy “wymiana opon”, własny zrzut ekranu
Od rodzaju wpisywanej frazy zależą również funkcje wyszukiwania w SERP-ach. Dla zapytania “wymiana opon” pojawią się raczej wyniki lokalne, ale już dla “opony zimowe” wyświetlą się z większym prawdopodobieństwem wyniki wyszukiwania obrazów.
Fragment wyników wyszukiwania na frazę “opony zimowe”, własny zrzut ekranu
Indeksowanie strony uzależnione jest od jej zawartości i metadanych opisujących zasoby witryny w sposób czytelny dla robotów Google’a. Dzięki temu crawlery lepiej orientują się w tym, czego dotyczy dana domena.
Wśród najczęstszych problemów związanych z indeksowaniem można wskazać:
- nieuzasadnione użycie tagu “noindex”, który wskazuje robotom Google’a, że mają danej strony nie indeksować,
- posiadanie treści niskiej jakości, tzw. thin content,
- publikowanie treści, która nie odpowiada oczekiwaniom użytkowników, na przykład nie jest wartościowym i unikalnym źródłem informacji, a powiela treści dostępne już w innych serwisach.
Googlebot został tak pomyślany, aby nie indeksował domeny zbyt często, bo mogłoby to doprowadzić do jej przeciążenia. Proces odbywa się w oparciu o kody odpowiedzi witryny – na przykład gdy występują błędy typu 500, indeksowanie zwalnia – oraz ustawień w Google Search Console.
Jeśli widzisz, że do Twojej strony Googlebot wysyła zbyt dużo żądań na sekundę, spowalniając w ten sposób pracę serwera, możesz ograniczyć te działania, zmieniając dotychczasowe ustawienia w Search Console.
Mówiąc o liczbę zaindeksowanych stron i szybkości całego procesu, trzeba wyjaśnić, czym jest crawl budget, czyli budżet indeksowania. Określa on liczbę stron, jaką Googlebot jest w stanie zaindeksować w danym czasie. Wielkość crawl budgetu zależy m.in. od szybkości serwera i wydajności Twojej strony internetowej. Jeśli czas ładowania witryny jest zbyt długi, roboty Google’a będą indeksować mniej.
Warto dodać, że popularne adresy URL, które cieszą się większym ruchem, są indeksowane częściej, ponieważ Google’owi zależy na tym, aby były one w indeksie zawsze aktualne.
Bądź na bieżąco z nowinkami ze świata SEO!
Zapisz się do newslettera
What Is Infinite Scrolling?
Do stworzenia rankingu wyników wyszukiwania, Google wykorzystuje specjalny algorytm, który na przestrzeni lat mocno ewoluował i ciągle jest poddawany mniejszym i większym aktualizacjom. Wszystko po to, by jakość otrzymywanych wyników w SERP-ach była jak najwyższa.
Na działanie algorytmu składa się blisko 200 czynników rankingowych, choć zdecydowanej większości z nich Google nigdy oficjalnie nie potwierdził. Są jednak pewne wyjątki. Wśród nich można wskazać:
- backlinki – pozyskiwanie linków zewnętrznych to jeden z warunków, by roboty Google’a mogły trafić na Twoją witrynę. I choć nikt nie wie, co decyduje o tym, że jeden link jest bardziej skuteczny od drugiego, to należy zadbać, by pochodził z silnej i pokrewnej tematycznie domeny.
- responsywność – przystosowanie strony do urządzeń mobilnych stało się czynnikiem rankingowym najpierw na mobile’u, a później na desktopach.
- prędkość ładowania strony – już w 2010 roku szybkość strony uznano za czynnik rankingowy na komputerach, a osiem lat później na urządzeniach mobilnych. Obecnie do mierzenia szybkości Google wykorzystuje Core Web Vitals.
- certyfikat SSL – już w 2014 r. Google potwierdził, że szyfrowanie https należy do sygnałów rankingowych.
Poza tym na podstawie licznych obserwacji ekspertów SEO można stwierdzić, że dla robotów Google’a równie ważne są:
- słowa kluczowe zawarte w metatagach i nagłówkach,
- linkowanie wewnętrzne,
- wiek domeny (przyjmuje się, że im starsza, tym większym autorytetem obdarza ją Google),
- przyjazne adresy URL,
- wartościowe treści wyczerpujące temat,
- optymalizacja obrazów,
- właściwe użycie tagu “canonical”,
- i wiele, wiele innych.
Jeżeli Twoja strona zaczyna tracić widoczność w wynikach wyszukiwania, przyczyn może być wiele. W pierwszej kolejności warto przyjrzeć się linkom przychodzącym – jeśli są słabe i pochodzą ze spamerskich domen, mogą wpływać na utratę pozycji.
Poza tym zwróć uwagę na duplicate content, czyli powielanie w obrębie kilku adresów URL tej samej treści. Zdarza się, że indeksowane są chociażby wersje testowe strony, które na etapie budowy witryny nie zostały odpowiednio zablokowane przed działaniem robotów Google’a. A w ten sposób powstaje właśnie duplikacja treści względem właściwej strony. Duplicat content będzie również generować błędna indeksacja produktów w sklepie internetowym.
Witryna może również tracić widoczność, gdy dochodzi do kanibalizacji fraz, czyli dwa adresy URL są pozycjonowane na te same słowa kluczowe. Utratę pozycji może również powodować przeoptymalizowanie strony słowami kluczowymi.
Blaski i cienie indeksacji
Indeksacja strony sprawia, że jest ona w ogóle widoczna w SERP-ach – może tym samym budować widoczność i generować ruch. W przeciwnym razie prace związane z powstaniem Twojego serwisu byłyby daremne, bo nikt nie mógłby na niego trafić. Innymi słowy, Twoja strona byłaby “martwa”.
Jeśli natomiast nie pojawiasz się w rankingu Google’a, powodów może być kilka:
- Twoja strona jest nowa i nie została jeszcze zindeksowana przez Googlebota,
- do Twojej witryny nie prowadzą żadne linki przychodzące,
- korzystasz z dyrektyw dla robotów, które blokują indeksację,
- niewłaściwa nawigacja Twojej strony uniemożliwia robotowi skuteczne indeksowanie,
- Google nałożył na Twoją stronę karę za spamerskie linki.
Jeżeli chcesz z kolei przyspieszyć proces związany z indeksowaniem danej strony, zastosuj się do poniższych wytycznych:
- upewnij się, że nie używasz tagu “noindex”,
- uzyskaj link zwrotny z domeny o wysokim autorytecie, ponieważ takie serwisy są częściej aktualizowane,
- dodaj do mapy witryny URL niezindeksowanej strony.
Aby uniknąć problemów z indeksowaniem, w pliku robots.txt nie blokuj robotom Google’a dostępu do stron, do których już wcześniej zostały dodane inne dyrektywy, na przykład tag kanoniczny lub noindex. O ile Googlebot powinien stosować się do wskazówek zawartych w pliku robots.txt, tak roboty indeksujące innych wyszukiwarek już nie muszą.
Pamiętaj, aby wszędzie dawać Googlebotowi spójne wskazówki. Dlatego w mapie witryny nie umieszczaj adresów URL, które wcześniej zablokowałeś w pliku robots.txt lub które są duplikatami, a nie wersjami kanonicznymi stron.
Jakie są trendy wśród robotów Google?
Jeszcze do niedawna, gdy strona nie trafiła do indeksu Google’a, wystarczyło wysłać prośbę o indeksację przez Google Search Console, a roboty zwykle w ciągu 48 godzin odwiedzały witrynę. Od końca 2021 roku można zaobserwować, że proces ten znacznie się wydłużył.
Jeśli chcesz przyspieszyć indeksowanie strony, skorzystaj z Indexing API, który powiadamia Google’a o dodaniu lub usunięciu strony w krótszym czasie niż inne narzędzia. Takie działanie zapewnia szybsze zaindeksowanie strony przez Googlebota niż gdybyś na przykład aktualizował mapę witryny. Mimo wszystko przesyłanie sitemapy nadal jest zalecaną praktyką.
Jako przyczynę problemów z indeksowaniem można wskazać chęć poprawy jakości wyszukiwania. Jeśli weźmiemy pod uwagę, ile miliardów witryn funkcjonuje w Internecie i ile zasobów musi zużywać każdego dnia Google, aby je przejrzeć, to ograniczenie indeksowanych stron za pomocą API staje się realną oszczędnością, przynajmniej dla robotów.
Z interfejsu Indexing API można korzystać bezpłatnie, ale tylko do pewnego limitu – dziennie możesz zgłosić 200 URL-i, co na własne potrzeby wydaje się wystarczające. Czy oznacza to jednak, że w przyszłości indeksowanie strony stanie się płatne? Nie można tego wykluczyć, ponieważ opłaty mogłoby wyeliminować z indeksu serwisy z thin contentem i ze spamerskimi linkami.
Można przypuszczać, że w międzyczasie powstaną dedykowane moduły i wtyczki do CMS-ów, które ułatwią indeksowanie już z poziomu kokpitu oprogramowania. Sprawdź również, jak przyspieszyć indeksowanie strony z autorską aplikacją Delante.
Jak działają roboty Google – podsumowanie
Stron w Internecie ciągle przybywa, więc mówienie o tym, jak działają roboty Google, nigdy nie było tak ważne jak teraz. Lekceważenie znaczenia crawlerów, może negatywnie wpłynąć na pozycjonowanie Twojej witryny. Nagle okaże się, że nowe linki są widoczne tylko dla Ciebie. Dlatego zadbaj o odpowiednią optymalizację, która usprawni proces indeksowania – prawidłowe wdrożenie pliku robots.txt, sitemapy xml czy pozyskiwanie wartościowych linków. A w razie potrzeby sięgnij po specjalne narzędzia, które nie pozwolą Ci zostać w tyle za konkurencją.