Żodyn się nie spodziewał. Przez drobny błąd konfiguracyjny wyciekła część wewnętrznej dokumentacji Google, opisującej – w uproszczeniu – jak działa wyszukiwarka. Gruntownie opisał to Mike King, którego artykuł szczerze polecam: https://ipullrank.com/google-algo-leak. Lektura to długa, acz pasjonujące (przynajmniej dla pasjonatów SEO).

Materiału jest sporo, nie cały został jeszcze przeanalizowany, więc w kolejnych dniach (tygodniach) możemy spodziewać się kolejnych insightów i analiz. Warto też pamiętać, że nie została udostępniona całość dokumentacji, a często kontkest może wiele zmienić w interpretacji poszczególnych zapisów.

Co tam znajdziemy?

W ujawnionej dokumentacji znajduje się ponad 2,5 tysiąca modułów zawierających łącznie 14 tysięcy atrybutów (funkcji) – czyli czynników, jakie algorytm Google może brać pod uwagę. Nie są to jednak wprost “czynniki rankingowe”
Ujawnione moduły dotyczą nie tylko głównej wyszukiwarki Google, ale też Youtube, wyszukiwarki wideo, Google Books, Asystenta Google czy infrastruktury crawlowania stron.

Ujawnione dane na temat algorytmu a oficjalne wypowiedzi przedstawicieli Google

Ujawniona dokumentacja to dowód na powszechne w branży przekonanie, że nie należy wierzyć w każde słowo przedstawicieli Google. Nie bez powodu Matt Cutts, który przez lata był kimś w rodzaju rzecznika wyszukiwarki Google, doczekał się przydomka Matt Kłamczuszek. Często wypowiedzi oficjeli z Google kłóciły się z doświadczeniem i efektami testów prowadzonych przez specjalistów SEO. Teraz jak na dłoni widać, gdzie oficjalna narracja rozjeżdża się z tym, jak algorytm rzeczywiście działa.

Oto przykłady:

We don’t have anything like domain authorithy – Gary Ilyes, analityk z Google Search Team. Tymczasem w dokumentacji znajduje się parametr site:Authorithy. Nie wiadomo, jak dokładnie działa. Nie należy go też utożsamiać w żadne sposób z Domain Authorithy z Moza, Domain Raitingiem z Ahrefsa czy analogicznym parametrami z innych, zewnętrznych narzędzi.
We don’t use clicks for rankings – To nie nowość, dowody na to, że kliknięcia w wynikach organicznych są wykorzystywane do zmiany w rankingach zostały ujawnione już przy procesie antymonopolowym, jaki od jesieni toczy się przed amerykańskim Departamentem Sprawiedliwości. O wykorzystywanie klików organicznych mówił też wcześniej Rand Fishkin, założyciel Moza, czemu jednak przedstawiciele Google przeczyli. Chapeau bas dla Randa. W istocie system rankingowy NavBoost, część googlowego algorytmu, w dużej mierze koncentrujący się na sygnałach płynących z klików, ma być jednym z silniejszych czynników rankingowych.
There is no sandbox – potwierdzenie dla teorii, że nowe domeny potrzebują czasu, zanim Google zacznie je szerzej wyświetlać. John Muller zaprzeczał istnieniu sandboxa, tymczasem w dokumentacji znajdują się atrybuty związane z wiekiem hosta (tj. domeny).
We don’t use anything from Chrome for ranking – w ujawnionej dokumentacji widać też atrybuty związane z danymi o ruchu na stronie zarejestrowanymi przez przeglądarkę Chrome. To wskazuje, że google’owa przeglądarka zbiera dane o aktywności użytkowników na poszczególnych stronach (najprawdopodobniej, związane z zaanażowaniem), które następnie wykorzystywane są do reewaluacji wyników wyszukiwania.

Oficjalni przedstawiciele Google, jak John Muller czy Gary Ilyes mają duże ograniczenia w zakresie tego, co mogą powiedzieć publicznie. Konieczność meandrowania pomiędzy korporacyjnymi wytycznymi a złożonością algorytmu Google sprawia, że należy z rezerwą traktować ich wypowiedzi.

Architektura systemu rankingowego Google

Ujawniona dokumentacje potwierdza też, że algorytm Google nie jest pojedynczym systemem, co raczej konglomeratem mikrousług działających symultanicznie. Poniżej najważniejsze z nich, podzielone według realizowanych zadań:

Crawling

Trawler – System do przeszukiwania sieci. Posiada kolejkę przeszukiwania, utrzymuje tempo skanowania i analizuje, jak często strony się zmieniają.

Indeksowanie

Alexandria – Główny system indeksowania.
SegIndexer – System, który klasyfikuje dokumenty pod kątem istotności w indeksie.
TeraGoogle – Wtórny system indeksowania dla dokumentów przechowywanych długoterminowo na dysku.

Renderowanie

HtmlrenderWebkitHeadless – System renderowania stron JavaScript.

Przetwarzanie

LinkExtractor – Wyodrębnia linki ze stron.
WebMirror – System zarządzania kanonicznością i duplikacją.

Ranking

Mustang – Główny system oceny, rankingu i prezentowania wyników.
Ascorer – Główny algorytm rankingowy, który ocenia strony przed wszelkimi korektami rankingu.
NavBoost – System ponownego rankingu oparty na logach kliknięć użytkowników.
FreshnessTwiddler – System ponownego rankingu dokumentów na podstawie ich świeżości.
WebChooserScorer – Definiuje nazwy cech używanych w ocenie fragmentów.

Serving

Google Web Server – GWS to serwer, z którym interfejs Google wchodzi w interakcję. Otrzymuje dane do wyświetlenia użytkownikowi.
SuperRoot – To mózg wyszukiwarki Google, który wysyła wiadomości do serwerów Google i zarządza systemem post-processingu dla ponownego rankingu i prezentacji wyników.
SnippetBrain – System generujący fragmenty wyników.
Glue – System łączący wyniki uniwersalne, wykorzystując zachowanie użytkowników.
Cookbook – System generujący sygnały. Istnieją wskazania, że wartości są tworzone w czasie rzeczywistym.

Praktyczne wskazówki płynące z ujawnionych danych

Aby skutecznie rosnąć w wynikach wyszukiwania strona musi zdobywać kliknięcia z coraz większej liczby fraz oraz stale pozyskiwać linki
Liczy się jakościowy ruch z wyników wyszukiwania, także trzeba zadbać o warstwę UX-ową, ale także dopasowanie zawartości strony do intencji użytkownika (tzw. search intent)
Google mam możliwość i próbuje wyciągnąć z treści informacje o autorze – zatem zadbanie o podpisywanie artykułów i czytelne oznaczanie autorstwa rzeczywiście ma sens
Linki muszą mieć powiązanie z docelową stroną, innymi słowy, linki tematyczne są lepsze
Treści świeże są traktowane jako ważniejsze – warto więc zadbać o proces aktualizacji treści.
Google jest w stanie wychwycić masowy przypływ spamowych linków i je ignorować, cała zaś dokumentacja nie wspomina o Disavow Tool ani razu. Zrzekanie się linków wydaje się więc nie mieć sensu.
Google przechowuje też informacje o tym, co znajdowało się pod konkretnym adresem URL wcześniej, ale pod kątem re-rankingu analizowanych jest “tylko” ostatnich 20 wersji. W praktyce więc, warto wielokrotnie modyfikować (uaktualniać, optymalizować, rozbudowywać itp.) content.
Wielkość fontów ma znaczenie – to jest w sumie naturalne, jeżeli tekst robimy duży i widoczny dla użytkownika, to algorytm też powinien zwrócić na niego większą uwagę. W końcu wyciągnięcie z CSS-ów info o rozmiarze danego tekstu nie jest skomplikowane.
Strona główna jest ważna – z niej wyciągne są informacje o wiarygodności strony. Dla nowych adresów URL, o których Google jeszcze nie zebrał danych behawioralnych, będzie wykorzystywał info dla strony głównej. Jest to więc najważniejsza do optymalizacji strona w serwisie.
Google tokenizuje kontent na stronie i bada liczbę unikalnych tokenów. Ma też ograniczenie liczby tokenów, jakie jest w stanie przetworzyć, dlatego najważniejsze informacje powinny być wysoko w kodzie strony.
Krótki kontent jest mocniej oceniany ze względu na oryginalność. To, czy mamy do czynienia z thin contentem nie zależy więc od jego długości.
Ważne, aby mieć targetowane frazy na początku tagu title. Jednocześnie długość tego tagu, czy meta description nie jest zliczana przez algorytm. Jeśli mamy więc za długie title czy meta opisy, skrócenie ich nic nam nie da, chyba że krótsza wersja jest bardziej zachęcająca do kliknięcia.
Daty są mega ważne. Jeśli nie ma ich oznaczonych, Google będzie próbować wyciągnąć je z treści. Ważne jest, aby daty się zgadzały ze sobą (np. data w adresie URL czy tytule i data publikacji).

W ujawnionej dokumentacji znajdziemy oczywiście o wiele więcej. Warto też przejrzeć listę modułów i atrybutów, która została stworzona przez IPullRank w oparciu o dane z wycieku. Na pewno możemy się spodziewać wkrótce więcej analiz, opracowań i testów bazujących na tym znalezisku. Jeśli chcesz być na bieżąco z tego typu informacji, zapisz się do naszego newslettera!

Wojciech Urban

Senior SEO R&D Specialist

Specjalista R&D w dziedzinie SEO i analityki internetowej. Najlepiej czuje się w obszarze technicznego SEO, a jego głównym zadaniem jest zapewnienie, aby strony internetowe były zoptymalizowane pod kątem wyszukiwarek i osiągały wysokie pozycje w wynikach wyszukiwania.

Wyciek algorytmu Google – co z tego wynika?

Ujawnione dane na temat algorytmu a oficjalne wypowiedzi przedstawicieli Google