.animate-view{opacity: 1 !important;}

Crawler od OpenAI będzie skanował sieć. Co zmieni GPTBot?

0min.

Komentarze:0

PPC
Crawler od OpenAI będzie skanował sieć. Co zmieni GPTBot?d-tags
11 sierpnia 2023
OpenAI nie przestaje nas zaskakiwać! Właśnie dowiedzieliśmy się, że w świat wyrusza GPTBot, czyli crawler, który będzie skanował sieć. Jak to zmieni działanie ChatGPT? I czy powinieneś wpuszczać nowego robota na stronę?

0min.

Komentarze:0

GPTBot buszujący w sieci — jak to będzie działać?

Na stronie OpenAI w dokumentacji ChatGPT pojawiło się info o GPTBocie, czyli crawlerze, który na żywo będzie skanował internet, dokładnie tak, jak robi to aktualnie Googlebot czy crawlery innych narzędzi (chociażby Ahrefs). Zebrane informacje ze stron mają być potencjalnie wykorzystywane do ulepszania modeli od OpenAI w przyszłości.

Firma twierdzi, że pozostawienie ich crawlerowi swobodnego dostępu do stron pomoże tworzyć lepsze modele językowe w przyszłości. Niewykluczone jednak, że co więksi i bardziej świadomi właściele stron będą blokować GPTBota — chociażby z obawy o utratę unikalności treści, które znajdują się na stronie.

Gdzie GPTBot nie dotrze?

GPTBot ma także filtrować strony korzystające z paywalla, co oznacza, że nie będą skanowane. To spora różnica w stosunku do Googlebota. W zasadzie nawet mając treści za paywallem (co dotyczy w większości wydawców prasowych), chcesz, żeby Googlebot miał dostęp do płatnej treści, aby ją indeksował i wyświetlał w Google. GPT widocznie obawia się oskarżeń o naruszenia własności intelektualnej, więc treści zza paywalla crawlować nie chce. (W sumie słusznie — jesteśmy sobie w stanie wyobrazić bez trudu lawinę problemów, którą by to przysporzyło OpenAI.)

Crawlowane nie będą także strony gromadzące dane osobowe (np. media społecznościowe) lub te zawierające teksty naruszające standardy firmy OpenAI.

Jak zmodyfikować plik robots.txt pod kątem GPTBota?

Nic trudnego. Dostęp GPTBota do strony można zablokować lub moderować dokładnie tak samo, jak w przypadku Googlebota, czyli plikiem robots.txt.

Aby zabrać GPTBotowi dostęp do strony w pliku wpisz:

User-agent: GPTBot
Disallow: /

Żeby z kolei zmodyfikować zasady dostępu, na przykład aby GPTBot mógł wchodzić tylko na niektóre podstrony, dodaj do pliku robots.txt:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

I co dalej?

To dobre pytanie. Zastanawiamy się, jakie zasoby będzie mieć GPTBot, aby crawlować cały internet. Jeśli korzystanie z ChatGPT będzie jeszcze bardziej popularne, wielu serwisom będzie zależeć, aby odpowiedzi czata bazowały na ich treści — ciekawe tylko, czy GPT będzie podawać źródła, tak jak robią to Google i Bard.

Autor
Wojciech Urban SEO R&D Specialist
Autor
Wojciech Urban

SEO R&D Specialist

Specjalista R&D w dziedzinie SEO i analityki internetowej. Najlepiej czuje się w obszarze technicznego SEO, a jego głównym zadaniem jest zapewnienie, aby strony internetowe były zoptymalizowane pod kątem wyszukiwarek i osiągały wysokie pozycje w wynikach wyszukiwania.

Autor
Wojciech Urban SEO R&D Specialist
Autor
Wojciech Urban

SEO R&D Specialist

Specjalista R&D w dziedzinie SEO i analityki internetowej. Najlepiej czuje się w obszarze technicznego SEO, a jego głównym zadaniem jest zapewnienie, aby strony internetowe były zoptymalizowane pod kątem wyszukiwarek i osiągały wysokie pozycje w wynikach wyszukiwania.

Uzyskaj bezpłatną wycenę

Nagrody

Nagroda - Deloitte 2021 Nagroda - IPMA Nagroda - US Search Awards 2021 Nagroda - European eCommerce Awards 2022 Nagroda - Global Agency Awards 2022 Nagroda - European Search Awards 2022