GPTBot buszujący w sieci — jak to będzie działać?
Na stronie OpenAI w dokumentacji ChatGPT pojawiło się info o GPTBocie, czyli crawlerze, który na żywo będzie skanował internet, dokładnie tak, jak robi to aktualnie Googlebot czy crawlery innych narzędzi (chociażby Ahrefs). Zebrane informacje ze stron mają być potencjalnie wykorzystywane do ulepszania modeli od OpenAI w przyszłości.
Firma twierdzi, że pozostawienie ich crawlerowi swobodnego dostępu do stron pomoże tworzyć lepsze modele językowe w przyszłości. Niewykluczone jednak, że co więksi i bardziej świadomi właściele stron będą blokować GPTBota — chociażby z obawy o utratę unikalności treści, które znajdują się na stronie.
Gdzie GPTBot nie dotrze?
GPTBot ma także filtrować strony korzystające z paywalla, co oznacza, że nie będą skanowane. To spora różnica w stosunku do Googlebota. W zasadzie nawet mając treści za paywallem (co dotyczy w większości wydawców prasowych), chcesz, żeby Googlebot miał dostęp do płatnej treści, aby ją indeksował i wyświetlał w Google. GPT widocznie obawia się oskarżeń o naruszenia własności intelektualnej, więc treści zza paywalla crawlować nie chce. (W sumie słusznie — jesteśmy sobie w stanie wyobrazić bez trudu lawinę problemów, którą by to przysporzyło OpenAI.)
Crawlowane nie będą także strony gromadzące dane osobowe (np. media społecznościowe) lub te zawierające teksty naruszające standardy firmy OpenAI.
Jak zmodyfikować plik robots.txt pod kątem GPTBota?
Nic trudnego. Dostęp GPTBota do strony można zablokować lub moderować dokładnie tak samo, jak w przypadku Googlebota, czyli plikiem robots.txt.
Aby zabrać GPTBotowi dostęp do strony w pliku wpisz:
User-agent: GPTBot
Disallow: /
Żeby z kolei zmodyfikować zasady dostępu, na przykład aby GPTBot mógł wchodzić tylko na niektóre podstrony, dodaj do pliku robots.txt:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
I co dalej?
To dobre pytanie. Zastanawiamy się, jakie zasoby będzie mieć GPTBot, aby crawlować cały internet. Jeśli korzystanie z ChatGPT będzie jeszcze bardziej popularne, wielu serwisom będzie zależeć, aby odpowiedzi czata bazowały na ich treści — ciekawe tylko, czy GPT będzie podawać źródła, tak jak robią to Google i Bard.