.animate-view{opacity: 1 !important;}

Absolute Zero Reasoner. Model, który sam się uczy? – Aktualności AI – #2 Maj 2025

3min.

Komentarze:0

19 maja 2025

Absolute Zero Reasoner. Model, który sam się uczy? – Aktualności AI – #2 Maj 2025d-tags
Sztuczna inteligencja, która sama sobie wymyśla zadania i uczy się je rozwiązywać, nie potrzebując do tego ani grama danych od człowieka? Brzmi jak przełom rodem z science-fiction, a nazywa się Absolute Zero Reasoner (AZR). Ten nowatorski model AI wzbudza równie wiele ekscytacji, co pytań. Czy to prawdziwa rewolucja w sposobie trenowania maszyn, krok ku AI uczącemu się niczym człowiek? A może to "tylko" niezwykle sprytna automatyzacja już znanych nam procesów?

3min.

Komentarze:0

19 maja 2025

Czym jest Absolute Zero Reasoner – AZR?

Absolute Zero Reasoner (AZR), opracowany przez naukowców z Uniwersytetu Tsinghua, Pekińskiego Instytutu Ogólnej Sztucznej Inteligencji oraz Uniwersytetu Stanu Pensylwania, to model sztucznej inteligencji zaprojektowany z myślą o samodzielnym rozwijaniu zdolności rozumowania. Jego fundamentalną cechą jest zdolność do autonomicznego tworzenia dla siebie zadań, a następnie ich rozwiązywania. Co istotne, proces nauki AZR opiera się na weryfikacji poprawności tych rozwiązań za pomocą obiektywnego, zewnętrznego mechanizmu – w tym przypadku egzekutora kodu – i nie wymaga do tego żadnych danych treningowych przygotowanych wcześniej przez człowieka. Model ten działa w ramach paradygmatu RLVR (Reinforcement Learning from Verifiable Reward), który nazwano “Absolute Zero”, co oznacza, że jego rozwój napędzany jest przez system nagród bazujący na sprawdzalnych wynikach własnej pracy. Brzmi skomplikowanie? Już tłumaczę!

AZR potrafi autonomicznie generować zadania, a następnie je rozwiązywać, maksymalizując przy tym własny postęp w nauce. Co najważniejsze – robi to bez potrzeby korzystania z jakichkolwiek zewnętrznych danych, przygotowanych przez ludzi. To trochę tak, jakby dać AI piaskownicę i łopatkę, a ono samo zaczęłoby budować coraz bardziej skomplikowane zamki, ucząc się na każdym ziarenku piasku.

Jak działa AZR?

Sercem AZR jest sprytny mechanizm, w którym model AI pełni dwie role jednocześnie:

  1. Proposer (Pomysłodawca) generuje nowe zadania lub problemy. Co kluczowe, jest motywowany do tworzenia takich wyzwań, które są dla niego “akurat” – ani za łatwe (nuda!), ani za trudne (frustracja!). Chodzi o znalezienie idealnego punktu, który zapewnia optymalny rozwój.
  2. Solver (Rozwiązujący) próbuje sprostać zadaniom wymyślonym przez Pomysłodawcę.

Cały system uczy się poprzez interakcję ze środowiskiem, które dostarcza weryfikowalnej informacji zwrotnej. W przypadku AZR, tym środowiskiem jest egzekutor kodu. Potrafi on obiektywnie sprawdzić, czy wygenerowany kod działa poprawnie i daje oczekiwane wyniki. To trochę jak sędzia na zawodach, który bezstronnie ocenia wykonanie.

Tworzy się w ten sposób pętla ciągłego doskonalenia:

  • AI proponuje zadanie.
  • Środowisko ocenia, czy zadanie jest “uczące” (nagroda dla Pomysłodawcy).
  • AI próbuje rozwiązać zadanie.
  • Środowisko weryfikuje poprawność rozwiązania (nagroda dla Rozwiązującego).

I tak w kółko, a AI staje się coraz lepsze w wymyślaniu pożytecznych zadań i ich rozwiązywaniu, zaczynając od absolutnego zera – stąd nazwa.

Sposób działania AZR
źródło: https://www.researchgate.net/publication/391493002_Absolute_Zero_Reinforced_Self-play_Reasoning_with_Zero_Data

Dlaczego kod? Uniwersalny język AI

Twórcy AZR skupili się na dziedzinie kodowania. Dlaczego?

  • Języki programowania są w stanie opisać niemal każdy proces obliczeniowy. Umiejętność rozumowania na temat kodu może przełożyć się na ogólne zdolności logicznego myślenia.
  • Kod pozwala na tworzenie złożonych, ustrukturyzowanych problemów.
  • Egzekutor kodu daje jasną, obiektywną informację – działa albo nie działa.

AZR uczy się trzech fundamentalnych typów rozumowania na kodzie: dedukcji (przewidywanie wyniku), abdukcji (wnioskowanie o danych wejściowych na podstawie wyniku) i indukcji (tworzenie programu na podstawie przykładów).

Rewolucja czy sprytna automatyzacja? Co AZR zmienia (a czego nie)?

Wyniki AZR robią wrażenie. Model potrafi przewyższać w pewnych zadaniach inne systemy, które były trenowane na gigantycznych, przygotowanych przez ludzi zbiorach danych. Szczególnie dobrze radzi sobie z generalizacją umiejętności na nowe, nieznane wcześniej domeny. Brzmi jak rewolucja, prawda?

Niektórzy studzą jednak entuzjazm. Zwracają uwagę, że AZR, choć imponujący, nie eliminuje fundamentalnych problemów modeli językowych (LLM). To raczej bardzo zaawansowana automatyzacja generowania danych syntetycznych. AI nie uczy się tu “myśleć” w zupełnie nowy sposób, a raczej staje się mistrzem w rozwiązywaniu specyficznych testów i zadań, które samo sobie stawia. Koncepcja “self-play” (gry z samym sobą) też nie jest nowością.

Jednak fakt, że AZR osiąga tak dobre wyniki w zadaniach związanych z kodowaniem czy matematyką, trenując całkowicie bez zewnętrznych danych, jest niezwykle ciekawy. To tu leży potencjalna zmiana paradygmatu – zamiast zasypywać AI tonami danych, pozwalamy mu samodzielnie eksplorować i odkrywać.

Czy AZR to krok w stronę AI uczącego się jak człowiek?

Pomyślmy, jak uczą się ludzie. Owszem, korzystamy z książek i nauczycieli (co przypomina uczenie nadzorowane w AI), ale ogromna część naszej wiedzy pochodzi z interakcji ze światem, eksperymentowania, stawiania sobie wyzwań i uczenia się na sukcesach oraz porażkach. AZR próbuje naśladować ten właśnie, napędzany ciekawością i eksploracją, proces.

Czy Absolute Zero Reasoner to prawdziwy przełom i krok milowy? Z pewnością jest to fascynujący kierunek badań, który pokazuje, że droga do bardziej autonomicznej i, być może, bardziej “rozumnej” sztucznej inteligencji może wieść przez samodzielne odkrywanie wiedzy. Jak zawsze, przyszłość pokaże, na ile te obiecujące koncepcje zmienią krajobraz AI. Jedno jest pewne – warto trzymać rękę na pulsie, dlatego bądź na bieżąco z nowinkami w dziedzinie AI razem z Delante i zapisz się do naszego newslettera!

Źródło informacji: https://www.researchgate.net/publication/391493002_Absolute_Zero_Reinforced_Self-play_Reasoning_with_Zero_Data

Autor
Maciej Jakubiec - SEO Specialist
Autor
Maciej Jakubiec

SEO Specialist

Absolwent marketingu ze specjalizacją e-commerce na Uniwersytecie Ekonomicznym w Krakowie, pochodzący z malowniczego Podkarpacia. Do Delante dołączył w 2022 roku. Miłośnik wysokiej jakości treści na stronie. Prywatnie prawie cały wolny czas przeznacza na produkcję muzyczną, którą zajmuje się od lat, testowanie nowych przepisów i długie spacery w naturze.

Autor
Maciej Jakubiec - SEO Specialist
Autor
Maciej Jakubiec

SEO Specialist

Absolwent marketingu ze specjalizacją e-commerce na Uniwersytecie Ekonomicznym w Krakowie, pochodzący z malowniczego Podkarpacia. Do Delante dołączył w 2022 roku. Miłośnik wysokiej jakości treści na stronie. Prywatnie prawie cały wolny czas przeznacza na produkcję muzyczną, którą zajmuje się od lat, testowanie nowych przepisów i długie spacery w naturze.