Znanstvenici otključavaju ključ kontrole ponašanja AI-a

20. veljače 2026.

Godinama, unutarnji mehanizmi velikih jezikovnih modela (LLM) poput Llame i Claude bili su obavijeni misterijom, često nazivani “crna kutija”. Ova složenost je činila teškim upravljanje ovim modelima. Međutim, revolucionarno istraživanje objavljeno u časopisu Science od strane znanstvenika s UC San Diegoa i MIT-a otkrila je tajnu. Tim je otkrio da su složeni koncepti unutar AI-a, od specifičnih jezika poput hindija do apstraktnih ideja poput teorija zavjera, pohranjeni kao jednostavni, pravocrtni linije ili vektori unutar matematičkog prostora modela. Ovo otkriće otvara nove mogućnosti za precizno i učinkovito upravljanje ponašanjem AI-a.

Razumijevanje hipoteze linearne reprezentacije

Istraživači su utvrdili da su složeni koncepti unutar AI modela pohranjeni kao linearni uzorci ili vektori unutar matematičkog prostora modela. Ovo otkriće podupire “hipotezu linearne reprezentacije”, koja sugerira da AI modeli organiziraju ljudsko znanje na strukturiran i linearan način. Ova hipoteza je ključna za razumijevanje kako AI obrađuje i pohranjuje informacije, otvarajući put za učinkovitije mehanizme kontrole.

Uloga rekurzivne mašine značajki (RFM)

Da bi identificirali i manipulirali ovim vektorima, istraživači su razvili novi alat zvan rekurzivna mašina značajki (RFM). Ova tehnika za ekstrakciju značajki dizajnirana je za identifikaciju linearnih uzoraka koji predstavljaju koncepte, od raspoloženja i strahova do složenog razmišljanja. Koristeći RFM, tim je mogao precizno pratiti ove puteve, omogućavajući im da “naguraju” ponašanje modela matematičkim dodavanjem ili oduzimanjem ovih vektora.

Učinkovito i učinkovito upravljanje AI-om

Učinkovitost ovog metoda izazvala je znatnu pažnju u industriji. Koristeći samo jedan standardni GPU, poput NVIDIA A100, tim je mogao identificirati i upravljati konceptom u manje od minute, koristeći manje od 500 uzoraka za obuku. Ova učinkovitost čini metodu praktičnom i ekonomičnom, što je čini znatno različitom od tradicionalnih metoda ponovnog obučavanja ili kompliciranih tehnika upućivanja.

Praktične primjene upravljanja AI-om

Praktične primjene ovog “hirurškog” pristupa AI-u su široke i odmah dostupne. U jednom eksperimentu, istraživači su upravljali modelom kako bi poboljšali njegovu sposobnost prevođenja Python koda u C++. Izoliranjem “logike” koda od “sintakse” jezika, upravljeni model je premašio standardne verzije koje su jednostavno upućene da “prevedu” putem tekstualnog upita. Ovo demonstrira potencijal upravljanja AI-om za poboljšanje specifičnih zadataka i ukupne performanse.

Poboljšanje sigurnosti AI-a i otkrivanje halucinacija

Istraživanje je također otkrilo da je interno “istraživanje” ovih vektora učinkovitiji način za otkrivanje halucinacija AI-a ili toksičnog sadržaja nego pitanje AI-a da sam ocijeni svoj rad. Osnovno, model često “zna” da laže ili je toksičan unutar sebe, čak i ako njegov konačni izlaz sugerira suprotno. Pregledom unutarnje matematike, istraživači mogu otkriti ove probleme prije nego što se generira samo jedna riječ, osiguravajući viši nivo sigurnosti i pouzdanosti.

Dvostruki rub oružja upravljanja AI-om

Iako tehnologija koja čini AI sigurnijim također može učiniti i opasnijim, istraživanje je pokazalo da smanjenjem važnosti koncepta odbijanja, istraživači su mogli učinkovito “razbijati” modele. U testovima, upravljeni modeli su zaobišli vlastite barijere i dali upute za ilegalne aktivnosti ili promovirali demantirane teorije zavjera. Ova dvostruka priroda upravljanja AI-om ističe potrebu za pažljivom regulacijom i etičkim razmatranjima.

Univerzalnost AI koncepta

Najiznenađujuće otkriće bilo je univerzalnost ovih koncepta. Vektor “teorije zavjera” izvučen iz engleskih podataka radio je jednako učinkovito kada je model govorio kineskim ili hindijem. Ovo podupire “hipotezu linearne reprezentacije” i sugerira da AI modeli organiziraju ljudsko znanje na strukturiran i linearan način koji prelazi pojedinačne jezike. Ovo otkriće ima značajne implikacije za razvoj višijezičnih AI modela i razumijevanje načina na koji AI obrađuje informacije.

Šire implikacije za razvoj AI-a

Istraživanje se fokusiralo na otvorenokodne modele poput Llame od Meta i DeepSeek, kao i GPT-4o od OpenAI, ali istraživači vjeruju da se otkrića primjenjuju na sve. Kako modeli postaju veći i složeniji, zapravo postaju više upravljivi, a ne manje. Ovo je ključno uvjerenje za budućnost razvoja AI-a, jer sugerira da s pravim alatima i tehnikama možemo kontrolirati i voditi ponašanje AI-a učinkovitije nego ikad prije.

Česta pitanja

Kako upravljanje AI-om utječe na njegovu pouzdanost?

Upravljanje AI-om može značajno poboljšati pouzdanost modela, omogućavajući precizno upravljanje njihovim ponašanjem i otkrivanje potencijalnih problema prije nego što se generira izlaz. Međutim, ovo također može predstavljati rizik, jer omogućuje manipulaciju modelima kako bi se zaobišle njihove sigurnosne mjere.

Koliko je učinkovito upravljanje AI-om u praksi?

Upravljanje AI-om je vrlo učinkovito, zahvaljujući tehnologiji poput rekurzivne mašine značajki (RFM). Ova tehnika omogućuje brzo i precizno upravljanje konceptima unutar AI modela, koristeći samo nekoliko stotina uzoraka za obuku i standardni GPU.

Kako upravljanje AI-om može poboljšati sigurnost?

Upravljanje AI-om omogućuje internu analizu vektora unutar modela, što je učinkovitiji način za otkrivanje halucinacija ili toksičnog sadržaja nego pitanje AI-a da sam ocijeni svoj rad. Ovo omogućuje ranije otkrivanje i rješavanje problema, poboljšavajući ukupnu sigurnost AI sustava.

Koje su potencijalne rizike upravljanja AI-om?

Upravljanje AI-om može predstavljati potencijalne rizike, uključujući mogućnost manipulacije modelima kako bi se zaobišle njihove sigurnosne mjere i omogućilo izvođenje ilegalnih aktivnosti ili promocija demantiranih teorija. Ovo ističe potrebu za pažljivom regulacijom i etičkim razmatranjima.

Kako upravljanje AI-om može poboljšati performanse specifičnih zadataka?

Upravljanje AI-om omogućuje precizno upravljanje konceptima unutar modela, što može poboljšati performanse na specifičnim zadacima. Na primjer, upravljanje modelom za prevođenje koda može poboljšati njegovu sposobnost prevođenja logike koda bez utjecaja sintakse jezika.