MIT‑ovi istraživači otkrili način da prepoznaju preveliku samopouzdanje velikih jezičnih modela

Veliki jezični modeli (VJM) postali su ključni alati u mnogim područjima, od medicine do financija. Međutim, njihova sposobnost da izgovore uvjerljive odgovore, čak i kad su netočni, može uzrokovati ozbiljne posljedice. Nedavno je MIT‑ov tim razvio inovativnu tehniku koja bolje otkriva kada VJM daje samopouzdan, ali netočan odgovor.

Zašto je prevelika samopouzdanje problem

U tradicionalnim metodama provjere nesigurnosti, istraživači se oslanjaju na konzistentnost samog modela. Ponovnim postavljanjem istog upita i provjerom jesu li odgovori isti, procjenjuju se samopouzdanje modela. Ali model može biti unutarnje konzistentan i ipak dati netočan odgovor. U medicinskom kontekstu, to bi značilo pogrešan dijagnozu koja ugrožava pacijenta. U financijama, pogrešna prognoza može dovesti do velikih gubitaka.

MIT‑ova metoda razlike među modelima

Umjesto da se oslanja na unutarnje procjene, nova metoda uspoređuje odgovor ciljanog VJM s odgovorima skupine sličnih modela. Ako odgovor ciljanog modela odstupa od većine, to je signal da model možda previše vjeruje u svoju netočnost.

Tim je prikupio izlaze nekoliko najnaprednijih VJM na isti upit i izmjerio razinu neslaganja. Otkrili su da je međumodelsko neslaganje snažniji pokazatelj nepouzdanosti od klasične samokonzistentnosti.

Kombinacija samopouzdanja i međusobne neslaganja

Kako bi stvorili pouzdanu metriku, istraživači su spojili dva signala: samokonzistentnost modela i razinu neslaganja s njegovim kolegama. Nazvali su ovu metriku Ukupna metrika nesigurnosti. Evaluirali su je na deset realnih zadataka – od odgovaranja na pitanja, preko matematičkog razmišljanja, do generiranja koda – i dosljedno su nadmašili postojeće mjere nesigurnosti.

Glavni autor, Kimia Hamidieh, studentica elektrotehnike i računalnih znanosti na MIT-u, objasnila je motivaciju: „Ako se vaša procjena nesigurnosti oslanja samo na ishod jednog modela, ona nije nužno pouzdana. Dodavanjem međumodelskog neslaganja, empirijski poboljšavamo pouzdanost metrike.“

Praktična primjena i rezultati

Primjena ove metode može imati širok spektar koristi:

Medicinska dijagnostika – smanjenje rizika pogrešnih preporuka.
Financijska analiza – zaštita od pogrešnih investicijskih odluka.
Obrazovanje – osiguravanje točnih informacija u online tutorijalskim sustavima.
Automatizirani sustavi – povećanje sigurnosti u autonomnim vozilima i robotima.

Testovi pokazuju da kombinacija samokonzistentnosti i međumodelskog neslaganja daje precizniju procjenu pouzdanosti, što je ključno za područja gdje greška košta više od riječi.

FAQ

Kako se ova nova metoda razlikuje od postojećih tehnika?

Za razliku od tradicionalnih metoda koje se oslanjaju