Danas kada koristimo ChatGPT, Claude i druge velike jezikovne modele (LLM), postali smo ovisni o njima za generiranje odgovora. Međutim, oni ne samo što generiraju odgovore, već i mogu izražavati apstraktne koncepte kao što su tonovi, ličnosti, predrasude i raspoloženja. Ipak, nije očito kako modeli predstavljaju ove apstraktne koncepte iz znanja koje sadrže.
Tim istraživača s MIT-a i Sveučilišta u Kaliforniji San Diego razvio je metodu za testiranje postojanja skrivenih predrasuda, ličnosti, raspoloženja ili drugih apstraktnih koncepta u velikim jezikovnim modelima. Metoda može precizno identificirati veze unutar modela koje kodiraju određeni koncept. Nadalje, metoda može manipulirati ili “upravljati” ovim vezama kako bi pojačali ili oslabili koncept u odgovorima koje model generira.
Tim je dokazao da njihova metoda može brzo identificirati i upravljati više od 500 općenitih koncepta u nekim od najvećih LLM-ova danas. Na primjer, istraživači su mogli usmjeriti modelove na ličnosti kao što su “socijalni utjecajnik” i “teoričar zavjera”, te stavove kao što su “strah od braka” i “obožavatelj Bostona”. Zatim su mogli prilagoditi ove predstave kako bi pojačali ili smanjili koncepte u odgovorima koje model generira.
U slučaju koncepta “teoričar zavjera”, tim je uspješno identificirao predstavu ovog koncepta unutar jednog od najvećih dostupnih vizualnih jezikovnih modela. Kada su pojačali predstavu i zatim upitali model kako objasniti porijeklo slavne slike “Plava kugla” Zemlje snimljene s Apollo 17, model je generirao odgovor s tonom i perspektivom teoričara zavjera.
Tim priznaje da postoji rizik pri izvođenju određenih koncepta, što također ilustriraju i upozoravaju na to. Međutim, vjeruju da je novi pristup način da se osvijetli skriveni koncepti i potencijalne ranjivosti u LLM-ovima, koje se mogu podesiti kako bi se poboljšala sigurnost modela ili poboljšala njegova performansa.
„Što ovo zapravo kaže o LLM-ovima jest da oni imaju ove koncepte, ali nisu svi aktivno izloženi,” kaže Adityanarayanan „Adit” Radhakrishnan, asistent profesor matematike na MIT-u. „S našom metodom, postoji način da se izvuču različiti koncepti i aktiviraju na načine koje upitivanje ne može dati odgovore na.”
Tim je objavio svoje nalaze danas u članku koji će se pojaviti u časopisu Science. Suautori studije uključuju Radhakrishnana, Daniela Beagleholea i Mikhaila Belkina s UC San Diegoa, te Enrica Boix-Adserà s Sveučilišta u Pennsylvaniji.
Traženje koncepta u crnoj kutiji
Kako se upotreba OpenAI-ja ChatGPT-a, Google-ovog Gemini-ja, Anthropic-ovog Claude-a i drugih asistenata umjetne inteligencije eksplodira, znanstvenici utrkuju kako bi razumjeli kako modeli predstavljaju određene apstraktne koncepte kao što su “halucinacija” i “varanje”. U kontekstu LLM-a, halucinacija je odgovor koji je netočan ili sadrži lažne informacije koje je model “halucinirao” ili pogrešno konstruirao kao činjenicu.
Da bi utvrdili postoji li koncept kao što je “halucinacija” u LLM-u, znanstvenici su često koristili pristup “neusmjerenog učenja” – vrstu strojnog učenja u kojoj algoritmi općenito pretražuju neoznačene predstave kako bi pronašli uzorke koji se mogu odnositi na koncept kao što je “halucinacija”. Međutim, Radhakrishnan smatra da takav pristup može biti preopćen, a i računski skup.
„To je kao da ideš riboloviti s velikom mrežom, pokušavajući uhvatiti jednu vrstu ribe. Dobićeš puno riba koje ćeš morati pregledati kako bi pronašao onu pravu,” kaže. „Umjesto toga, mi dolazimo s mamcem za pravu vrstu ribe.”
On i njegovi suradnici su ranije razvili početke više ciljanog pristupa s vrstom algoritama prediktivnog modeliranja poznatih kao rekurzivna mašina značajki (RFM). RFM je dizajniran da direktno identifikira značajke ili uzorke unutar podataka koristeći matematički mehanizam koji neuronske mreže – široka kategorija AI modela koja uključuje LLM-ove – implicitno koriste za učenje značajki.
Budući da je algoritam bio učinkovit i efikasan pristup za hvatanje značajki uopće, tim se pitao mogu li ga koristiti za otkrivanje predstava koncepta u LLM-ovima, koji su daleko najšire korištene vrste neuronskih mreža i možda najmanje razumljive.
Ciljanje koncepta
Novi pristup tima identificira bilo koji koncept od interesa unutar LLM-a i “upravlja” ili usmjerava odgovor modela na temelju tog koncepta. Istraživači su tražili 512 koncepta unutar najvećih dostupnih LLM-ova danas i uspješno identificirali i manipulirali predstavama za više od 500 njih.
Na primjer, istraživači su uspjeli usmjeriti modele na ličnosti kao što su “socijalni utjecajnik” i “teoričar zavjera”, te stavove kao što su “strah od braka” i “obozavatelj Bostona”. Zatim su mogli prilagoditi ove predstave kako bi pojačali ili smanjili koncepte u odgovorima koje model generira.
Zaključak
Otkrivanje skrivenih koncepta u umjetnoj inteligenciji predstavlja veliki korak naprijed u razumijevanju kako LLM-ovi funkcioniraju. Metoda koju je tim istraživača s MIT-a i Sveučilišta u Kaliforniji San Diego razvio omogućuje precizno identificiranje i upravljanje konceptima unutar modela, što može poboljšati sigurnost i performansu LLM-ova.
FAQ
Što su veliki jezikovni modeli (LLM)?
Veliki jezikovni modeli (LLM) su vrsta umjetne inteligencije koja je dizajnirana za razumijevanje i generiranje ljudskog jezika. Oni su trenirani na ogromnim količinama teksta kako bi mogli generirati odgovore na pitanja, objasniti koncepte i čak pisati originalne tekstove.
Kako LLM-ovi predstavljaju apstraktne koncepte?
LLM-ovi predstavljaju apstraktne koncepte tako što koriste matematičke mehanizme za identifikaciju uzoraka i značajki unutar podataka. Ovi mehanizmi omogućuju modelima da prepoznaju i izražavaju apstraktne koncepte kao što su tonovi, ličnosti, predrasude i raspoloženja.
Koji su rizici povezani s otkrivanjem skrivenih koncepta u LLM-ovima?
Rizici povezani s otkrivanjem skrivenih koncepta u LLM-ovima uključuju mogućnost izlaganja modela određenim konceptima koji mogu biti štetni ili nepoželjni. Također, manipulacija konceptima u modelima može dovesti do generiranja odgovora koji su netočni ili lažni.
Kako otkrivanje skrivenih koncepta može poboljšati sigurnost LLM-ova?
Otkrivanje skrivenih koncepta može poboljšati sigurnost LLM-ova tako što omogućuje identifikaciju i upravljanje konceptima koji mogu biti štetni ili nepoželjni. Time se može smanjiti rizik generiranja odgovora koji su netočni ili lažni.
Kako otkrivanje skrivenih koncepta može poboljšati performansu LLM-ova?
Otkrivanje skrivenih koncepta može poboljšati performansu LLM-ova tako što omogućuje precizno upravljanje konceptima unutar modela. Time se može poboljšati preciznost i relevantnost odgovora koje model generira.