Umjetna inteligencija je postala sastavni dio svakodnevnog života – od sastavljanja e‑mailova do uređivanja fotografija. Ipak, njezina uloga u najnaprednijim znanstvenim istraživanjima ostaje u velikoj mjeri neistražena. Nedavno je tim istraživača iz Googlea i Cornellove sveučilišne škole objavio studiju u kojoj se postavlja pitanje: mogu li veliki jezični modeli odgovoriti na stručna pitanja iz područja visokotemperaturne superprovodnosti, jednog od najizazovnijih segmenata fizike?
Pozadina i motivacija
Superprovodnici, materijali koji prenose električnu struju bez otpora, obećavaju revoluciju u energetskom sektoru, magnetnoj levitaciji i kvantnom računanju. Dok tradicionalni superprovodnici zahtijevaju temperature blizu apsolutne nule, visokotemperaturni superprovodnici funkcioniraju na praktičnijim temperaturama, iako je njihov temeljni mehanizam još uvijek predmet rasprave. Ovaj specijalizirani i brzo rastući sektor zahtijeva duboko, točno razumijevanje složenih pojmova, eksperimentalnih podataka i teorijskih okvira.
Prethodna istraživanja iz Googlea usredotočila su se na to da li veliki jezični modeli mogu obavljati osnovne analitičke zadatke u šest znanstvenih područja, što je rezultiralo CURIE benchmarkom. Ta studija je naglasila zadatke koji zahtijevaju razmišljanje iznad jednostavnog prepoznavanja činjenica. Nova studija nadograđuje taj pristup tako da cilja na područje koje zahtijeva stručnu razinu znanja i procjenjuje sposobnost modela da sinteziše informacije iz pažljivo odabranog znanja.
Metodologija istraživanja
U studiji odabrano je šest najnaprednijih velikih jezičnih modela, od otvorenih modela do vlasničkih sustava. Svakom modelu je predstavljeno 20 pitanja iz visokotemperaturne superprovodnosti, pažljivo osmišljenih kako bi pokrili teoriju, materijalnu znanost, eksperimentalne tehnike i nedavna otkrića. Pitanja su podijeljena u tri razine težine: uvodna, srednja i napredna.
Za pravednu procjenu, istraživači su okupili panel od deset stručnjaka iz područja kondenzirane materije. Svaki odgovor je ocjenjivao na temelju pet kriterija: faktualna točnost, dubina analize, sposobnost povezivanja koncepta, jasnoća izlaganja i originalnost zaključaka. Ocjene su zabilježene na skali od 1 do 5, pri čemu je 5 najviši stupanj zadovoljstva.
Rezultati i rasprava
Rezultati pokazuju da modeli s najvišim kapacitetima, poput GPT‑4 i LLaMA‑2, postignu prosječne ocjene iznad 4.0 na svim razinama težine, što ukazuje na izvanrednu sposobnost razumijevanja i sinteze složenih znanstvenih informacija. Međutim, u napred