U svijetu umjetne inteligencije, gdje se sve više osobe koriste ne-englèskim jezikom, javno dostupne zakone o skaliranju ostaju uglavnom fokusirani na engleski jezik. To stvara izazov za modelere koji moraju razvijati modele za međunarodne i multilingvalne korisnike. U ovom članku predstavljamo ATLAS, inovativni pristup određivanju optimalne veličine modela, količine podataka i jezičnih miješanja za treniranje multilingvalnih modela.
Proračuni za multilingvalne modele: Problemi i rješenja
Engleski jezik dominira javnim istraživanjima, ali više od 50% korisnika AI modela govori ne-englèskim jezikom. Ova neravnoteža stvara kritični prazninu u javnom istraživanju, što ostavlja modelere bez podataka za donošenje odluka o učinkovitosti, kvalitetu i cijeni kada se razvijaju modele za ne-englèske jezike ili specifične jezične miješanje.
ATLAS: Proračun za multilingvalne modele
U svojem prihvaćenom radu na ICLR 2026, “ATLAS: Proračun za adaptivno skaliranje multilingvalnih preučavanja, fine-tuniranja i dekodiranja kure multilingvalnosti”, Longpre i Ebrahimi nastoje riješiti ovu prazninu. Oni predstavljaju najveći javno dostupni multilingvalni preučavanje do sada, koje obuhvaća 774 treninga na 10M-8B parametara modela i 400+ jezika. Ovo istraživanje pruža vrijedne informacije o sinergijama i međusobnom utjecaju 1400 jezičnih paira, omogućavajući praktičare učinkovito balansirati jezična miješanja u podacima za treniranje sa veličinom modela.
Komponente ATLAS-a
ATLAS je praktični, adaptivni pristup multilingvalnom skaliranju. Sastoji se od tri glavne komponente:
- Prečac za prenos između jezika: Ova matrica identificira najbolje jezike za treniranje zajedno na temelju empirijske analize.
- Proračun za skaliranje: Ovo proračun pruža upute o učinkovitom povećanju veličine modela i količine podataka s povećanjem broja podržanih jezika.
- Pravila za odlučivanje kada treba trenirati model od početka ili fine-tunirati od multilingvalnog checkpointa
Učenje iz multilingvalnih podataka
ATLAS trenira na stotinama multilingvalnih eksperimenata koristeći MADLAD-400 korespus, koji obuhvaća tri različita izvora podataka: ciljni jezik, slični prenosni jezici i svi drugi jezici. Ovo novi pristup omogućava zakonu učiti koliko svaki izvor stvarno pomaže ili ometaju ciljni jezik, što nije podržavalo prijašnja zakona.
Provjera
Autori provjeravaju ATLAS-ovo performanse koristeći MADLAD-400 skup podataka, mjereći performanse koristeći riječni neposredan gubitak preko više od 750 nezavisnih pokusa u monolingvalnim, dvije-jezika i masivno multilingvalnim postavkama. Rezultati pokazuju da ATLAS stalno nadmašuje prijašnje radove.
Jezične sinergije i međusobno utjecanje
ATLAS također mjeri sinergije i međusobno utjecanje između jezika na velikom nivou, proizvodeći matricu koja kvantificira koliko treniranje na jeziku A pomaže (ili ometa) jezik B. Rezultati pokazuju intuitivne rezultate, kao što je norveški jezik koji se najviše pomaže švedskim i njemačkim jezikom, malajski jezik koji se pomaže indonezijskim jezikom, a arapski jezik koji se pomaže hebrejskim jezikom. Engleski, francuski i španski jezik su najšire pomoćni jezici zbog njihove inherentne kvalitete, raznolikosti i količine tekstova na internetu.
Zaključak
ATLAS je inovativni pristup multilingvalnom skaliranju, koji pruža upute o optimalnoj veličini modela, količini podataka i jezičnim miješanjima za treniranje multilingvalnih modela. Adaptivni proračuni za prenos skaliranja omogućavaju praktičare učinkovito balansirati jezična miješanja u podacima za treniranje sa veličinom modela, rješavajući kritičnu prazninu u javnom istraživanju za ne-englèske jezike i specifična jezična miješanja.
Često postavljana pitanja (FAQ)
Što je ATLAS, i kako se razlikuje od tradicionalnih proračuna za skaliranje?
ATLAS je praktični pristup određivanju optimalne veličine modela, količine podataka i jezičnih miješanja za treniranje multilingvalnih modela. U razliku od tradicionalnih proračuna za skaliranje koji se fokusiraju na monolingvalne postavke, ATLAS pruža upute za kompleksnije, multilingvalne postavke koristeći podatke iz više različitih jezika.
Kako ATLAS obrađuje jezične sinergije i međusobno utjecanje?
ATLAS mjeri jezično-mezdusobno utjecanje na velikom nivou, proizvodeći matricu koja kvantificira koliko treniranje na jeziku A pomaže (ili ometa) jezik B. Rezultati pokazuju intuitivne rezultate, kao što je norveški jezik koji se najviše pomaže švedskim i njemačkim jezikom, malajski jezik koji se pomaže indonezijskim jezikom, a arapski jezik koji se pomaže hebrejskim jezikom.
Što su prednosti upotrebe ATLAS-a za multilingvalno skaliranje?
ATLAS pruža upute o optimalnoj veličini modela, količini podataka i jezičnim miješanjima za treniranje multilingvalnih modela, omogućavajući praktičare učinkovito balansirati jezična miješanja u podacima za treniranje sa veličinom modela.