Tutkijat loivat avoimen vaihtoehdon OpenAI:n o1-mallille alle 50 dollarilla
Uusi s1-tekoälymalli on vertailukelpoinen OpenAI:n ja DeepSeekin tekoälymallien kanssa monimutkaisissa päättelytehtävissä.
IT Insider toimitus
06.2.2025

Stanfordin ja Washingtonin yliopistojen tutkijat ovat kehittäneet tekoälymallin, joka pystyy suorittamaan monimutkaisia päättelytehtäviä. Mallin kouluttaminen maksoi alle 50 dollaria pilvipalveluiden laskentakrediitteinä. Tutkimus julkaistiin viime perjantaina.

Uusi s1-malli on vertailukelponen tekoälyn huippumallien, kuten OpenAI:n o1:n ja DeepSeekin R1:n kanssa testeissä, joissa mitataan tekoälyn kyvykkyyksiä matematiikassa ja koodauksessa.  S1-malli sekä sen koulutuksessa käytetty data ja koodi ovat vapaasti saatavilla GitHubissa.

Tutkijat loivat s1-mallin hienosäätämällä valmista perusmallia ns. distilloinnin avulla. Tämä tarkoittaa, että mallille opetetaan toisen kehittyneemmän tekoälymallin päättelykykyjä sen antamien vastausten perusteella. Tutkijat kertoivat, että s1 on distilloitu Googlen Gemini 2.0 Flash Thinking Experimental -mallista. Berkeleyn yliopiston tutkijat käyttivät samaa menetelmää viime kuussa oman tekotekoälymallinsa kehittämiseen noin 450 dollarilla.

S1-mallin kehitys osoittaa, että kehittyneitä tekoälymalleja voidaan luoda ilman valtavia investointeja. Samalla se herättää kysymyksen tekoälymallien kaupallistamisesta: kuinka ainutlaatuisia kaupalliset mallit lopulta ovat, jos vastaavan voi tuottaa minimaalisin kustannuksin?

Tekoälyn suurilla nimillä ei ole syytä olla tyytyväisiä kehitykseen. OpenAI on jo aiemmin syyttänyt DeepSeekia sen API-tietojen luvattomasta käytöstä mallien distillointiin.

Tutkijoiden tavoitteena oli löytää yksinkertaisin tapa saavuttaa tehokas päättelykyky ja parantaa mallin vastausten tarkkuutta testiajan skaalauksella. Tämä tarkoittaa, että tekoälylle annetaan lisäaikaa ajatella ennen kuin se vastaa kysymykseen. Tämä oli yksi OpenAI:n o1-mallin merkittävistä innovaatioista, jota muut laboratorioita, kuten DeepSeek, ovat yrittäneet toisintaa.

Tutkimuksen mukaan distillointiin tarvitaan vain pieni datasetti. S1-malli koulutettiin tuhannen huolella valitun kysymyksen avulla. Jokaiselle kysymykselle annettiin vastaus sekä ajatteluprosessi, jonka Gemini 2.0 Flash Thinking Experimental oli tuottanut.

Mallin koulutus vei alle 30 minuuttia 16 Nvidia H100 -grafiikkaprosessorilla. Stanfordin tutkija Niklas Muennighoff arvioi, että tarvittavan laskentatehon vuokraaminen maksaisi nykyään noin 20 dollaria.

Tutkijat hyödynsivät yksinkertaista mutta tehokasta menetelmää lisätä mallin tarkkuutta: he ohjeistivat mallin ”odottamaan” ennen vastaamista. Paperin mukaan tämä pieni muutos lisäsi huomattavasti mallin tarkkuutta.

Vuonna 2025 teknologiajätit, kuten Meta, Google ja Microsoft, aikovat sijoittaa satoja miljardeja dollareita tekoälyn kehitykseen. Vaikka distillointi tarjoaa halvan tavan toisintaa kehittyneitä malleja, se ei kuitenkaan luo kokonaan uudenlaisia tekoälyratkaisuja. Tämän vuoksi suuryritysten massiiviset investoinnit saattavat olla edelleen tarpeen tekoälykehityksen seuraavalle harppaukselle.

Suositellut

Uusimmat