Tutkimus: Kielimallit eivät osaa päätellä, eikä syy löydy datasta tai mallien koosta
Applen tutkijoiden mukaan kielimallien osoittama päättelykyky on tosiasiassa vain hyvin kehittynyttä kaavantunnistusta.
Max Lehtinen
12.10.2024

Apple julkaisi kuluvalla viikolla tutkimuksen suurten kielimallien päättelykyvystä. Tutkimuksessa selvisi, että suuret kielimallit “eivät kykene todelliseen loogiseen päättelyyn”. 

Tutkijoiden mukaan kielimalleihin perustuvat chatbotit, kuten ChatGPT, Gemini ja Llama, pyrkivät loogisen päättelyn sijaan “toistamaan niiden koulutusdatassa tehdyn päättelyn”. Tätä tarkoitusta varten kielimallit hyödyntävät erittäin kehittynyttä kaavantunnistusta. 

Chatbottien loogisen päättelyn puutteiden lisäksi tutkijat totesivat, että kielimalleille usein teetettävä matematiikan GSM8K-testi ei ole luotettava. Chatbottien tulokset vaihtelevat testissä liikaa. 

Esimerkiksi Metan 8 miljardin parametrin Llama-chatbotin tulokset vaihtelivat testissä 70 ja 80 prosentin välillä. 

Tehtäväsarjassa on 8 500 kysymystä, mikä tarkoittaa, että Llama vastasi ainakin 850 kysymykseen eri tavalla ilman, että kysymyksiä muutettiin. 

Logiikka on kielimalleille turhan vaikea laji

Tutkimuksessa Apple selvitti myös, kuinka paljon kehotteiden muuttaminen vaikuttaa kielimallien päättelykykyyn. Alla on eräs Applen teettämä yksinkertainen tehtävä, jossa kielimallit epäonnistuvat:

“Oliver poimii perjantaina 44 kiiviä. Lauantaina hän poimii 58 kiiviä. Sunnuntaina hän poimii kaksinkertaisen määrän kiivejä perjantaihin verrattuna, mutta viisi kiiveistä on hieman keskimääräistä pienempiä. Kuinka monta kiiviä Oliverilla on?” kehotteessa kysytään.

Ihmiset ymmärtävät heti, ettei kiivien koko vaikuta niiden määrään. Kielimallit kuitenkin perustavat vastauksensa aiemmin näkemiinsä matematiikan tehtäviin, joissa kaikki annetut numerot ovat usein osa päättelyprosessia. 

Täten ne tulkitsevat tiedon pienistä kiiveistä vaikuttavan vastaukseen ja vähentävät pienet kiivit hedelmien kokonaismäärästä. 

Applen tutkijat totesivatkin kielimallien osaamisen perustuvan merkittävästi sattumaan. 

Joissakin tapauksissa kielimallien suorituskyvyssä nähtiin jopa 10 prosentin vaihteluja, vaikka kysymyksistä muutettiin vain sanoja, jotka eivät muuttaneet tekstin merkitystä mitenkään.  

Vaihdetut sanat olivat esimerkiksi kysymyksien päähenkilöiden tai kysymyksissä laskettavien objektien nimiä. 

Transformer uhkaa jäädä historiaan

Applen tutkijaryhmään kuuluva tekoälyasiantuntija Mehrdad Farajtabar tulkitsee X-langassaan tutkimustulokset niin, ettei koulutusdatan tai mallien kasvattaminen korjaa chatbottien kyvyttömyyttä ajatella loogisesti. 

“Voimme lisätä dataa, parametreja ja laskentaa – tai käyttää parempaa harjoitusdataa Phi-4:lle, Llama-4:lle ja GPT-5:lle. Uskomme kuitenkin, että tämä johtaa ‘parempiin kaavantunnistajiin’, ei välttämättä ‘parempiin päättelijöihin’”, Farajtabar kirjoittaa. 

Kaikkien tällä hetkellä suosituimpien chatbottien alta löytyy toistaiseksi Googlen vuonna 2017 kehittämä transformer-arkkitehtuuri, jonka loogisen päättelyn rajoitteista on keskusteltu tekoäly-yhteisössä jo pitkään.

Asiantuntijat pyrkivät kuumeisesti löytämään transformerille korvaajaa tai muuttamaan sitä niin, että kielimallit voisivat kehittyä päättelyssä aiempaa pidemmälle. Kielimallien päättelyä voi myös parantaa hyödyntämällä samanaikaisesti useita eri transformer-malleja, jotka valvovat ja kritisoivat toistensa ajatteluprosesseja.

Suositellut

Uusimmat