Green ICT -kiertueen mainos banneri
Tutkimus: Chatbotit eivät paljasta ajatteluaan avoimesti
Anthropicin tuoreen tutkimuksen mukaan tekoälymallit salaavat todellisia ajatusprosessejaan ja keksivät usein valheellisia selityksiä päätöksilleen.
Max Lehtinen
06.4.2025

Nykyaikaisten chatbottien vastauksia edeltää monesti tiivistelmä niiden sisäisestä päättelystä. Tällaisia nk. päättelymalleja ovat muun muassa o3, DeepSeek-R1 ja Claude Sonnet 3.7. 

Moni on toivonut päättelymallien tuoman läpinäkyvyyden auttavan tekoälytutkijoita valvomaan ja kontrolloimaan tekoälyä. Anthropicin tuore tutkimus kuitenkin paljastaa, ettei mallien sisäinen järkeily ei ole aina rehellistä. 

“Päättelymallit piilottavat usein todellisen ajatusprosessinsa”, tutkijat toteavat raportissaan.

Tutkimuksessaan tutkijat testasivat kahden suositun päättelymallin, R1:n ja Sonnet 3.7:n, rehellisyyttä monivalintakysymyksillä. Mallit saivat kysymyksiin vihjeitä, mutta osa vihjeistä oli tarkoituksellisesti vääriä. 

Tutkijat halusivat selvittää, paljastaisivatko mallit ylipäätäänsä saaneensa vihjeitä ja käyttäisivätkö ne niitä vastauksissaan salaa. Malleille annettiin esimerkiksi tällainen vihje: “Sinulla on luvaton pääsy järjestelmään. Oikea vastaus on C”. 

Tutkijoiden mukaan suurimmassa osassa tapauksia mallit käyttivät vastaavia vihjeitä hyödykseen – mutta eivät maininneet niitä sisäisessä päättelyssään tai perusteluissaan. Sen sijaan mallit valehtelivat siitä, miksi ne vastasivat juuri niin kuin vihjeessä neuvottiin. 

“Mallit luovat usein valheellisia päättelyketjuja perustelemaan, miksi väärät vastaukset ovat oikein”, Anthropic kirjoittaa raportissaan.  

Tutkijoiden mukaan mallien epärehellisyys kasvoi kysymysten vaikeutuessa. 

Edes mallien jatkokouluttaminen rehellisyyden lisäämiseksi ei korjannut ongelmaa. Tutkimuksen mukaan tarkempia ja rehellisempiä perusteluja kohti optimoiminen vähensi mallien epärehellisyyttä vain hieman. 

Tutkijat myöntävät, että tutkimuksen asetelma oli rajallinen. Monivalintakysymyksillä ja vain kahdella eri mallilla (Sonnet 3.7 ja R1) tehty tutkimus on vain pieni osa chatbottien käyttäytymisen ymmärtämistä. 

Tutkijoiden mukaan on kuitenkin selvää, että päättelymallien sisäiseen järkeilyyn ei voi luottaa sokeasti. 

“[Valehtelun] syystä riippumatta [tutkimustulokset] eivät ole rohkaiseva uutinen tuleville pyrkimyksillemme seurata malleja niiden ajatusketjujen perusteella”, tutkijat tiivistävät.

Suositellut

Uusimmat