Tutkimus: Chatbottien käytettävyyden lisääminen vähentää faktojen tarkkuutta
Chatbottien liiallinen itsevarmuus vaikeuttaa teknologian laajaa käyttöönottoa. Ongelmia ratkaistaan esimerkiksi kehotesuunnittelulla ja validointijärjestelmillä.
Max Lehtinen
11.5.2025

Viime viikolla Instagramin perustajajäsen Kevin Systrom teki uskaliaan syytöksen tekoälyjäteistä. Hän väitti, että chatbotteja suunnitellaan tahallaan vähemmän avuliaiksi niiden käyttömäärien lisäämiseksi. 

Eräs käytetyistä tekniikoista on Systromin mukaan chatbottien persoonan mukauttaminen ihmisille mieluisammaksi. 

Systromin näkemyksiä tukee tekoäly-yritys Giskardin hiljattainen tutkimus chatbottien käyttäytymisestä. Tutkimuksen mukaan lyhyiden (käyttäjäystävällisempien) vastausten pyytäminen lisää chatbottien hallusinaatioita. Tutkijat uskovat, että chatbottien koulutustapa estää niitä myöntämästä tietämättömyyttään. 

Edes johtavat chatbotit, kuten Claude 3.7 Sonnet ja GPT-4o, eivät läpäisseet Giskardin testauksia. Mallien suosio LMArenan kaltaisilla käyttökokemusta painottavilla vertailulistoilla voi “tulla faktojen tarkkuuden kustannuksella”, tutkijat kirjoittavat.  

Claude 3.7 Sonnet on osa Anthropicin tuoreinta päättelymallierää, mikä osoittaa, ettei hallusinaatioita voi estää edes johtavalla tekoälyteknologialla. 

Löydökset antavat tekoälyn käyttäjille tärkeän ohjenuoran: vastausten pituuden optimointi esimerkiksi laskentatehon vähentämiseksi tai ihmisoperaattorin työn helpottamiseksi voi johtaa ei-haluttuihin seurauksiin.

Erityisen tärkeää tämä on ymmärtää aloilla, joilla panokset ovat korkeat. Esimerkiksi terveydenhuollossa väärän datan käyttäminen diagnostiikkaan voi aiheuttaa potilaalle merkittävän riskin. 

Ongelmia ratkaistaan monissa yrityksissä ja tutkimuslaboratorioissa esimerkiksi kehittyneellä kehotesuunnittelulla ja validointijärjestelmillä.

Kehotteet pyrkivät parantamaan mallien vastausten tarkkuutta. Validointijärjestelmät taas pyrkivät arvioimaan chatbottien vastausten laatua (mikä estää matalalaatuisten vastausten päätymisen käyttäjälle) ja etsimään lähdeteksteistä varmennuksen tekoälyn väitteille (mikä mahdollistaa tiedon todentamisen).

Aiemmin tällä viikolla julkaistun tutkimuksen toteutti pariisilainen tekoäly-startup Giskard, joka on erikoistunut tekoälyn testaamiseen.

Suositellut

Uusimmat