Tutkimus: Tekoälytunnistimet syrjivät – eivätkä juurikaan toimi
Sen lisäksi, että tunnistimet syrjivät vieraskielisiä puhujia, ne eivät tunnista tekoälyllä tuotettuja tekstejä luotettavasti, jos tekoälyä ohjeistetaan yksinkertaistamaan tuottamaansa tekstiä.
Max Lehtinen
11.7.2023

Stanfordin yliopiston tutkijoiden mukaan tekoälytekstiä tunnistavat työkalut syrjivät ihmisiä, joiden äidinkieli ei ole englanti.

Tutkijat syöttivät tutkimuksessa sekä kahdeksasluokkalaisten natiivien että englantia vieraana kielenä puhuvien henkilöiden kirjoittamia englanninkielisiä tekstejä seitsemään tekoälytekstiä tunnistavaan ohjelmistoon.

Kokeiden jälkeen tutkijat kuvailivat tunnistimien lupaamia tarkkuusprosentteja ”vähintäänkin harhaanjohtaviksi”.

Tutkijoiden mukaan englantia vieraana kielenä puhuvien ihmisten kirjoittamista teksteistä 61 prosenttia luokiteltiin virheellisesti tekoälyn tuottamiksi. Yksi ohjelmisto luuli jopa 98 prosenttia vieraskielisistä esseistä tekoälyn laatimiksi. 

Natiivien kirjoittamista teksteistä tunnistimet luokittelivat 95 prosenttia ihmisen kirjoittamiksi.

Tutkijoiden mukaan erilaiset toimijat, kuten Google, voivat “tahattomasti rajoittaa muiden kuin natiiviyhteisöjen näkyvyyttä ja mahdollisesti vaientaa erilaisia näkökulmia”, jos tekoälytunnistimiin luotetaan. 

Niiden toiminta perustuu tekoälyn kykyyn ennustaa, millä tavuilla tai sanoilla tekstin kirjoittaja jatkaa aiempaa kirjoitustaan. 

Koska generatiivinen tekoäly yrittää jäljitellä suuriin ihmismassoihin perustuvaa kirjoitustapaa probabilistisesti, tunnistimet yhdistävät yleiset sanavalinnat tekoälyn tuottamaan tekstiin ja luovemmat ilmaisut inhimilliseen kielenkäyttöön. 

Englantia vieraana kielenä puhuvat käyttävät todennäköisemmin toisteisia ja muistiin perustuvia sanavalintoja omaperäisen kielenkäytön sijaan, mikä johtaa vinoumaan tunnistimien toiminnassa. 

Tunnistimissa on kuitenkin myös lisää ongelmia. 

Tutkijat pyysivät ChatGPT:tä kirjoittamaan vieraskieliset esseet uudelleen kehittyneemmällä kielellä. Tuloksena oli litania tekstejä, jotka tekoälytunnistimet leimasivat vain harvoin tekoälyn tuottamiksi. 

Samoin tekoälyn avulla yksinkertaistetut natiivitekstit luokiteltiin tekoälyavusteiseksi 57 prosentin todennäköisyydellä. Vertailun vuoksi lienee hyvä mainita, että noin 50 prosentin onnistumisprosentti saavutettaisiin arvaamalla kolikkoavusteisesti. 

Lisäksi tutkijat huomauttavat, että muutkin tekijät, kuten sosioekonominen tausta, saattavat altistaa tietyt ryhmät “suhteettoman suurelle” riskille tulla syytetyksi ilman perusteita.

Kuva: Levart 

Suositellut

Uusimmat