Sanoilla pitää keikailla, jos haluaa välttää tekoälytunnistimen silmän
Tunnistimien päätökset perustuvat annetun tekstin omaperäisyyteen, joka on erittäin huono mittari strukturoitujen tekstien, kuten lakitekstien, osalta.
Max Lehtinen
17.7.2023

Generatiivinen tekoäly mullistaa parhaillaan ihmiskunnan tapaa kirjoittaa tekstejä, kuten kouluesseitä, mainoksia ja uutisia. 

Joissakin kouluissa kuitenkin kapinoidaan tekoälyavusteista työskentelyä vastaan ja yritetään saada kiinni ChatGPT:n kaltaisia työkaluja käyttäviä opiskelijoita tekoälytunnistimien avulla. 

Tekoälytunnistimet eivät vain ole siihen vielä tarpeeksi luotettavia, ja niiden käyttö aiheuttaa eettisiä ongelmia.

Esimerkiksi Stanfordin yliopiston tutkijat ovat huomauttaneet, että vieraskielisyys ja sosioekonominen tausta saattavat altistaa tietyt ryhmät “suhteettoman suurelle” riskille tulla syytetyksi ilman perusteita.

Tekoälyavusteisen tekstin luotettava tunnistaminen on vaikeaa, sillä generatiivisen tekoälyn kirjoitustapa perustuu ihmisten kirjoittamiin teksteihin. Etenkin suositut tekstit, kuten Yhdysvaltojen perustuslaki, luokitellaan helposti kielimallien kirjoittamiksi

Generatiivinen tekoäly oppii koulutusvaiheessaan ennustamaan, mitkä sanat tai merkit sopivat sen vastaukseen ottaen huomioon käyttäjän kehotteen ja kaiken ihmislähtöisen tekstimassan, jota tekoäly on aiemmin käsitellyt. 

Tekoälytunnistimien toiminta taas perustuu niiden sisäiseen generatiiviseen tekoälyyn, joka vertaa omaa kirjoitustyyliään annettuun tekstiin. 

Tunnistimet yhdistävät siis yleisimmät koulutusteksteissä esiintyneet sanavalinnat tekoälyn tuottamaan tekstiin ja luovemmat ilmaisut inhimillisempään kielenkäyttöön. Tätä mittaria kutsutaan yllättävyydeksi (eng. perplexity).

Koska yllättävyys on niissä alhainen, strukturoidumpien tekstien, kuten lakitekstien tai Python-koodin, inhimillisyyttä on mahdotonta arvioida luotettavasti. Jotkin tekstit eivät ole luonteeltaan yllättäviä, vaikka ne olisi kirjoittanut luova ihminen. 

Tunnistimet käyttävät joskus yllättävyyden lisäksi mittarina myös tekstin purskauksien (eng. burst) määrää eli vaihtelua virkkeiden pituuden ja rakenteiden välillä. 

Toistaiseksi kielimalleilla on vain vähän osaamista sanoja laajempien kokonaisuuksien, kuten virkepituuksien, vaihtelemisessa, minkä vuoksi purskahtelevuutta käytetään yhtenä mittarina erottaessa ihmistä tekoälystä.

Virkkeiden ja kappaleiden pituuksien vaihtelu on useiden oppikirjojen mukaan taitavia kirjoittajia yhdistävä tehokeino. Moni tekoälyasiantuntija uskoo kuitenkin kielimallien ohittavan ihmisälykkyyden ohella myös ihmisten kirjoitusosaamisen jo tällä vuosisadalla.

Ehkä sitten tunnistimet toimivatkin toisinpäin. 

Joka tapauksessa kielimallien käyttämättä jättäminen kouluissa on mitä luultavimmin vain tapa hidastaa välttämätöntä tulevaisuutta, jossa tekoäly on osa sekä oppilaiden että opettajien elämää – niin kuin muidenkin. 

Kuva: Markus Winkler

Suositellut

Uusimmat