OpenAI:n ChatGPT-4o osaa nyt generoida kuvia itse, OpenAI kertoo blogissaan. Mallin tuottamien kuvien laatu on monien lähteiden mukaan aiempia kuvageneraattoreita parempi.
ChatGPT-4o kykenee muun muassa muistamaan aiemmat piirroksensa ja muokkaamaan niitä ohjeiden mukaan, sillä se tukee kuvien “lukemista” ja luomista sisäsyntyisesti.
Tämä lähestymistapa paikkaa myös monia tavanomaisen kuvageneroinnin heikkouksia, sillä 4o:n tuotokset generoidaan pala palalta eikä kokonaisuutena. Lopputulokseen saavutaan yksityiskohtaisemmin kuin tavanomaisissa kuvageneraatiomalleissa, nk. diffuusiomalleissa.
Uusi versio 4o:sta on saatavilla myös ilman ChatGPT-tilausta. Esimerkkejä mallin kyvyistä löydät artikkelin lopusta.
Kuvageneroinnin paradigma muuttumassa
Diffuusiomallit, kuten OpenAI:n DALL-E 3, toimivat aloittamalla generoinnin satunnaisesta pikselimössöstä ja muokkaamalla kuvaa iteratiivisesti kehotteen mukaan. Diffuusiomallien kuvageneroinnissa jokaista pikseliä muokataan ainakin hieman kymmeniä tai jopa satoja kertoja.
Muutokset tapahtuvat samaan aikaan koko kuvalle, eikä yksityiskohtia voi juurikaan hienosäätää.
ChatGPT-4o sen sijaan käyttää nk. autoregressiivistä kuvagenerointia, joka perustuu samaan ideaan kuin tekstin generointi. Lopputulos rakennetaan yhdestä suunnasta (ilmeisesti ylhäältä alas) niin, että malli tietää koko ajan, mitä se on juuri aiemmin piirtänyt.
Siksi malli kykenee moniin asioihin, joissa diffuusiomallit ovat kompuroineet.
Lähestymistapa ei ole uusi. Autoregressiivinen kuvien generointi on tunnettu tekoälyalalla jo vuosien ajan, mutta vasta nyt teknologia on selkeästi ohittanut diffuusiomallien kyvyt.
Teknologisten prosessien kehittymisen lisäksi laatu on parantunut merkittävän manuaalisen työn tuloksena.
WSJ:n mukaan ChatGPT-4o sai noin vuoden ajan jatkuvaa palautetta yli 100 työntekijältä, joiden ainoana tehtävänä on ollut selventää mallille, mitä virheitä sen generoimissa kuvissa on.
Käyttökohteiden kirjo on kasvanut
OpenAI:n autoregressiivinen lähestymistapa mahdollistaa monia uusia käyttökohteita. Se tekee esimerkiksi tekstin kirjoittamisen kuviin luotettavammaksi ja luonnollisemman näköiseksi, OpenAI kertoo.
Jatkossa mitä tahansa, jossa on tekstiä ja jonkinlaista designia, voidaan ideoida tekoälyllä helpommin.
Tämä ei kuitenkaan tarkoita, että ihmisten rooli olisi prosessista kaikonnut. Ainakin pitkien tekstien suhteen korjattavaa jää usein, kun joku kirjaimista onkin väärä tai vain hassun muotoinen.
Erityisen merkittävää kuitenkin on, että generoituihin kuviin on nyt helpompaa asettaa niitä elementtejä, joita käyttäjä spesifisti haluaa. Mallille voi esimerkiksi antaa kontekstiksi kuvan yrityksen logosta ja pyytää sitä asettamaan tämän generoituun kuvaan.
Eräässä OpenAI:n demossa näytetään, miten esimerkiksi paperille piirretty sarjakuva voidaan tuoda digitaaliseen muotoon 4o:n avulla. OpenAI:n mukaan 4o pystyy toistamaan hahmoja ja muita elementtejä tarvittaessa uusissa sarjakuvan kohtauksissa samankaltaisina.
OpenAI kutsuu tätä toisessa demossaan “hahmojen johdonmukaisuudeksi”.
Konteksti tukee toiveiden toteuttamista
Lienee ilmiselvää, että johdonmukaisuus avaa oven valtavalle määrälle uusia käyttökohteita. Kun samoja elementtejä voi kopioida luotettavasti eri konteksteihin, tarinoita voidaan kertoa ketjuttamalla tekoälygeneroituja kuvia.
Vaikuttavinta mallissa lienee kuitenkin sen tuottamien kuvien realistisuus ja tarkkuus. Virheitä on yhä syytä odottaa ensimmäisellä yrityksellä, mutta muutaman iteraation jälkeen lopputulos näyttää jo usein hyvältä.
Diffuusiomalleihin verrattuna esimerkiksi ihmiskasvojen generointi on aivan uudella tasolla.
Tässä on kuitenkin huomioitava, että kuvien generoimiseen myös kuluu aikaa, tavanomaisesti kymmeniä sekunteja. Itse totesin tehokkaimmaksi tavaksi käyttää mallia useilla ikkunoilla samaan aikaan, vaikka pyyntö olisikin sama.
Tulevaisuus: muutakin kuin julkkiksia ja Van Goghia?
Hieman huolestuttavaa 4o-mallissa on, että se suostuu generoimaan kuvia myös oikeista ihmisistä. Annoin mallille esimerkiksi kuvan itsestäni ja pyysin sitä luomaan kuvan uudelleen Van Goghin tyylillä.
Alta löytyy lopputulos muutaman yrityksen jälkeen.
Mielenkiintoista on, että pyysin mallia “jäljittelemään kasvonpiirteitä mahdollisimman tarkasti”, eikä tämä kehote aktivoinut mitään turvajärjestelmää. Toistin pyynnön yli 10 kertaa.
Malli ei siltikään kyennyt näillä yrityksillä kopioimaan kasvonpiirteitäni täydellisesti, mutta tämä lienee enemmänkin hyvä asia kuin puute. Van Goghin tyylin jäljitteleminen luultavasti vaikeutti tehtävän suorittamista. Tehtävään nähden tulos on vaikuttava.
Kaikki eivät kuitenkaan ole yhtä onnekkaita identiteettinsä suojelun suhteen. Esimerkiksi julkisuuden henkilöiden kopiointi ja muokkaaminen onnistuu mallilla muita helpommin, koska mallit ovat oppineet heidän kasvoistaan jo koulutuksen aikana.
Näissä kokeiluissa en sisällyttänyt minkäänlaista lisäohjetta sisällön tyylille. Esimerkiksi Angelina Jolien sai luotua mallilla helposti IT Insider -hattu päässä.
Myös tuttujen sarjakuvahahmojen kopiointi onnistui ChatGPT-4o:lla varsin näppärästi.
Oli miten oli, alta löytyviä kuvia hyödyllisempiäkin käyttökohteita kuvageneroinnilla riittää. Vain luovuus on rajana. Suosittelen vahvasti kokeilemaan, miten malli taipuu omiin käyttötarkoituksiisi. Ja miksei sitä huvin vuoksikin generoinnin kanssa voisi leikkiä.
Kaikki kuvat eivät ole ensimmäisiä sukupuussaan.






