Kielipohjaiset käyttöliittymät yleistyvät voimakkaasti. Useimmiten ne perustuvat käyttäjän syöttämään tekstiin, mutta puheen tallentaminen ja muuttaminen tekstiksi myös suomeksi onnistuu hyvin. Kun tekoälyä kehitetään tekstiaineistojen avulla, törmätään uuden tyyppisiin haasteisiin.

Ilmeisimmät uhkakuvat tekstipohjaisten tekoälyratkaisujen käyttämiseen liittyvät tekstisyötteestä johdettuihin luokituksiin, suosituksiin tai päätöksiin, jotka voivat olla yksittäiselle käyttäjälle vääriä, vahingollisia tai syrjiviä. Kielen monimuotoisuuden takia toivotun ja tasapuolisen käsittelyn saavuttaminen ja takaaminen on haastavampaa kuin esim. numeerisen tiedon tapauksessa.


Yllä olevassa kuvassa on esitetty tekoälypohjaisen tekstin käsittelyn vaiheet. Käsittely voi epäonnistua eri vaiheissa:

  • Käyttäjän tuottama teksti tai puhe ei kuvaa käyttäjän lähtötilannetta oikein, tai sisällössä on esimerkiksi kirjoitusvirheitä
  • Teksti tulkitaan tekoälyn toimesta väärin tai puutteellisesti
  • Koneen tuottama vastaus tai ennuste on väärin tai arvaamaton
  • Käyttäjä tulkitsee tai olettaa tuloksen virheellisesti

Alla olevassa taulukossa on kuvattu ohjeita eri vaiheiden toteuttamiseen.


Taulukko 20: Ohjeita tekstipohjaisten mallien toteuttamiseen.

Tilanne

Ohjeita

Käyttäjän syöttämä teksti ei välttämättä pidä paikkaansa.

Järjestelmän tulee kyetä toimimaan järkevästi myös väärällä ja arvaamattomalla syötteellä.

 

Järjestelmän tulee pyrkiä validoimaan syötettä muiden tietojen avulla, mikäli mahdollista.

Järjestelmä ei ymmärrä syötettä oikein

Sanalistojen käyttäminen ja sanojen eksaktin esitysasun käyttäminen sääntöpohjaisesti voi johtaa arvaamattomaan lopputulokseen kirjoitusvirheistä ja sanojen sijamuodoista johtuen.

 

Ngram -pohjaiset menetelmät sietävät kirjoitusvirheitä ja sijamuotoja eksaktia käsittelyä paremmin.

 

Sanavektori- ja lausevektorimallit (word embedding) voivat auttaa järjestelmää tulkitsemaan oikein erilaisia samaa tarkoittavia sanoja tai lauseita. Malleja voi opettaa itse riittävän suurista aineistoista. Semanttisten mallien opettamisessa aineiston valinta on kriittistä. Internetin opetusaineisto voi sisältää yhteiskunnallista syrjintää.

Usein asiayhteys on puutteellisesti ymmärretty. Kontekstin ymmärrys saattaa edellyttää teksti / keskusteluhistorian sisällyttämistä käsittelyyn.

 

Ongelmana voi olla, että käyttäjän kieltä tai murreta ei ymmärretä. Käytettävissä voi olla kielen kääntämisen palveluita tai kielimalleja, jotka ymmärtävät useita eri kieliä.

 

Jos opetetaan chatbottia, esimerkkilauseita jokaiselle intentiolle on syötettävä riittävästi.

Järjestelmän tuottama luokittelu tai ennuste on syrjivä tai ongelmallinen

Järjestelmän yhtenä syötetietona on tekstiä, joka voi sisältää syrjintäkriteereitä tai syrjintäkriteerien kanssa korreloivaa informaatiota. Tällaisissa tilanteissa informaatio ei saa vaikuttaa lopputulokseen tai järjestelmän tuotokseen.

 

Järjestelmää on testattava kattavasti. Sisällöllisesti sama käyttötapaus on testattava kielellisesti monipuolisesti.

 

Järjestelmä tuottamien ennusteiden on kohdeltava eri kohderyhmistä johdettuja esimerkkejä reilusti ja tasapuolisesti.

 

Järjestelmän täysin arvaamaton toiminta realistissa käyttötapauksissa tulee estää laajentamalla opetusaineistoa.

 

Järjestelmää toteutettaessa on oltava laaja ymmärrys käyttäjäkunnasta ja heidän mahdollisista taustoistaan, ja eri tilanteisiin on kyettävä varautumaan.

Käyttäjä ymmärtää tai tulkitsee tuloksen tai tuotoksen virheellisesti

Käyttäjää on informoitava, että tuotos on tietojärjestelmän eikä ihmisen tuottama.

 

On pyrittävä varmistamaan, että käyttäjä tiedostaa tuotosten olevan koneellisesti tuotettuja ja virheiden mahdollisuus on huomattava.

 

Järjestelmä ei saa esittää tietoja tavalla, joka voi johtaa käyttäjää harhaan. Erityisesti laadukas, järjestelmän tuottama teksti voidaan helposti tulkita ihmisten tuottamaksi, mikä voi oleellisesti johtaa käyttäjää harjaan.