Tekoälyn hyödyntämisessä nopeasti yleistyvä käyttötapaus on vapaamuotoisen, ei-rakenteellisen tekstiaineiston hyödyntäminen tekoälyn opettamisessa. Aineiston lähteenä voi olla esimerkiksi avoimet tekstimassat (wikipedia), organisaation keräämät ja ylläpitämät tekstiaineistot (asiakaspalautteet, potilaskertomukset), tai sovellusta varten erikseen kerättävät tai muodostettavat tekstiaineistot (chatbot -opetusdatat).

Tekstiä hyödyntävät tekoälyratkaisut voivat esim. analysoida tekstimassojen sisältöä, tai toteuttaa keskustelevia käyttöliittymiä (chatbotit). Turvallisen kehittämisen kannalta tekstiaineistojen hyödyntämistä koskevat samat lainalaisuudet kuin kategorisen tai numeerisen tiedon tapauksessa: henkilötietojen käsittelyn on oltava lainmukaista, syrjimätöntä ja erityisesti yksityisyyden suojasta on huolehdittava kaikissa käsittelyn vaiheissa.


Taulukko 13: Ohjeita tekstiaineistojen käsittelyyn.

Käyttötapaus

Ohjeita tekstiaineiston käsittelyyn

Käytettävissä oleva tekstiaineisto voi sisältää henkilötietoja, kuten esimerkiksi etunimi, sukunimi, osoite, sähköpostiosoite, postiosoite, jne.

Tekstiaineisto on anonymisoitava. Etunimien ja sukunimien tunnistamiseen on mahdollista käyttää etunimi- ja sukunimitilastoja. Sähköpostiosoitteiden tunnistamiseen on mahdollista käyttää säännöllisiä lausekkeita (regular expression), jonka avulla @ merkin ja domainin loppuosan sisältävät merkkijonot tunnistetaan.

 

On myös mahdollista opettaa mallipohjaisia ratkaisuja vastaaviin käyttötapauksiin, jotka sallivat kirjoitusvirheitä. Sanaluokkien tunnistamiseen on saatavilla kielioppiin ja koneoppimiseen perustuvia malleja. Niiden avulla on mahdollista tunnistaa ja anonymisoida henkilötietoja. Mallipohjaisen anonymisoinnin kehittämisessä voidaan käyttää myös synteettistä, keinotekoista aineistoa.

Tavoitteena on toteuttaa chatbot ja tuotetaan esimerkkilauseita ja vastauksia asiantuntijatyönä

Varmistetaan, että chatbotin käyttäjien syötteitä simuloiva esimerkkiaineisto on sisällöllisesti kattava ja erilaisia kieliasuja saman asian ilmeisemiseksi on riittävästi. Tämä vähentää chabotin tekemiä virheellisiä syötteen luokitteluita, joka pääsääntöisesti johtaa arvaamattomiin seurauksiin.

 

Varmistetaan, että chatbotin tuottamat vastaukset erilaisissa dialogin tilanteissa eivät ole syrjiviä tai loukkaavia.

Chatbotin tai sovelluksen vapaatekstinkentän käytön yhteydessä syötettävät mahdolliset henkilötiedot ja niiden käsittely

Käyttäjän syöttämien tekstien tallentamisessa on huomioitava, että käyttäjä voi ohjeistuksen vastaisesti syöttää henkilötietoja järjestelmään.

 

Järjestelmän on kyettävä anonymisoimaan henkilötietoja sisältävä syöte ennen tietojen lokitusta ja hyödyntämistä chatbotin keskusteluominaisuuksien kehittämiseen.