Tekoälyn turvallisen hyödyntämisen yksi tunnetuimpia haasteita ovat data-aineistojen vinoumat ja niiden vaikutus lopputuloksena syntyneeseen älykkääseen järjestelmään. Vinoumien läsnäolo yleisesti tarkoittaa sitä, data ei vastaa kaikilta osin todellisuutta, vaikka usein näin tulkitaan. Tämän seurauksena tekoälymalli ei toimi toivotusti tai suunnitellusti kaikissa tilanteissa. Sen sijaan tekoälymallin toiminnassa on ei-toivottuja piirteitä, joiden eliminointi voi olla vaikeaa.

Vinoumia esiintyy datan käsittelyn, mallin opettamisen ja mallin käytön vaiheissa. Alla olevassa taulukossa on kuvattu ohjeita erilaisten vinoumien käsittelyyn. Lisätietoa datan vinoumiin liittyen löytyy mm. syrjimättömän tekoälyn arviointikehikosta (1).


Taulukko 12: Datan käsittelyvaiheen vinoumia ja ohjeita niiden käsittelyyn.

Vinouma

Ohjeita vinoumien käsittelyyn

Edustavuusvinouma

Ongelmana on, että data-aineisto tai kyselyn tulokset eivät edusta koko kohderyhmää. Tällöin voidaan selvittää datassa olevien demografisten tai vastaavien taustamuuttujien avulla, ovatko kaikki tavoitellut kohderyhmät edustettuja aineistossa. Jos aineisto ei ole riittävän kattava, kerää lisää aineistoa. Jos mahdollista, testaa kyselyä tai kehitä kysely hyvin monipuolisen ja taustoiltaan erilaisten kohdejoukkojen edustajien avustuksella. Mahdollisuuksien mukaan tulee selvittää eri kohderyhmien tavoittamiseksi erilaiset kanavat ja työkalut.

Otantavinouma

Otantavinouman aiheuttaa aineiston valikoituminen. Esimerkiksi kyselyyn vastaaminen, eli näytteistys ei ole satunnaista. Voi olla, että tietyt ominaisuudet omaavat henkilöt vastaavat kyselyyn herkemmin kuin toiset, vääristäen aineiston muodostumista. Pyri vaikuttamaan valikoitumiseen siten, että taustoiltaan ja tilanteeltaan erilaiset kohdejoukot tulevat edustetuiksi.

Mittausvinouma

Datassa esiintyvä muuttujan arvo voi olla virheellinen tai tulkinnanvarainen (subjektiivinen). Esimerkiksi kyselytutkimuksen kysymykset ja vastausvaihtoehdot tulee suunnitella siten, että väärinymmärrysten ja tulkintavirheiden mahdollisuus minimoituu. Kerätystä aineistosta analysoidaan jokaisen muuttujan arvojen jakauma. Selvästi poikkeavat arvot tulee analysoida tarkasti, ja mahdollisesti poistaa analyysistä.

Luokitteluvinouma

Tavoitteena on hyödyntää ohjattua koneoppimista, jossa tekoälymallille annetaan syötedatan lisäksi ihmisen luokittelemia ns. oikeita vastauksia. Luokitteluvinouma johtuu ihmisten tekemien luokitteluiden epäjohdonmukaisuudesta. Ohjeistus eri luokkien käyttämisestä tulee olla johdonmukainen ja riittävän tarkka. Lisäksi mahdolliset virheelliset luokittelut tulee pyrkiä tunnistamaan ja mahdollisesti poistamaan aineistosta. Virheellisten luokitusten tunnistaminen saattaa edellyttää mallin opettamista, tulosten ja ennustevirheiden syvällistä analyysiä. Poikkeavien luokitusten poistamiselle tulisi löytää järkevä selitys.

Puuttuvan muuttujan vinouma

Asetelmassa tavoitellaan ennustemallin tekemistä, mutta tiedetään oleellisen muuttujan puuttuvan mallista. Tällaisessa tilanteessa etsitään tietolähde, josta tieto voisi olla saatavilla. Kannattaa myös pohtia, onko puuttuvaa tietoa mahdollista approksimoida tai ennustaa välillisesti toisten muuttujien avulla. Mahdollista välillistä syrjintää on kuitenkin vältettävä.

Interaktiovinouma

Datan luullaan kertovan käyttäjän ominaisuuksista, vaikka data syntyy käyttäjän ja tietojärjestelmän vuorovaikutuksesta, jossa järjestelmällä on ohjaileva tai toimintaa rajaava vaikutus. Järjestelmän ohjaava vaikutus aineiston sisältöön on tiedostettava ja huomioitava mallinnuksessa, mikäli mahdollista.

Loukkaava sisältö

Opetusdata sisältää eksplisiittisesti loukkaavaa sisältöä. Tällainen sisältö tulee poistaa ennen mallinnusta.