ConfidenceAI-projektissa kehitetty tekoäly arvioi tekstien luotettavuutta monipuolisesti

Tekoäly keventää ihmisen työtä ja ajattelua monin tavoin. Totuuden jälkeisenä aikana viestien luotettavuuden arviointi on usein hankalaa. Artikkeli kuvaa, miten tekoälyä voi käyttää tekstien luotettavuuden arviointiin.

Ihminen on kaiken mitta. Tämä tiettävästi antiikin filosofi Protagoraksen esittämä ajatus pätee ainakin tekoälyyn. On nimittäin niin, että tekoälyn kehityksessä ihmisen ajattelua ja älyä on pidetty usein mittapuuna tekoälyn onnistumiselle. Ja päinvastoin. Tekoäly antaa materiaalia ja näkemyksiä myös ihmisen ajattelun ja älyn tutkimiseen.

Tätä kuvaa osuvasti J. von Neumannin keskustelu opiskelijan kanssa tietokoneita käsittelevällä luennolla Princetonin yliopistossa vuonna 1948 (ks. Jaynes, 2003, pp. 7–8, käännös kirjoittajien).

Opiskelija: – Eihän koneet kuitenkaan kykene ajattelemaan?

J. von Neumann: – Esität, että on jotain sellaista, mitä koneet eivät voi tehdä. Jos kerrot minulle, mitä se on, mitä kone ei voi tehdä, voin heti tämän määrittelyn jälkeen tehdä tällaisen koneen.

Ongelma J. von Neumannin koneen ja ihmisen kykyjen vertaamisessa on se, että tiede ei pysty yksiselitteisesti määrittelemään, mitä on ihmisen ajattelu ja älykkyys. Niinpä tekoälyn kehitys ja ihmisen ajattelun tutkiminen ovat edenneet viime vuosikymmeninä rinnakkain siten, että sitä mukaa kun tekoäly on kehittynyt, ihmisen älykkyydellekin on pystytty luomaan tarkempia määritelmiä.

Myös Laurea-ammattikorkeakoulun projektissa ConfidenceAI – Tekoäly viestin luotettavuuden arvioitsijana ihmisten arvioilla oli ratkaiseva merkitys, kun tekstien luotettavuuden tasoa arvioivaa tekoälyä kehitettiin. Projekti oli osa Helsingin Sanomain säätiön rahoittamaa Totuuden jälkeinen aika –tutkimusohjelmaa. Tutkimuksen tulokset on hiljattain julkaistu (Kauttonen ja muut, 2020) arvostetussa kansainvälisessä Plos One -tiedelehdessä.

Ihminen kohtaa päivittäin kymmeniä, jopa satoja kirjoitettuja, kuvallisia tai videoviestejä. Niiden sisältö vaihtelee tieteellisestä tiedosta aina uutisiin, viihteeseen ja kaupallisiin mainoksiin. Viime aikoina myös tarkoituksella tuotetut valeviestit ovat lisääntyneet. Viestijät pyrkivätkin kehystämään sanomansa emotionaalisesti niin, että se aktivoi ihmisten mielikuvia tehokkaasti. Usein tällaiset emotionaaliset viestit vetoavat ihmisiin voimakkaammin kuin pelkkiin faktoihin pohjautuvat viestit.

Erityisesti totuuden jälkeisenä aikana on syytä kysyä, miten ihmisiä voi auttaa suhtautumaan kriittisesti erilaisiin viesteihin ja kuinka arvioida viestien ja muun informaation luotettavuutta. Kun aiemmin on tutkittu viestien suosiota niiden emotionaalisen sisällön ja rakenteellisten seikkojen perusteella (Berger & Milkman, 2012; Lai & Farbrot, 2014), tässä tutkimuksessa viestejä tarkasteltiin niiden luotettavuuden perusteella. Tältä pohjalta aloimme kehittämään tekoälyalgoritmia, jonka tehtävänä oli arvioida tekstien luotettavuutta sekä muita siihen läheisesti liittyviä ominaisuuksia.

Tutkimuksen aineisto ja menetelmät

Tutkimuksen aineistoksi poimittiin 365 lyhyttä suomenkielistä ruoka- ja terveysaiheista tekstiä (300 – 1000 sanaa) internetin uutisista, mainoksista, kolumneista ja blogeista. Pyrimme löytämään tekstit, joiden luotettavuusarviot vaihtelevat, mutta jotka olivat kuitenkin riittävän samankaltaisia keskenään aihepiirin osalta. Tekstejä muokattiin, jotta niistä tuli yhdenmukaisia, minkä jälkeen ne laitettiin elektroniseen tietokantaan. Tämän jälkeen laadittiin kysely, jossa vastaajat arvioivat tekstin luotettavuutta sekä viittä muuta ominaisuutta numeerisella skaalalla (1-8). Tekstin luotettavuus, tietosisältö ja loogisuus liittyivät kognitiivisiin asioihin. Sen sijaan tekstin puolueellisuus, tunnepitoisuus ja kirjoitustyyli liittyivät emotionaalisiin asioihin.

Kysely lähetettiin verkossa yli 20 000 opiskelijalle suomalaisissa korkeakouluissa ja lisäksi Laurean koko henkilökunnalle. Vastaamisen houkuttelevuutta pyrittiin lisäämään arpomalla 20 kappaletta 25 euron arvoisia lahjakortteja vastaajien kesken. Kukin vastaaja sai eteensä satunnaisesti valittuja tekstejä. Lopulliseen analyysiin päätyi 416 vastaajaa, jotka täyttivät seuraavat kaksi kriteeriä. Vastaajan piti arvioida vähintään 5 tekstiä ja jokaisen tekstin vastaamiseen täytyi kulua vähintään 70 sekuntia. Näiden perusteella laskimme kullekin tekstille aggregoidut arviot, jotka edustivat kaikkien vastaajien keskimääräistä mielipidettä.

Tämä analyysi tuotti myös arviot henkilöiden taipumuksille yli- tai aliarvioida tekstejä verrattuna keskiarvoon. Kaikilta vastaajilta kerättiin taustamuuttujia, kuten ikä, koulutus, ruokavalio ja liikunnallinen aktiivisuus. Näin saimme selville, millainen käsitys ihmisillä oli viestin luotettavuudesta ja mikä oli niiden yhteys taustamuuttujiin. Tämän jälkeen aloimme kehittämään tekoälyalgoritmia ja mallintamaan luotettavuusarvioita. Suomen kieli toi asiaan omat lisähaasteensa, koska valtaosa tekstianalytiikan tutkimuksesta ja menetelmistä keskittyvät vain isoihin valtakieliin (mm. englanti ja kiina).

Tavoitteena oli rakentaa tekoälyohjelma, joka lukee annetun tekstin, käsittelee sen automaattisesti ja laskee sille numeerisen luotettavuusarvion. Ohjelma pystyy opettamisen jälkeen arvioimaan tekstien ominaisuuksia itsenäisesti ja tilastollisesti merkittävällä tarkkuudella. Käytännössä kerätyn kyselydatan perusteella ohjelmalle opetettiin, millaisia ovat luotettavat ja epäluotettavat tekstit.

Ohjelma muunsi tekstit numeeriseen muotoon ja etsi sellaiset piirteet, jotka korreloivat tekstin ihmisiltä saamien arvioiden kanssa. Tällaisia piirteitä olivat muiden muassa erilaiset sanayhdistelmät, tekstin rakenne ja tekstin lähdeviitteet. Kun ihminen arvioi tällaista tekstiä, hän muodostaa siitä kokonaiskuvan. Lukemattomat yksityiskohdat, jotka erottelevat luotettavat tekstit epäluotettavista jäävät kuitenkin ihmisen tietoisuuden ulkopuolelle. Tekoälyn avulla voidaan siis louhia tekstistä sellaisia piirteitä, jotka jäävät ihmisiltä yleensä huomaamatta.

Neuroverkkojen voittokulku maailmalla

Valtaosa viime vuosien merkittävimmistä ja näyttävimmistä tuloksista ja innovaatioista tekoälyn alalla liittyvät syväoppiviin neuroverkkoihin. Vaikka neuroverkkojen kehitys alkoi jo 1950-luvulla (Rosenblatt, F. 1958), niin nykyisen voittokulun voidaan katsoa alkaneen vuoden 2012 paikkeilla, jolloin mm. AlexNet-niminen syvä neuroverkko voitti ylivoimaisesti kansainvälisen kuvantunnistuskilpailun (Krizhevsky et al., 2017). Tässä 8-kerroksen ja 60 miljoonan parametrin (=opetettavat muuttujat) neuroverkossa hyödynnettiin innovatiivisesti mm. konvoluutiota, yhdistämisoperaatioita ja rinnakkaislaskentaa grafiikkasuorittimilla.

Laskentatehon kasvu onkin tärkein yksittäinen tekijä, joka on mahdollistanut alan nopean kehityksen viime vuosina. Toinen keskeinen tekijä on datamäärän kasvu, joka sallii yhä monimutkaisempien tekoälymallien kehittämisen. Nykyisin syväoppivissa verkoissa voi olla satoja kerroksia ja kymmeniä miljardeja parametreja. Esimerkiksi OpenAI:n uudessa tekstin analyysiin kehitetyssä GPT-3 –nimisessä1 mallissa on peräti 175 miljardia parametria. Kuvien tunnistamisen lisäksi nykyiset neuroverkot osaavat tunnistaa ihmisen kasvonilmeitä, eleitä, puhetta, analysoida tekstiä ja jopa pelata monimutkaisia lauta ja videopelejä.

Käytännössä mitä enemmän parametreja mallissa on, sitä enemmän dataa tarvitaan, jotta verkko osaa keskittyä olennaiseen ja jättää epäolennaiset häiriötekijät huomiotta (toisin sanoen ei tapahdu ylioppimista). Syväoppivan neuroverkon yhtenä suurimpana ongelmana on se, että ne eivät paljasta oman toimintansa logiikkaa. Vaikka syväoppivaa neuroverkkoa käyttävä tekoäly osaa erottaa kissan naaman karhun naamasta, emme pysty kertomaan, mitä kriteerejä se tarkalleen ottaen käyttää tässä luokittelussa. Se, miten verkon päätökset syntyvät, on itsessään ajankohtainen tekoälytutkimuksen osa-alue (Clark et al., 2019).

Syväoppiva neuroverkko muistuttaa toiminnaltaan hieman ihmisen aivoja, mikä on toiminut alun perin inspiraationa verkkojen kehitykselle. Kun tarkoin kontrolloidussa havaintotehtävässä ihminen päättää, näkyykö kuvassa ihminen vai eläin, tähän kuluu aikaa 150 millisekuntia. Sen sijaan ihminen tulee tietoiseksi tekemästään valinnasta hieman myöhemmin eli 400 millisekunnin kohdalla (Herzog et al., 2016).

Se mitä aivoissamme tapahtuu visuaalisen ärsykkeen ilmestymisen ja napin painalluksen välillä muistuttaa jossain määrin syväoppivan algoritmin toimintaa. Tiedämme lopputuloksen, mutta meidän on lopulta vaikea määritellä niitä lukemattomia piirteitä, jotka erottavat ihmisen kasvot eläimen kasvoista.

Perinteiset menetelmät veivät tällä kertaa voiton

Ajan hengen mukaisesti mekin lähdimme liikkeelle syväoppivista neuroverkoista. Emme kuitenkaan saaneet niistä irti yhtä hyvää tarkkuutta kuin perinteisillä yksinkertaisemmilla koneoppimismalleilla, kuten päätöspuilla, regularisoiduilla lineaarisilla regressiomenetelmillä ja matalilla neuroverkoilla. Ongelmaksi muodostui datan vähäinen määrä ja menetelmien heikko tuki suomen kielelle. Vaikka lähes 416 vastaajan ja 365 tekstin aineisto saattaa tuntua suurelta, se on kuitenkin syvien neuroverkkojen näkökulmasta hyvin pieni. Vastaavissa kansainvälisissä projekteissa aineisto muodostuu jopa miljoonista näytteistä.

On huomioitava, että tutkimuksemme analyysit tehtiin vuoden 2017-18 taitteessa, jonka jälkeen tilanne on muuttunut merkittävästi. Viimeisen kahden vuoden sisällä kieliteknologian alalla on siirrytty ns. esiopetettujen kielimallien aikakaudelle, jossa syville neuroverkoille esiopetetaan kielen perusasiat suurien tekstimassojen avulla, minkä jälkeen riittää, että verkko hienosäädetään omalla datalla haluttuun tehtävään. Tähän hienosäätöön riittää myös pienempi datamäärä. Vuonna 2020 näitä malleja on olemassa myös suomelle (esim. FinBERT). Tekstianalytiikka ja kielimallien kehitys elävät parhaillaan voimakkaan renessanssin aikaa.

Tässä tutkimuksessamme parhaiten menestyivät lopulta kuitenkin regularisoidut lineaariset menetelmät, kuten epsilon-SVR (lineaarinen ydin) ja elastic net. Hyvänä puolena näissä malleissa on helppo tulkittavuus. Tässä projektissa tätä voidaankin pitää jopa tärkeämpänä ominaisuutena kuin mallin raakaa numeerista tarkkuutta. Tekoälyn kehittämisessä on yleensäkin tärkeää aloittaa ilmiöstä, datan erityispiirteistä ja mallintamisen tavoitteista, eikä automaattisesti tähdätä pelkkään numeeriseen suorituskykyyn.

Mallinnuksessa meillä oli siis tekstit, joista muodostettiin numeeriset vektorit, joiden pituus oli joitakin tuhansia elementtejä. Tämä tapahtui yhdistämällä kolme erilaista piirretyyppiä: (1) Sanojen painotettu frekvenssivektori eli kuinka monta kertaa kukin sana esiintyi, (2) räätälöity piirrevektori eli kuinka paljon tekstissä oli mm. välimerkkejä, kappaleita, erisnimiä, tieteellisiä viittauksia ja väliotsikoita, sekä (3) word2vec sanaupotuksista laskettu 300-ulotteinen painotettu keskiarvovektori. Näistä viimeisin hyödynsi alkeellisella tasolla edellä mainittua esiopetuksen periaatetta, koska opetus oli tehty erillisellä tekstimassalla Turun yliopiston tutkimusryhmässä. Jokaiselle kuudelle tekstiominaisuudelle etsittiin paras kombinaatio eri piirreluokista.

Yksittäisten tekstien piirrevektorit koottiin matriisiin X, jossa oli siis 365 riviä ja sarakkeita, joiden määrä riippui yhdistetyn piirrevektorin pituudesta (testattava mallin parametri). Kyselyn perusteella laskimme teksteille aggregoidut arviot (6 kpl per teksti), jotka muodostivat vastematriisin Y (365 riviä ja 6 saraketta). Ongelmana on nyt ratkaista regressio-ongelma F(X)=Y, missä F on muuttujien X ja Y välinen funktio, jonka approksimaatioon kokeilimme erilaisia malleja. Käytännössä teimme oman mallin Y:n eri sarakkeelle ja optimoimme piirrevektorit jokaiselle erikseen. Ohjelmointikielenä käytimme pääasiassa Pythonia ja sen avoimen lähdekoodin kirjastoja, kuten Scikit-learn, Keras, Omorfi ja Gensim.

Mallinnuksen erityispiirteitä ja löydöksiä

Teknisesti ongelmamme oli vastaava kuin esimerkiksi sähköpostin suodattaminen siten, että spammit menevät roskapostiin automaattisesti tai elokuvien ja tuotekuvausten arviointi hyviin ja huonoihin. ConfidenceAI-projekti oli erityisen haastava sen vuoksi, että toisin kuin esimerkiksi roskapostin suodatuksessa, tekstin luotettavuus on paljon epämääräisempi ja subjektiivisempi käsite. Keskeinen kysymys oli, miten yhdenmukaisia ihmisten luotettavuusarviot ovat ja löytyykö sellaista funktiota F, joka yleistyy riittävästi erilaisten tekstien välillä. Vaikka käyttämämme mallit olivat lopulta yksinkertaisia, tuloksemme olivat hyviä, sillä menetelmämme pystyi tuottamaan tilastollisesti luotettavan arvion kaikille kuudelle ominaisuudelle, selitysasteen (R2) ollessa 55 – 70 prosenttia. Heikoin ennustetulos oli loogisuudella ja paras tekstin tunnesävyllä. Tutkimuksen kannalta kiinnostavimmalle ominaisuudelle ”luotettavuus” selitysaste oli 63 prosenttia. Kaikki kuusi tekstiominaisuutta olivat vahvasti korreloituneita keskenään, joten luotettavat tekstit olivat myös yleisesti ottaen johdonmukaisia, selkeitä ja tietosisällöltään runsaita. Tämän voi tulkita siten, että luotettavuus syntyy yhteydessä moniin osatekijöihin eikä niistä erillisenä.

Pystyimme kaivamaan malleista esiin piirteitä, jotka kasvattivat tai pienensivät tekstien luotettavuutta. Luotettavuutta lisäsivät muiden muassa tieteelliset lähteet, asiantuntijoihin viittaaminen, sitaatit ja selkeä kappalejako. Luotettavuutta vähensivät esimerkiksi huutomerkin käyttö ja kirjoittajan itseensä viittaaminen (omien kokemusten kertominen). On kuitenkin tärkeää ymmärtää, että ennuste muodostui satojen eri osatekijöiden yhteisvaikutuksesta. Yleisesti ottaen toimitetut ja muodolliset tekstit, jotka olivat tyypillisesti uutisia ja tiedotteita, koettiin luotettavampina kuin selkeästi epämuodolliset blogityyppiset tekstit. Huomasimme myös, että luotettavat ja epäluotettavat tekstit eriytyivät semanttisesti selkeästi toisistaan word2vec-avaruudessa. Koska word2vec-mallin perusidea, eli tiheät sanaupotukset, ovat myös syvien neuroverkkojen toiminnan perusta, myös kehittyneemmät neuroverkkomallit olisivat luultavasti toimineet ongelmassamme hyvin, mikäli dataa olisi ollut enemmän. Palaamme asiaan mahdollisesti uudestaan tulevaisuudessa, kun voimme hyödyntää uusimpia ja erityisesti suomen kielelle kehitettyjä kielimalleja, kuten FinBERT.

Yhteenveto

ConfidenceAI-projektissa kehitimme tekoälyohjelman, joka pystyy arvioimaan terveyteen ja ravintoon liittyvien tekstien luotettavuutta itsenäisesti ilman ihmisen apua. Tutkimuksen pohjalta voidaan rakentaa työkalu, joka voisi pyöriä esimerkiksi blogialustalla ja se näyttäisi koneen arvioimat pistemäärät kaikille uusille teksteille. Vastaava on jo arkipäivää mm. Facebookissa, jossa tekoäly avustaa ei-sallittujen tekstien ja kuvien moderoinnissa. Emme tämän tutkimuksen osalta edenneet varsinaisten tuotantoversioiden kehittämiseen asti, eikä se ei ollut tavoitteenakaan. Seuraavaksi tutkimuksessa voisi käyttää uusimpia kielimalleja tekstien pisteyttämiseen ja myös soveltaa niitä tuottamaan uusia tekstejä itsenäisesti datamme pohjalta. Miltä näyttäisi tekoälyn tuottama erittäin epäluotettava teksti verrattuna erittäin luotettavaan? Tekstien generointi onnistuu hämmästyttävän hyvin uusimmalla GPT-3 tekstimallilla, vaikkakin toistaiseksi vain englanniksi (https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/).

ConfidenceAi-projekti oli osa Helsingin Sanomain Säätiön rahoittamaa Totuuden jälkeinen aika – tutkimusohjelmaa. Tutkimusryhmän muodostivat yliopettaja Jyrki Suomala ja tutkimusassistentti Jenni Hannukainen Laurea-ammattikorkeakoulusta, tutkija Janne Kauttonen Haaga-Helia ammattikorkeakoulusta ja professori Pia Tikka Tallinnan yliopistosta. Plos One tiedejulkaisu löytyy osoitteesta https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0237144).

Lähteet:

1) Generative Pre-trained Transformer 3
Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT’s Attention. ArXiv:1906.04341 [Cs]. http://arxiv.org/abs/1906.04341
Herzog, M. H., Kammer, T., & Scharnowski, F. (2016). Time Slices: What Is the Duration of a Percept? PLOS Biology, 14(4), e1002433. https://doi.org/10.1371/journal.pbio.1002433
Jaynes, E. T. (2003). Probability theory: the logic of science. Cambridge University Press.
Kauttonen, J., Hannukainen, J., Tikka, P., & Suomala, J. (2020). Predictive modeling for trustworthiness and other subjective text properties in online nutrition and health communication. PLOS ONE, 15(8), e0237144. https://doi.org/10.1371/journal.pone.0237144
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2017). ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84–90. https://doi.org/10.1145/3065386
Rosenblatt, F. (1958). The Perceptron: A Probalistic Model For Information Storage And Organization In The Brain. Psychological Review. 65 (6): 386-408. https://doi.org/10.1037/h0042519