Tutkimusmatkalla vuodesta 1994
Tutkimusmatkalla vuodesta 1994
Hae

Veronika Laippalan tutkimusaineistona on koko suomenkielinen internet

Digitaalisen kielentutkimuksen apulaisprofessori Veronika Laippalan tutkimusaineistona on koko suomenkielinen internet. Hänen tavoitteenaan on kehittää koneoppimisen järjestelmä, joka tunnistaisi internetin eri tekstilajeja automattisesti. Se helpottaisi internetissä olevan tiedon käsittelemistä ja saavutettavuutta.

Internetillä on tiedonlähteenä monia etuja: se on ilmainen, helposti saavutettavissa ja se sisältää lähes käsittämättömän määrän tietoa monilla eri kielillä.

– Internetin valtavaa potentiaalia rajoittaa, paradoksaalista kyllä, sen valtava koko. Suuresta massasta on vaikea löytää haluamaansa, koska tietoa ei ole luokiteltu. Esimerkiksi Google saattaa hukuttaa käyttäjän erilaisiin dokumentteihin, joiden alkuperästä käyttäjä ei tiedä mitään. Olisi erittäin hyödyllistä, jos internet-haun voisi keskittää tiettyihin teksteihin, kuten uutisiin, elokuva-arvosteluihin tai käyttöohjeisiin, Turun yliopiston kieli- ja käännöstieteiden laitoksella työskentelevä Laippala kertoo.

Eri tekstilajeilla välitetään erilaisia tarkoituksia

Uutiset, elokuva-arvostelut ja käyttöohjeet ovat eri tekstilajeja. Kielentutkijat puhuvat myös rekistereistä. Tekstilajilla on väliä, koska kieli vaihtelee tekstilajin mukaan. Lajeilla on myös erilainen käyttötarkoitus. Käyttöohje kertoo lukijalle miten pesukone toimii, kun taas elokuva-arvostelun tavoitteena on ilmaista kirjoittajan mielipide elokuvasta.

– Painetussa mediassa tekstilajien rajat ovat verraten selkeät. Esimerkiksi sanomalehdestä on helppo tunnistaa uutiset, pääkirjoitus, mainokset ja vaikkapa mielipidekirjoitukset. Laippala kuvailee.

Internetin myötä tekstilajien rajat ovat hämärtyneet ja sekoittuneet.

– Voidaan miettiä, ovatko esimerkiksi politiikka-aiheinen uutisartikkeli ja samaa aihetta käsittelevä blogiteksti edes eroteltavissa, Laippala pohtii.

Laippalan tavoitteena on kehittää koneoppimisen järjestelmä, joka tunnistaisi internetin tekstilajeja automaattisesti. Kielentutkijoille se avaisi kokonaan uusia tapoja tutkia ja analysoida kieltä. Meille muille olisi järjestelmän avulla mahdollista kehittää esimerkiksi hakuohjelmien tarkoituksenmukaisuutta.

– Automaattinen järjestelmä erottaisi esimerkiksi uutisen, elokuva-arvostelun, blogitekstin, käyttöohjeen ja vaikkapa runon toisistaan. Silloin vaikkapa Google-haun tuloksesta kävisi ilmi, löytyykö hakutulos uutisesta, käyttöohjeesta, tuotearviosta tai runosta. Haun voisi myös kokonaan kohdistaa tiettyyn tekstilajiin, Laippala kertoo.

Jos ihminen tunnistaa tekstilajit, myös kone oppii sen

Laippalan aineisto sisältää tällä hetkellä arviolta kahdeksan miljardia sanaa. Se koottiin kieliaineistoksi Koneen Säätiön rahoittamassa hankkeessa, jossa oli mukana myös Tulevaisuuden teknologioiden laitoksen apulaisprofessori Filip Ginter. Aineistoa tulee koko ajan lisää. Nyt sitä kartuttaa hakurobotti, joka käy nettiä läpi ja kopioi sieltä uutta tekstiä aina kun sellaista löytää.

– Aineisto on valtava ja se sisältää ihan kaikkea, mitä netistä nyt ylipäätään voi löytää. Jos aineistoa ei ole luokiteltu millään tavalla, meinaa lapsi mennä pesuveden mukana, kun aineistoa alkaa käyttää. Yksi tapa on järjestää aineisto sen tekstilajin mukaan, Laippala toteaa.

Koska aineisto on niin suuri, sen järjestäminen ei ole mahdollista ilman koneoppimisjärjestelmien apua.

– Jos ihminen oppii, myös kone oppii. Jos halutaan, että kone tunnistaa esimerkiksi eri tekstilajit, sille pitää kertoa, miten ne eroavat toisistaan. Sitä varten tarvitaan riittävän laaja harjoitusaineisto, josta ihminen on tunnistanut koneelle malliksi eri lajeja, Laippala kertoo.

Harjoitusaineiston kokoaminen on erittäin työläs prosessi, joka vaatii paljon käsityötä ja ymmärrystä kielen vaihtelusta. Suomesta tällaista lajeittain luokiteltua aineistoa ei vielä ole. Sellainen siintää nyt Laippalan suunnitelmissa.

Laippala mukaan yhdysvaltalaiseen huippututkimusryhmään

Laippala liittyy syksyllä maailman johtaviin eri tekstilajien välisen kielen vaihtelun ja korpuslingvistiikan asiantuntijoihin lukeutuvan professori Douglas Biberin tutkimusryhmään seitsemän kuukauden ajaksi. Pohjois-Arizonan yliopistossa Yhdysvalloissa työskentelevä Biber tutkimusryhmineen ovat kehittäneet englanninkielisen internetkorpuksen, josta on tunnistettu eri tekstilajeja.

– He ovat lähteneet alhaalta ylöspäin: valinneet ison määrän tekstejä ja luokitelleet niitä sen perusteella, miltä ne näyttävät. Aikaisemmin luokittelua on tehty toisin päin, on päätetty tekstilajit ja sitten sovitettu niitä internetin teksteihin. Lopputulos on ollut aina epäonnistunut, Laippala kuvailee.

Laippala lähtee matkaan Fulbright-stipendirahoituksella. Mukanaan Laippala vie Turun yliopiston kieliteknologian erityisosaamista, jossa Biberin huippuyksikkö ei ole vahvimmillaan.

– Olen saanut käyttööni Biberin ja tutkimusryhmänsä kokoaman aineiston, ja voin testata sillä erilaisia koneoppimismenetelmiä. Tavoitteeni on tämän aineiston pohjalta kehittää järjestelmä, joka tunnistaa tekstilajit Turun yliopistossa kehittämistämme valtavista koneellisesti kootuista aineistoista, Laippala suunnittelee.

Mihin sellaisia aineistoja sitten voidaan käyttää?

– Mihin vain, Laippala vastaa. Internet on täynnä tietoa, jota on hankala määritellä. Kun sen syövereihin voisi tehdä tekstilajeihin kohdennettuja tai järjestettyjä hakuja, löytäisi käyttäjä hakemansa nopeammin ja luotettavammin. Ehkä selviäisi sekin, mitä kaikkea internet oikein sisältää.

Veronika Laippalan mukaan olisi hyödyllistä, jos internet-haun voisi keskittää tiettyihin tekstilajeihin, kuten uutisiin, elokuva-arvosteluihin tai käyttöohjeisiin. Hänen tavoitteenaan on kehittää koneoppimisen järjestelmä, joka tunnistaisi internetin tekstilajeja automaattisesti.