Suomalais-ugrilaiset kielet ja internet -projekti

Suomalais-ugrilaiset kielet ja internet -projekti oli vuoden 2013 alussa alkanut tutkimushanke, joka oli osa Koneen Säätiön kieliohjelmaa 2012-2016. Säätiön kieliohjelman tavoitteena oli edistää pienten suomalais-ugrilaisten kielten, suomen ja Suomen vähemmistökielten dokumentointia. Tässä hankkeessa rakennettiin järjestelmä, joka kielentunnistinta apuna käyttäen automaattisesti etsi internetistä uralilaisilla kielillä kirjoitettua aineistoa. Löydetystä aineistosta muodostettiin virkekokoelmia ja linkkisivusto. Virkekokoelmat tai
-korpukset toimivat lähdeaineistona kielentutkijoille. Projekti jatkui vuoden 2018 loppuun asti.

Tutkimus suoritettiin Helsingin yliopiston digitaalisten ihmistieteiden osastolla ja sen vastuullisena johtajana toimi tutkimusjohtaja Krister Lindén. Projekti oli Koneen säätiön rahoittama ja sitä tuki myös Kansalliskirjasto. Hanke toteutettiin osana kansainvälistä CLARIN yhteistyötä, jota Suomessa edustaa FIN-CLARIN-konsortio.

Verkkoharavointi

Projektin aikana internetistä etsittiin pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja. Tarkoitusta varten rakennettiin prototyyppi automaattisesta järjestelmästä, joka ylläpiti linkkisivustoa löydetyille sivuille. Saaduista sivustolistauksista on mahdollista rakentaa pienten kielten omia portaalisivustoja, jotka voivat parantaa verkkosivustojen saavutettavuutta ja siten edesauttaa uhanalaisten kielten käyttäjiä löytämään toisensa ja näin ylläpitämään yhteistä kielellistä kulttuuriaan.

Toisin kuin esimerkiksi Internet Archiven verkkoharava, jonka tarkoituksena on säilöä kaikki kerätyt sivustot kokonaisuudessaan, tässä hankkeessa rakennetun prototyypin oli tarkoitus tallentaa vain pieni osa haravoiduista sivustoista ja niistäkin ainoastaan tekstimateriaali. Verkkosivuthan sisältävät paljon metatietoa esimerkiksi halutunlaisen esitysmuodon saavuttamiseksi. Lisäksi iso osa verkkoharavoiden löytämästä materiaalista on erilaisia binääritiedostoja, kuten kuvia tai videoita, joita projektissa ei myöskään ollut tarkoitus säilöä. Järjestelmän rakentamiseksi projektissa verrattiin jo valmiiden avoimen lähdekoodin verkkoharavoiden toimintaa ja sitä miten niistä saataisiin muokattua halutunlainen harava. Uralilaisten kielten haravointiin päätettiin muokata ja käyttää Internet Archiven verkkoharavaa Heritrixiä.

Prototyypin pääkomponenttien lähdekoodi julkaistiin avoimen lähdekoodin lisenssillä, jolloin sitä voivat muutkin käyttää linkkisivustojen ja tekstikorpusten keräämiseen haluamillaan kielillä. Prototyyppi on toiminnassa Kielipankin palveluna, mutta erillisiä resursseja uusien verkkoharavointien suorittamiseen ei tällä hetkellä ole.

Kielentunnistus

Internetistä löytyy suuri määrä erilaisia tekstidokumentteja, joissa ei ole juurikaan kielentunnistamiseen soveltuvaa metadataa. Tässä projektissa uralilaisten kielten tunnistamiseen käytettiin kielentunnistinta, joka rakennettiin toimimaan mahdollisimman laajalle joukolle kieliä. Kielentunnistimen kielimallien rakentamiseen ja tunnistimen toimivuuden evaluointiin tarvitaan tekstikorpuksia kaikilla tunnistimen ymmärtämillä kielillä.

Kielentunnistin lisensoitiin avoimella lähdekoodilla ja se on tarjolla kaikkien kansalliskirjastojen ja kieliteknologiaa hyödyntävien hankkeiden käyttöön.

Kielikorpukset

Haravoitujen uralilaisilla kielillä kirjoitettujen sivujen teksteistä luotiin avoimia virke-, lause- ja sanakorpuksia kullekin kielelle. Korpuksia ja niiden tekstin laatua on mahdollista automaattisesti parantaa ja tarkistaa olemassa olevilla kieliteknologisilla menetelmillä. Tekstikorpukset on saatettu kielentukijoiden käytettäväksi FIN-CLARINin ja CSC:n Kielipankin kautta.