Finno-ugriska språken och internet
Finsk-ugriska språk och Internet är ett forskningsprojekt som finansieras av Koneen Säätiö och som stöds av Finlands Nationalbibliotek. Projektet inleddes i början av år 2013 och dess syfte är att bygga ett automatiskt system som genomsöker Internet och hittar webbplatser i finsk-ugriska språk och förvandlar dem till text korpusar och listor av länkar. Corpora som samlas in kommer användas som källmaterial för lingvister.
Forskningen utförs vid institutionen för moderna språk vid Helsingfors universitet och leds av forskningschef Krister Lindén. Projektet genomförs som en del av den internationella CLARIN samarbetet representerad i Finland av FIN-CLARIN konsortium.
Webbskörd
Under projektets gång kommer Internet att genomsökas för att hitta webbplatser som har skrivits i små finsk-ugriska språk. För detta ändamål byggs en prototyp av ett automatiserat system för att upprätthålla en lista med länkar till de upptäckta platser. Från denna lista över webbplatser är det möjligt att bygga webbportaler, genom vilka webbplatser skrivna på olika språk kan nås lättare. På detta sätt kan vi hjälpa talare av små hotade språk att hitta varandra och att upprätthålla sin språkliga kultur.
Internet Archive har byggt en sökrobot som skördar webbplatser i sin helhet för att kunna bevara dem för framtida generationer. Denna sökrobot används också av många nationella bibliotek för samma ändamål. I motsats till denna typ av en sökrobot, den prototyp som byggs i detta projekt ska endast skörda en liten del av de hittade webbsidorna. Dessutom vill vi bara lagra textmaterial av de finsk-ugriska webbplatser, och ignorera, till exempel, metadata och de många bilder och videoklipp. Vi kommer att studera hur de befintliga open source sökrobotar fungerar för att avgöra hur denna kan modifieras för att passa dessa krav.
Källkoden av prototypen kommer så småningom frigöras med en open source licens för att låta andra använda den för att bygga listor med länkar och textkorpusar på de språk som de själva väljer. Vi kommer också att förhandla med olika organisationer som kunde finansiera driften av systemet efter slutet av projektet.
Språk identifiering
På internet finns ett stort antal olika textdokument som innehåller ingen eller nästan ingen metadata som kunde bidra till att identifiera det språk som används i dokumentet. För att identifiera webbplatser skrivna i finsk-ugriska språk, kommer vi att använda en språk identifierare som byggs för att identifiera så många språk som möjligt. Att bygga språkmodeller och bedoma prestationsförmåga av språk identifierare kräver text corpora på alla de språk man vill identifiera. Som en del av detta projekt kommer vi att kartlägga befintliga texte korpusarna som kan tjäna som språkmodeller.
Källkoden för språk identifierare kommer att släppas med en open source licens och den kommer att erbjudas till användningen av alla nationella bibliotek samt forskningsprojekt som använder metoder för språkteknologi. För att göra text korpusarna som används för att bygga språk identifieraren tillgängliga för alla lingvister vill vi dessutom publicera dem på Språkbanken i Finland som underhålls av FIN-CLARIN.
Språk korpusarna
Systemet som byggs kommer dessutom att skapa mening, sats och ord korpusarna för varje litet finsk-ugriska språk som hittades på Internet. Rengöring och verifiering av korpusarna kan automatiseras genom befintliga metoder för språkteknologi. Corpora kommer, om möjligt, offentliggöras med Creatice Commons CCO-licens och skulle då vara tillgängliga för lingvister. Till exempel, de ordlistor som genereras från ord korpusarna kan utnyttjas i lexikografisk arbete. När vi studerar språk korpusarna kommer vi att utnyttja informationen om språkresurser från både den virtuella språk observatorium CLARIN och META-Share infrastruktur. Vi strävar dessutom till att öka deras information om de finsk-ugriska språk.
Statistik
En del av arbetet i forskningsprojektet är att producera statistik om fördelningen av de finsk-ugriska språken på Internet. Resultaten som samlats in under utvecklingen är kanske inte hela sanningen, men så småningom, när systemet är i drift, kan vi till exempel spå förändringar i antalet finsk-ugriska webbsidorna under åren.