Other translations of this page: None.

2006. a põhitulemused

Dünaamiliselt konstrueeritav statistiline morfosüntaktiline keelemudel eestikeelseks kõnetuvastuseks

Kõnetuvastuses on keelemudeli ülesandeks erinevate sõnajadade esinemise tõenäosuse hindamine, et lihtsustada sisendlausungitele vastavatete lausete leidmist. Laialtlevinud viisiks keelemudeli loomisel on väga suurte tekstikorpuste kasutamine nn. statistiliste n-gramm-mudelite saamiseks. Kuna eesti keel kuulub aglutinatiivsete keelte hulka, on erinevate keeles esinevate muutvormide arv väga suur. Seetõttu ei saa eesti keele puhul efektiivselt kasutada lihtsat sõnadel põhinevat statistilist keelemudelit ning selle asemel kasutatakse keelemudeli põhiühikutena (pseudo-)morfeeme. Pseudomorfeemid saadakse tekstikorpuse töötlemisel morfoloogilise analüsaatori ja ühestajaga, mille abil saab sõnavormid tükeldada liitsõnade osadeks ning tüvedest eraldada lõpud. Sellise töötluse abil saadud erinevate sõnaosade arv on palju väiksem kui keeles esinevate erinevate sõnavormide arv, mistõttu saab talutava suurusega sõnastiku abil katta küllalt suure osa etteantud tekstist. Eksperimendid on näidanud, et 60000 ühiku suuruse sõnastiku kasutamisel on sõnastikus mitteolevate sõnaosade arv u. 2% tekstis esinevatest sõnaosadest. Kasutades saadud pseudomorfeeme keelemudeli põhiühikutena, võime suurte tekstikorpuse põhjal treenida kõnetuvastuseks vajaliku statistilise n-gram keelemudeli. Sellise keelemudeli kasutamisel on tuvastaja väljundiks pseudomorfeemide jada. Selleks, et saadud morfeemijadast rekonstrueerida sõnad, on keelemudelis sõnalõpud spetsiaalselt tähistatud. Liitsõnade rekonstrueerimiseks võib kasutada teist statistilist keelemudelit, mis modelleerib liitsõna piiri spetsiaalse peidetud sümboliga ning on nii võimeline leidma sõnajada kõige tõenäolisema rekonstruktsiooni liht- ja liitsõnadeks.

Pseudomorfeemidel põhinev statistiline keelemudel suudab üsna hästi modelleerida lühikese ulatusega sõnaosadevahelisi sõltuvusi. Kuna aga sellise mudeli ulatus on piiratud n-gram-mudeli ulatusega (tavaliselt ei ole see rohkem kui 3), ei suuda selline mudel eriti hõlmata sõnade endi vahelisi sõltuvusi ja seoseid, eriti kuna suur osa sõnavorme koosneb rohkem kui ühest sõnaosast. Selle uuringu käigus realiseeriti üks idee, mis üritab seda probleemi lahendada. Selle kohaselt koosneb tuvastusprotsess kahest faasist. Esimeses faasis kasutatakse eelpoolkirjeldatud morfeemidel põhinevat statistilist keelemudelit suure arvu kandidaatväljundite genereerimiseks iga sisendlausungi jaoks. Teises faasis kasutatakse morfoloogilist analüsaatorit selleks, et annoteerida kõik kandidaatlausete sõnad nende sõnaliigi ja vormi tähisega. Tuvastatava lausungi kõigis lausehüpoteesides esinevaid sõnavorme kasutatakse selleks, et tekstikorpuste põhjal luua uus sõnavormidel põhinev lausungi-spetsiifiline keelemudel. Selles mudelis kasutatakse ``taganemist'' sõnavormile ja -liigile, kui korpuses ei ole piisavalt näiteid mudeli poolt nõutavatest sõnavormide jadadest. Selle saavutamiseks kasutatakse nn. faktoritel põhinevat statistilist keelemudelit. Viimases faasis antakse kõigile lausehüpoteesidele äsja genereeritud lausungi-spetsiifilise mudeli põhjal uus hinnang, mis kombineeritakse esimeses faasis saadud akustilise ja keelemudeli-põhise hinnanguga. Lõpuks valitakse välja selline hüpotees, mille kombineeritud skoor on kõige suurem.

Eksperimentide põhjal väheneb sellise mudeli rakendamisel valesti tuvastatud sõnade arv u. 10% võrra, võrreldes esimeses faasis kasutatava pseudomorfeemidel põhineva tuvastussüsteemi väljundiga.

Liitsõnade rekonstrueerimine kõnetuvastuse väljundist

Eesti keele puhul kasutatakse suure sõnavaraga kõnetuvastuseks pseudomorfeeme, mis on saadud morfoloogilise analüsaatori abil, mis tükeldab liitsõnad ja eraldab tüvedest lõpud. Erinevate lõppude e. suffiksite arv on küllalt väike, mis võimaldab neid tuvastaja sõnastikus spetsiaalselt tähistada. Tänu sellele on tuvastuse väljundist lihtne leida tuvastatud sõnalõpud ning liita nad eelnevatele tüvedele. Sama lähenemist ei saa aga rakendada liitsõnade rekonstrueerimiseks, kuna erinevate liitsõnaosade arv on väga suur. Selle probleemi lahendamiseks pakuti välja nn. peidetud ühikutega n-gramm-mudel. Selline mudel on treenitud sellise tekstikorpuse abil, kus liitsõnaosade vahelist piiri tähistab spetsiaalne sümbol. Mudel ise on tavaline pseudomorfeemidel põhinev n-gramm mudel, kus lisaks tuvastuses kasutatavatele morfeemidele hinnatakse ka liitsõnaosade vahelist piiri tähistava sümboli kontekstuaalseid tõenäosusi. Rakendades sellist mudelit pseudomorfeemidest koosnevale sõnajadale, saame leida kõige tõenäolisemad liitsõna osade vahelised piirid ning selle abil rekonstrueerida liitsõnad.

Eksperimendid näitasid, et sellise meetodi täpsus (ingl k precision) on sõltuvalt tekstist 82-89%, ning täielikkus (ingl k recall) 85-94%. Kuna tuvastatud tekstis esineb palju vigu (valesti tuvastatud morfeeme), on tuvastatud teksti puhul vastavad numbrid väiksemad – 67-74% ja 67-70%. Analüüs näitab, et vead esinevad tihti just väga harva esinevate liitsõnade rekonstrueerimisel, ning samuti siis, kui otsus sõnade kokku- või lahkukirjutamise kohta tuleneb kaugemast semantilisest kontekstist.

 
projects/tuvastus/tulemused2006.et.txt · Last modified: 2007/02/21 12:01 by tanel