Other translations of this page: None.

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

projects:tuvastus:tulemused2006.et [2007/02/21 11:32]
tanel
projects:tuvastus:tulemused2006.et [2007/02/21 12:01] (current)
tanel
Line 10: Line 10:
 ===== Liitsõnade rekonstrueerimine kõnetuvastuse väljundist ===== ===== Liitsõnade rekonstrueerimine kõnetuvastuse väljundist =====
  
 +Eesti keele puhul kasutatakse suure sõnavaraga kõnetuvastuseks pseudomorfeeme, mis on saadud morfoloogilise analüsaatori abil, mis tükeldab liitsõnad ja eraldab tüvedest lõpud. Erinevate lõppude e. suffiksite arv on küllalt väike, mis võimaldab neid tuvastaja sõnastikus spetsiaalselt tähistada. Tänu sellele on tuvastuse väljundist lihtne leida tuvastatud sõnalõpud  ning liita nad eelnevatele tüvedele. Sama lähenemist ei saa aga rakendada liitsõnade rekonstrueerimiseks, kuna erinevate liitsõnaosade arv on väga suur. Selle probleemi lahendamiseks pakuti välja nn. peidetud ühikutega n-gramm-mudel. Selline mudel on treenitud sellise tekstikorpuse abil, kus liitsõnaosade vahelist piiri tähistab spetsiaalne sümbol. Mudel ise on tavaline pseudomorfeemidel põhinev n-gramm mudel, kus lisaks tuvastuses kasutatavatele morfeemidele hinnatakse ka liitsõnaosade vahelist piiri tähistava sümboli kontekstuaalseid tõenäosusi. Rakendades sellist mudelit pseudomorfeemidest koosnevale sõnajadale, saame leida kõige tõenäolisemad liitsõna osade vahelised piirid ning selle abil rekonstrueerida liitsõnad.
  
 +Eksperimendid näitasid, et sellise meetodi täpsus (ingl k precision) on sõltuvalt tekstist 82-89%, ning täielikkus (ingl k recall) 85-94%. Kuna tuvastatud tekstis esineb palju vigu (valesti tuvastatud morfeeme), on tuvastatud teksti puhul vastavad numbrid väiksemad -- 67-74% ja 67-70%. Analüüs näitab, et vead esinevad tihti just väga harva esinevate liitsõnade rekonstrueerimisel, ning samuti siis, kui otsus sõnade kokku- või lahkukirjutamise kohta tuleneb kaugemast semantilisest kontekstist.
 
projects/tuvastus/tulemused2006.et.txt · Last modified: 2007/02/21 12:01 by tanel