Other translations of this page: None.

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

projects:tuvastus:tulemused2008.et [2009/02/17 13:19]
tanel
projects:tuvastus:tulemused2008.et [2009/02/17 18:50] (current)
tanel
Line 3: Line 3:
 ===== ER uudistekorpuse automaatne märgendamine ===== ===== ER uudistekorpuse automaatne märgendamine =====
  
 +Eesti Raadio (ER) uudistekorpuse käsitsi märgendamise kiirendamiseks loodi uudiste automaatne transkriptsioonisüsteem. Süsteem kasutab varem välja töötatud eesti keele tuvastusmootorit. Süsteemi akustilised mudelid on treenitud BABEL ning SpeechDat kõneandmebaaside põhjal, mudeleid on adapteeritud väikese hulga juba transkribeeritud uudistesalvestuse põhjal. Süsteemi keelemudel on saadud erinevate ajakirjandus-, ilukirjandus- ning ER uudistetekstide interpolatsiooni tulemusena, interpolatsioonikaalud optimiseeriti olemasolevate ER uudistetekstide põhjal. Konkreetse päeva uudistesaadete transkribeerimiseks luuakse sellele päevale kohandatud keelemudel, milleks kasutatakse ER-st saadud diktorite poolt kasutatud uudistetekste. Keelemudeli sõnavara saamiseks arvutatakse antud päeva uudistetekstidest ning keelemudeli treeningtekstidest morfeemide esinemissagedused, need interpoleeritakse ning sõnavarasse valitakse 40000 sagedasemat morfeemi. Morfeemide häälduse leidmiseks kasutatakse varem välja töötatud reeglipõhist meetodit. Saadud sõnavara põhjal luuakse uus päevaspetsiifiline 3-gramm mudel, mille saamiseks kasutatakse samuti üldise treeningmaterjali ning antud päevale vastavate uudistetekstide interpolatsiooni. Selline keelemudel peaks hõlbustama antud päeva uudistetekstides olevate sõnakombinatsioonide tuvastamist, kuid suutma rahuldavalt toimida ka tekstide puudumise korral. Süsteem on praeguseks täielikult tööle rakendatud.
  
  
 
projects/tuvastus/tulemused2008.et.txt · Last modified: 2009/02/17 18:50 by tanel