Other translations of this page: None.

Kavas on jätkata tööd suure sõnavaraga eesti keele kõnetuvastuse arendamisel. Tähtsamateks suundadeks on keelemudeli ja vältekäsitluse parandamine ning spontaanse kõne uuringud.

Keelemudeli osas on kavas implementeerida Latent Semantic Analysis (LSA) põhine meetod, mille eesmärgiks on modelleerida mitte-lokaalseid sõnadevahelisi semantilisi seoseid. LSA-paradigma püüab automaatselt leida peidetud seoseid sõnade ja dokumentide vahel, kasutades selleks suurt dokumentide korpust. Dokumentideks võivad olla ajalehe- ja ajakirjaartiklid ja muud kindla teemaga tekstid. Meetodi abil konstrueeritakse esmalt igale sõnale vektor, mis näitab, millistes dokumentides sõna esineb. Järgnevalt rakendatakse saadud vektoritest konstrueeritud maatriksile singulaarlahutust (ingl. k. SVD), mis vähendab tekkinud sõnade ruumi mõõtmeid. Tulemusena saadud ruumis on võimalik mõõta sõnade-vahelist kaugust, mis peaks peegeldama sõnade semantilist lähedust, s.t. sellised sõnad, mis tihti esinevad samas dokumendis, asetesevad selles ruumis lähestikku. Kõnetuvastuse käigus saab saadud infot kasutada järgnevast arutlusest lähtudes: tuvastuse käigus peatakse meeles kõik tuvastatud sõnad; tekkinud sõnadehulgast konstrueeritakse pidevalt uuendatav pseudodokument, mille saab projitseerida eelnevalt konstrueeritud sõnade ruumi; saadud punktile lähedalolevad sõnad on tuvastatud sõnade hulgale semantiliselt lähedased ning võib eeldada, et nende esinemine järgnevas kõnes on suurema tõenäosusega, kui antud punktist kaugemal olevad sõnad; seega on otstarbekas semantiliselt lähedaste sõnade keelemudeli poolt arvutatavat tõenäosust suurendada kaugemate sõnade arvelt. Eesti keele puhul teeb kirjeldatud meetodi rakendamise keerulisemaks asjaolu, et keel on flektiivne, s.t. sõnad esinevad mitmesugustes käänetes ja pööretes. Hajususe vähendamiseks tuleks seetõttu kõik dokumentides esinevad sõnad esmalt lemmatiseerida, kasutades morfoloogilist analüsaatorit ja ühestajat. Sarnaselt tuleb käituda tuvastatud sõnadega. Kuna lemmatiseerimiseks on vajalik terve lause teadmine, saab meetodit eesti keele puhul rakendada alles tuvastuse teises faasis, esimeses faasis saadud lausekandidaatide ümberhindamiseks. Meetodi üks riske seisneb selles, et kirjeldatud kahefaasilisel tuvastusel ei avaldu meetodi mõju nii hästi kui ühefaasilisel tuvastusel.

Vältekäsitluse osas on eesmärgiks eesti keeles esineva kolme välte modelleerimine. Kuna välde on suprasegemntaalne nähtus, ei saa välteid modelleerida hääliku tasemel Markovi varjatud mudelitega. Foneetikauuringud on näidanud, et väldete tajumisel on kõige olulisem esimese rõhulise silbi ja järgneva rõhuta silbi kestuste suhe. Kestvussuhete modelleerimiseks näeme vähemalt kahte võimalust: kaudne ja otsene. Kaudse meetodi puhul normaliseeritakse esmalt kestused lause kõnetempo suhtes, ning normaliseeritud kestust saab siis käsitleda iseseisvalt. Meetodi riskiks on kõnetempo hindamisel tekkivad võimalikud vead ning kõnetempo muutumine lause sees. Otsese meetodi puhul võrreldakse järgnevate silpide (või silpide vokaalide) tegelikku kestvussuhet. Kestvussuhete modelleerimiseks saab kasutada logaritmilist normaaljaotust. Jaotuse parameetrid leitakse kõnekorpuses esinevate silpide kestvussuhete statistikast. Kuna kestvussuhete mudelit on keeruline modelleerida tuvastuses kasutatavase dekooderisse, võib saadud mudelit rakendada tuvastuse esimeses faasis saadud lausehüpoteesidele uue hinnangu andmiseks (nn. N-best rescoring). Esialgse akustilise mudeli poolt saadud hinnangu ja kestvussuhete mudeli poolt antud hinnangu kombineerimisel saadakse igale hüpoteesile uus hinnang, mille alusel hüoteesid järjestatakse ümber. Töö käigus on kavas välja töötada väldete modelleerimiseks vajalik treenimis- ja testimisraamistik, implementeerida üks või mitu modeleerimismeetodit ning hinnata meetodite jõudlust. Meetodit on kavas esmalt testida isoleeritud väikese sõnavaraga kõnetuvastusega (kasutades BABEL kõneandmebaasis olevaid salvestusi), meetodi edu puhul on seda kavas rakendada suure sõnavaraga tuvastuses.

Spontaanse kõne uuringute käigus on kavas uurida kõnes esinevate (s.h. täidetud) pauside tuvastamist ning võimalusi pauside modelleerimiseks keelemudeli abil. Sellega seostub lähedalt spontaanse kõne lausestamine, mis on näiteks vajalik automaatsete dialoogisüsteemide juures parema kasutajakogemuse saavutamiseks.

Lisaks kirjeldatud suundadele on kavas realiseerida kõne (s.h. spontaanse) automaatseks hääliku tasemel segmenteerimiseks sobiv tarkvara. Automaatne segmenteerimine pakub eelkõige huvi foneetilisteks uuringuteks ja peaks vähendama kõnekorpuste eeltöötluseks vaja minevat aega.

 
projects/tuvastus/kava2007.et.txt · Last modified: 2007/02/21 12:48 by tanel