Other translations of this page: None.

2008. a töökava

ER uudistekorpuse automaatne märgendamine

Küberneetika Instituudi ja Eesti Raadio koostöös on kogutud Vikerraadio uudistesaadete salvestused 2005. a lõpust 2006. a keskpaigani. Lisaks salvestustele on Eesti Raadiost saadud uudistediktorite poolt kasutatud tekstid. Tekstid on antud paberkandjal. Eelmise aasta jooksul skanneeriti tekstid ning konverteeriti OCR-tarkvara abil tekstikujule.

EKKTT projekti “Kõnekeele ressursid ja kõnetehnoloogia andmebaasid” üheks ülesandeks on kogutud uudistesalvestuse täpne märgendamine. Paraku ei saa selleks automaatselt kasutada diktorite poolt kasutatud tekste, sest enamus tekste ei vasta otse loetud uudistele. Näiteks võis uudis päeva jooksul muutuda, diktor võis muuta sõnade või lausete järjestust, päeva jooksul võidi aegunud uudist lühendada või täiendada. Paljud sellised muudatused ei kajastu olemasolevates tekstides. Samuti poled paljud tekstid varustatud kuupäevaga, mis teeb teksti ja salvestuse kokkuviimise väga keeruliseks.

Antud ülesande raames on kavas luua kogutud uudissalvestuste automaatne tuvastussüsteem, mis oleks esimeseks faasiks salvestuste märgendusprotsessis. Saadud ebatäiuslikud märgendused järeltöödeldakse käsitsi. Automaatsete märgenduste olemasolu peaks käsitsi märgendamist tunduvalt kiirendama, kuna märgendaja peab ainult parandama automaatse tuvastaja poolt tehtud vead. Tuvastusvigade arvu vähendamiseks on kavas võimalikult efektiivselt kasutada olemasolevaid uudistetekste: iga kuupäeva uudistesaadete tuvastamiseks luuakse automaatselt selle päeva spetsiifiline statistiline keelemudel, kus antud päeva tekstides esinevad sõnakombinatsioonid oleks suurema aprioorse tõenäosusega kui üldises keelemudelis. Päeva-spetsiifilist mudelit interpoleeritakse üldise keelemudeliga, et tuvastaja töötaks rahuldavalt ka mingi uudisteteksti puudumisel. Tekstidele vastava kuupäeva leidmiseks kasutatakse mitmesuguseid heuristilisi meetodeid.

Kõnelõikude automaatne grupeerimine kõneleja järgi

Selle ülesande eesmärgiks on mitme kõnelejaga kõnesalvestuste (näit koosolekud, vestlussaated raadios ja televisioonis) automaatne segmenteerimine kõnelejate kaupa ning sama kõneleja kõnelõikude grupeerimine (ingl k 'speaker diarization'). Selline segmenterimine võimaldab parandada kõnetuvastussüsteemi kvaliteeti: segmenteerimsandmete põhjal saab tuvastaja luua igale kõnelejale adapteeritud akustilised mudelid, kasutades kõneleja-spetsiifilistes lõikudest arvutatud tunnusvektoreid. Segmenteerimine võib samuti kasulik olla kõnearhiivide indekseerimisel ja otsingul ning võimaldab rikastada kõnesalvestuste tuvastustulemuste presenteerimist.

Sellise ülesande lahendamiseks kasutatakse sageli nn aglomeratiivset klasterdamist. See algoritm jagab kõnelõigud kõigepealt suurde arvu klastritesse ning seejärel ühendab sarnased klastrid. Seda protsessi korratakse iteratiivselt kuni lõpetamiskriteerium on täidetud. Algoritmi lõppedes esindab iga allesolev klaster ühte kõnelejat. Klastrite modelleerimiseks kasutatakse tavaliselt Markovi peitmudeleid.

Selle projekti raames on kavas implementeerida aglomeratiivse klasterdamise algoritm. Samuti plaanime uurida mitmesuguseid statistilisi ja masinõppe meetodeid (näit evolutsioonilised algoritmid) klasterdamisalgoritmi sisendandmete, tööparameetrite ja/või mudelite struktuuri optimiseerimiseks. Meetodeid testitakse eestikeelsete kõnesalvestuste (näit. mitme diktoriga pikad Eesti Raadio uudised, raadio vestlussaated) segmenteerimisel.

Osalemine eesti häälkäskluste standardi väljatöötamises

Euroopa Komisjoni eestvedamisel arendatakse info- ja kommunikatsioonitehnoloogia valdkonnas häälkäskluste standardit. Valdavalt on see suunatud häälkäskluste esitamiseks mobiiltelefonides, kuid tulevikus võiks neid kasutada ka näiteks nn targa kodu juhtimisel. Senine 2002. a kinnitatud standard sisaldab viite Euroopa suurimat keelt (inglise, saksa, prantsuse, hispaania ja itaalia), kuid EK initsiatiiv on suurendada keelte arvu 30-ni, et oleks kaasatud kõik Euroopa Liidu ning EFTA liikmesriikide ametlikud keeled ning ka olulisemad vähemusrühmad.

Käesoleval aastal on alustatud häälkäsklusteks sobivate väljendite selekteerimist ka Eestis. Arutelus on osalenud ka Küberneetika Instituut. Selektsiooni käigus püütakse leida vasteid 70-le häälkäsklusele. Vastete leidmiseks teostab vastav töögrupp järgmised sammud:

  1. Enimkasutatavate käskluste väljaselgitamine.
  2. Tulemuste hindamine ja enamkasutatud käskluste selekteerimine.
  3. Käskluste foneetilise eristatavuse hindamine.

Meie laboril on kavas toetada antud projekti foneetilise eristatavuse osas analüüsides enamkasutatud häälkäskluste eristatavust kõnetuvastuse seisukohast. Samuti on laboril valmisolek toetada erinevaid rakendusi vaba lähtekoodi litsensi alusel kättesaadava ja lihtsalt liidestuva häälkäskluste mooduliga.

 
projects/tuvastus/kava2008.et.txt · Last modified: 2008/02/25 12:07 by tanel