Other translations of this page: None.

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

projektid:tuvastus2:tookava2014.et [2014/02/28 12:35]
tanel created
projektid:tuvastus2:tookava2014.et [2014/02/28 12:37] (current)
tanel
Line 1: Line 1:
-====== 2013. a põhitulemused ======+====== 2014. a töökava ======
  
-=== Pikkade kõnesalvestuste tuvastamine ===+2014. a on projekti viimane aasta ning seetõttu on kavas eelkõige tähelepanu pöörata projekti esialgses töökavas püstitatud eesmärkide täitmisele.
  
-2013. a jooksul tehti suuri edusamme nnoffline kõnetuvastuse vallasmida kasutatakse põhiliselt pikkade kõnesalvestuste automaatseks transkribeerimiseks (sõna 'offline' viitab siin reaalajanõude puudumisele -- ühe salvestuse transkribeerimine antud süsteemiga võtab rohkem aegakui salvestuse ise kestab)Võeti kasutusele uus vabatarkvaraline kõnetuvastusmootor Kaldi, mis võimaldas rakendada närvivõrgu-põhiseid akustilisi mudeleid.+Offline kõnetuvastussüsteemi puhul on 2011. a püstitatud eesmärgid saavutatavale täpsusele juba täidetudSellegipoolest kavatseme ka sel aastal tegutseda selle kõnetuvastussüsteemi täiustamise kallal. Eelkõige on kavas kasutusele võtta selliseid meetodeidmis viimastel aastatel muude keelte puhul häid tulemusi on andnud: paremini optimiseeritud närvivõrgupõhised akustilised mudelid (kasutades treenimise kiirendamiseks graafikaprotsessoreid)keelemudeli parem optimiseerimine jmsUueks eemärgiks on saavutada raadioja telesaadete automaatse transkribeerimise puhul stabiilselt alla 20% sõnavigade osakaal.
  
-Tänu närvivõrkudel põhinevate akustiliste mudelite kasutamiseleuute kõnekorpuste lisandumisele ja uute tekstikorpuste rakendamisele (filmisubtiitrid, blogitekstid) õnnestus tunduvalt parandada kõnetuvastuse kvaliteetiAlljärgnevalt on toodud kõnetuvastuse sõnavigade osakaal ('word error rate', WER) mitmes eri valdkonnas, võrrelduna 2012a lõpu seisuga:+Implementeeritakse tuvastatud teksti automaatne varustamine kirjavahemärkidega. Selleks rakendatakse masinõppepõhist lähenemistkus kasutatakse nii leksikaalset kui ka akustilist infot optimaalsete kirjavahemärkide jada leidmiseksKirjavahemärgistaja integreeritakse olemasoleva offline kõnetuvastussüsteemiga.
  
-  * Raadiote vestlussaated: 20,3% (2012: 25,6%) +Täiesti uue suunana on kavas implementeerida offline kõnetuvastussüsteemi moodulmis seostab iga kõnesegmendiga kõneleja nime. Praegune süsteem juba teostab kõneleja-põhist kõne segmenteerimistkuid ilma kõneleja nimedeta -- kõnesegmendid lihtsalt klasterdatakse kõneleja järgi. Uueks eemärgiks on seega leida ka igale klastrile vastav inimese nimi. Vajadust sellise süsteemi järele on ilmutanud meediamonitooringufirmad, kes on offline kõnetuvastussüsteemi põhilised kasutajad. Kõneleja identifitseerimiseks rakendatakse masinõppesüsteemi, mis kasutatab kahte allikatkõnekorpuse põhjal koostatud sagedamini esinevate kõnelejate akustilisi mudeleid ning leksikaalset infot kõnesalvestusest (näit. kui raadiosaates esineb lausung “stuudiokülaline on täna Andrus Veerpalu”siis sellest saab järeldada, et üks kõnelejatest võib suure tõenäosusega olla Andrus Veerpalu). On siiski selgeet selline süsteem saab toimida ainult teatud tüüpi kõnesalvestuste puhulkui kõnes puudub igasugune lingvistiline info kõneleja nime kohaning kõneleja hääl on süsteemile tundmatu, siis kõneleja nime identifitseerida ei saa.
-  * Raadiote telefoniintervjuud22,8% (2012: 26,6%) +
-  * Konverentsikõned: 26,4% (201233,0%)+
  
-Täisautomaatse 'offline' kõnetuvastussüsteemi lähtekood koos dokumentatsiooniga on saadaval siin: http://github.com/alumae/kaldi-offline-transcriber. Süsteem on tasutavaba lähtekoodiga ning põhineb ainult sellisel tarkvaralmille litsents lubab seda rakendada ka kommertskasutuses. Süsteemi on juba kasutusele võtnud (s.t., oma serverisse instaleerinud) kolm Eesti juhtivat meediamonitooringuga tegelevat ettevõtet: Freqmedia, ETA Monitooring ja Meedius. Sama süsteemi saab ilma installeerimata endiselt kasutada ka läbi veebiliidese http://bark.phon.ioc.ee/webtrans. +Täiendatakse veebipõhise kõnetuvastuse kasutajaliidestEesmärgiks on saavutada olukordkus kõnetuvastust saaks lihtsalt kasutada suvalise internetisaidi iga tekstivälja täitmiseksilma vajadusetaet vastav veebisait oleks kõnetuvastuse oma lehekülgedega integreerinud. See võimaldaks näiteks dikteerida e-kirju gmail.com keskkonnasdikteerida kommentaare postimees.ee lehekülgedel jneSellise kasutajakogemuse implementeerimiseks paistab olevat kaks võimalustnnboorkmarklet või veebibrauseri laiendusEksperimentide käigus valitakse kõige kasutajasõbralikum lahendus. Samuti on kavas teha veebipõhine kõnetuvastus reaalselt kasutavamakslisades kirjavahemärkide dikteerimise toe
- +
-EKT projekti “Kõne- ja multimodaalsed korpused” raames transkribeeriti manuaalselt eelmisel aastal 20 tunni ulatuses Aktuaalse Kaamera salvestusi. See võimaldas hinnata Aktuaalse Kaamera kõne automaatse transkribeerimise kvaliteeti. Saadud sõnavigade osakaal 21,5% on võrreldav raadio vestlussaadete ja telefoniintervjuude vastava näitajaga. +
- +
-=== Reaalajaline täisdupleksne kõnetuvastus veebibrauseris === +
- +
-Teine 2013. a põhisuund oli töö uue reaalajalise täisdupleksse klient-server-arhitektuuril põhineva kõnetuvastusarhitektuuri kallal.  +
-2011. a implementeeritud reaalajaline kõnetuvastusserver ei võimalda “täisdupleksset” suhtlust, kus osalisi tuvastustulemusi kuvatakse kliendile juba kõnelemise ja tuvastamise ajal. See ei luba arendada rakendusi, kus kõnetuvastust kasutatakse ühest lausest pikemate tekstide interaktiivseks dikteerimiseks. Täisdupleksne reaalajaline arhitektuur võimaldaks ka pikkade kõnestriimide reaalajalist automaatset transkribeerimist, mille abil saaks näiteks genereerida reaalajaliselt subtiitreid teleja raadiosaadetele.  +
- +
-Hetkel on implementeeritud kirjeldatud nõuetele vastava kõnetuvastussüsteemi järgmised komponendid: +
- +
-  * serveripoolne osa, lähtekood: http://github.com/alumae/kaldi-gstreamer-server +
-  * serveriga suhtlev Java teeklähtekood: http://code.google.com/p/net-speech-api/ +
-  * serveriga suhtlev Java Web Start tehnoloogial põhinev rakendus  +
-    * lähtekoodhttp://bitbucket.org/alumae/dictationapp +
-    * demo: http://www.phon.ioc.ee/~tanela/dictationapp/konele.jnlp +
- +
-Samuti on implementeeritud serveriga suhtlev Javascriptil põhinev demorakendus, mille abil saab kasutada eestikeelset reaalajalist kõnetuvastust läbi veebibrauseri, ilma lisatarkvara vajaduseta, lähtekood ja demo: http://kaljurand.github.io/dictate.js.  +
- +
-Arendatavat kõnetuvastustarkvara kasutatakse ka Archimedese poolt rahastatavas IKT projektis “Kõnetuvastuse meditsiinirakendus”, kus meie labor on üheks täitjaks. +
- +
-Kui suure sõnavaraga loomuliku kõne tuvastamiseks on vajalik klient-server arhitektuuriga lahendus, siis lihtsama reeglipõhise keelemudeli kasutamisel on kõnetuvastus võimalik ka otse brauseriskasutades vaid Javascriptis implementeeritud tarkvaraNäiterakendusena implementeeriti kõnepõhine taimer, mida saab kasutada häälkäskluste abil:  +
- +
-  * demo: https://touchless-timer.appspot.com/timer/et.html +
-  * dokumentatsioon: https://touchless-timer.appspot.com/timer/about/et/index.html +
- +
-=== Keelemudeli adapteerimisega seotud uurimistöö === +
- +
-2013. a oli ka kavas uurida, kuidas võimalikult efektiivselt adapteerida kõnetuvastussüsteemi paljudele erineva granulaarsusega valdkondadale. Näiteks loengukõne puhul on ilmne, et erinevate kursuste lõikes on kõne sõnavara ja sõnakombinatsioonide tõenäosesed väga varieeruvad. Samas on paljud loengukõne aspektid ühised üle kõigi kursuste, mis ei tee põhjendatuks igale kursusele täiesti uue keelemudeli tree+
 
projektid/tuvastus2/tookava2014.et.txt · Last modified: 2014/02/28 12:37 by tanel