Other translations of this page: None.

Kõnetuvastus (EKT 2011-2017)

2011. a töökava

Osaliselt juhendamata kõnekorpuse kogumine ja kasutamine

Kõnetuvastus põhineb statistlistel mudelitel ja kõnetuvastussüsteemi kvaliteet sõltub treeningandmete mahust ja kvaliteedist. Treeningandmete (eelkõige kõneandmebaaside) kogumine on aga kallis ja aeganõudev. Selle probleemi leevendamiseks on kavas tegeleda uute treeningandmete osaliselt juhendamata genereerimisega avalikult saada olevatest allikatest, nagu riigikogu ja Tallinna volikogu stenogrammid koos kõnesalvestustega ning meediaväljaannete veebisaitidel olevad video- ja helisalvestused koos juurdekuuluvate tekstidega, mis tihti osaliselt dubleerivad salvestustes olevat kõnet. Selleks, et selliseid andmeid saaks kasutada kõnetuvastusmudelite treenimiseks, tuleb esmalt helisalvestustest leida sellised segmendid, mis kõrge usaldusväärsusega vastavad mingile segmendile salvestuse juurde kuuluvas tekstis. Selleks kasutatakse juba olemasolevat kõnetuvastussüsteemi, mis modelleerib tekstidest erinevaid kõnelõike nn. rämpsmudelitega (‘garbage models’). Tekstidega tõenäoliselt kokkusobivad kõnesegmendid lisatakse lõpuks kõnetuvastussüsteemi treeningandmetesse, ning nende põhjal treenitakse uued mudelid. Selle abil loodame saavutada märgatava paranemise kõnetuvastuskvaliteedis.

Uued rakendused

Reaalajaline kõnetuvastus veebiteenusena

EKKTT projektis “Eestikeelse kõnetuvastuse meetodite uurimine ja arendamine” loodi veebirakendus ja veebiteenus pikkade kasutaja kõnesalvestuste automaatseks transkribeerimiseks. Tihti eeldab kõnetuvastust kasutav rakendus aga kiiret tuvastustulemuse saamist lühikesele kõnesalvestusele. Selle projekti raames on kavas implementeerida veebiteenus, mis toetab kiiret kõnetuvastust lühikeste kõnesalvestuste puhul, s.t. veebiteenuse abil saab tuvastustulemuse paari sekundi jooksul pärast lühikese (kuni 10-sekundilise) kõnelõigu lõppu. Veebiteenust saab kasutada üle interneti kõikides rakendustes, mis implementeerivad veebiteenuse APIt. Selle lihtsustamiseks realiseeritakse ja avaldatakse APIt implementeeriv tarkvarateek Java jar-failina.

Kõnetuvastust toetav diktofon Android operatsioonisüsteemile

Tarkvara võimaldaks kõne salvestamist, mahamängimist, transkribeerimist (kasutades juba olemasolevat pikkade kõnesalvestuste transkribeerimise veebiteenust), ning erinevaid viise salvestuste sorteerimiseks/filtreerimiseks ning neist informatsiooni leidmiseks. Need erinevad otsingufunktsioonid põhineksid tavalisel tekstiotsingul (etteantud alamsõne asukoha leidmine tekstis, tekstide sorteerimine neis leiduvate sõnade järgi, jms), helisalvestustele võimaldaks traditsioonilist tekstiotsingut rakendada just transkriptsiooni olemasolu. Lisaks transkriptsioonile näitaks rakendus ära ka kõnelejad, kui just mitte nimeliselt, siis tuvastaks vähemalt erinevad kõnelejad. Android on kiiresti kasvav ja taskukohane ja avatud platform; riistvaraliselt on mobiiltelefonid võimelised kõike tegema, mida tavalised diktofonidki (st heli salvestama, mahamängima, jne), aga lisaks palju muud. Tulemus on avatud lähtekoodiga ja dokumenteeritud. Eesti, vene ja inglisekeelse kasutajaliidesega. Saadaval Android Marketis tasuta.

Kõnepõhine tekstisisestus Android-platvormile

Üldjuhul toimub puutetundliku ekraaniga nutitelefonides tekstisisestus ekraanil oleva virtuaalse klaviatuuri abil. Uuematel Android operatsioonisüsteemi kasutavatel telefonidel saab paljude tekstiväljade täitmisel (näiteks SMSi või e-maili sisestamisel) kasutada ka inglisekeelset kõnetuvastust (mis töötab üle interneti Google’i veebiteenuse abil). Selle projekti raames on kavas lisada sarnane eksperimentaalne kõnepõhise tekstisisestuse tugi ka eesti keelele. Rakendus kasutaks samas projektis implementeeritavat reaalajalise kõnetuvastuse serverit, s.t. kõne tuvastamiseks oleks vajalik (mobiilse) internetiühenduse olemasolu. Kuna tegemist on suhteliselt uut laadi ülesandega meie töögrupi jaoks, on selle aasta jooksul kavas eelkõige implementeerida Androidi-platvormi poolne osa rakendusest ning selgitada välja nii saavutatav kõnetuvastuskvaliteet ja põhilised probleemiallikad, ning defineerida vajalikud tööd tuvastuskvaliteedi ja kasutajakogemuse parandamiseks. Rakendus on avatud lähtekoodiga ja tasuta.

 
projektid/tuvastus2/tookava2011.et.txt · Last modified: 2012/02/15 16:26 by tanel