Other translations of this page: None.

2013. a põhitulemused

Pikkade kõnesalvestuste tuvastamine

2013. a jooksul tehti suuri edusamme nn. offline kõnetuvastuse vallas, mida kasutatakse põhiliselt pikkade kõnesalvestuste automaatseks transkribeerimiseks (sõna 'offline' viitab siin reaalajanõude puudumisele – ühe salvestuse transkribeerimine antud süsteemiga võtab rohkem aega, kui salvestuse ise kestab). Võeti kasutusele uus vabatarkvaraline kõnetuvastusmootor Kaldi, mis võimaldas rakendada närvivõrgu-põhiseid akustilisi mudeleid.

Tänu närvivõrkudel põhinevate akustiliste mudelite kasutamisele, uute kõnekorpuste lisandumisele ja uute tekstikorpuste rakendamisele (filmisubtiitrid, blogitekstid) õnnestus tunduvalt parandada kõnetuvastuse kvaliteeti. Alljärgnevalt on toodud kõnetuvastuse sõnavigade osakaal ('word error rate', WER) mitmes eri valdkonnas, võrrelduna 2012. a lõpu seisuga:

  • Raadiote vestlussaated: 20,3% (2012: 25,6%)
  • Raadiote telefoniintervjuud: 22,8% (2012: 26,6%)
  • Konverentsikõned: 26,4% (2012: 33,0%)

Täisautomaatse 'offline' kõnetuvastussüsteemi lähtekood koos dokumentatsiooniga on saadaval siin: http://github.com/alumae/kaldi-offline-transcriber. Süsteem on tasuta, vaba lähtekoodiga ning põhineb ainult sellisel tarkvaral, mille litsents lubab seda rakendada ka kommertskasutuses. Süsteemi on juba kasutusele võtnud (s.t., oma serverisse instaleerinud) kolm Eesti juhtivat meediamonitooringuga tegelevat ettevõtet: Freqmedia, ETA Monitooring ja Meedius. Sama süsteemi saab ilma installeerimata endiselt kasutada ka läbi veebiliidese http://bark.phon.ioc.ee/webtrans.

EKT projekti “Kõne- ja multimodaalsed korpused” raames transkribeeriti manuaalselt eelmisel aastal 20 tunni ulatuses Aktuaalse Kaamera salvestusi. See võimaldas hinnata Aktuaalse Kaamera kõne automaatse transkribeerimise kvaliteeti. Saadud sõnavigade osakaal 21,5% on võrreldav raadio vestlussaadete ja telefoniintervjuude vastava näitajaga.

Reaalajaline täisdupleksne kõnetuvastus veebibrauseris

Teine 2013. a põhisuund oli töö uue reaalajalise täisdupleksse klient-server-arhitektuuril põhineva kõnetuvastusarhitektuuri kallal. 2011. a implementeeritud reaalajaline kõnetuvastusserver ei võimalda “täisdupleksset” suhtlust, kus osalisi tuvastustulemusi kuvatakse kliendile juba kõnelemise ja tuvastamise ajal. See ei luba arendada rakendusi, kus kõnetuvastust kasutatakse ühest lausest pikemate tekstide interaktiivseks dikteerimiseks. Täisdupleksne reaalajaline arhitektuur võimaldaks ka pikkade kõnestriimide reaalajalist automaatset transkribeerimist, mille abil saaks näiteks genereerida reaalajaliselt subtiitreid tele- ja raadiosaadetele.

Hetkel on implementeeritud kirjeldatud nõuetele vastava kõnetuvastussüsteemi järgmised komponendid:

Samuti on implementeeritud serveriga suhtlev Javascriptil põhinev demorakendus, mille abil saab kasutada eestikeelset reaalajalist kõnetuvastust läbi veebibrauseri, ilma lisatarkvara vajaduseta, lähtekood ja demo: http://kaljurand.github.io/dictate.js.

Arendatavat kõnetuvastustarkvara kasutatakse ka Archimedese poolt rahastatavas IKT projektis “Kõnetuvastuse meditsiinirakendus”, kus meie labor on üheks täitjaks.

Kui suure sõnavaraga loomuliku kõne tuvastamiseks on vajalik klient-server arhitektuuriga lahendus, siis lihtsama reeglipõhise keelemudeli kasutamisel on kõnetuvastus võimalik ka otse brauseris, kasutades vaid Javascriptis implementeeritud tarkvara. Näiterakendusena implementeeriti kõnepõhine taimer, mida saab kasutada häälkäskluste abil:

Keelemudeli adapteerimisega seotud uurimistöö

2013. a oli ka kavas uurida, kuidas võimalikult efektiivselt adapteerida kõnetuvastussüsteemi paljudele erineva granulaarsusega valdkondadale. Näiteks loengukõne puhul on ilmne, et erinevate kursuste lõikes on kõne sõnavara ja sõnakombinatsioonide tõenäosesed väga varieeruvad. Samas on paljud loengukõne aspektid ühised üle kõigi kursuste, mis ei tee põhjendatuks igale kursusele täiesti uue keelemudeli tree

 
projektid/tuvastus2/tulemused2013.et.txt · Last modified: 2014/02/28 12:36 by tanel