Other translations of this page: None.

Autosegmenteerija

Autosegmenteerija on tarkavara, millega saab segmenteerida eestikeelset kõnet sõnadeks ja häälikuteks, kasutades Markovi peitmudelitel põhinevaid kõnetuvastuse akustilisi mudeleleid. Segmenteerimiseks peab kõne olema juba sõnade tasemel transkribeeritud, autosegmenteerimise käigus leitakse automaatselt sõnade ja sõnades olevate häälikute piirid.

Sõna- ja häälikupiirid leitakse Markovi peitmudelite parameetrite põhjal, mis on omakorda treenitud suurte kõneandmebaaside põhjal. Treenimisel pole kasutatud foneetikute poolt segmenteeritud kõnet, vaid ainult lause tasemel transkribeeritud kõnet. Seetõttu pole kuidagi tagatud see, et autosegmenteerija poolt leitud piirid ühtiksid foneetiliselt põhjendatud piiridega. Lisaks sellele, autosegmenteerija piiride leidmine toimub 10 ms täpsusega.

Sellest hoolimata võib autosegmenteerija olla huvitav ja kasulik tööriist. Mõned tema omadused:

  • Automaatne häälduse leidmine sõna ortograafiast.
  • Automaatne täidetud pauside tuvastamine: spontaanse kõne transkriptsioonis ei pea eraldi näitama täidetud pause, nagu köhatused, kõhklushäälitsused, mürad jms. Autosegmenteerija täidab need ise sobivate ühikutega.
  • Segmenteerimistulemuste väljastamine Praat TextGrid formaadis: TextGrid formaadis failis on nii sõna-tasemel kui ka hääliku-tasemel segmenteerimispiirid.

Uudised

  • 2015-02-18: Kataloogirežiimis käiakse nüüd läbi ka kõik alamkataloogid

Kasutamine

Rakenduse käivitamiseks peab arvutisse olema installeeritud Java (1.5 või hilisem). Rakendus kasutab Java Web Start tehnoloogiat. Käivitamisel hoiatatakse kasutajat, et rakenduse käivitamine on turvarisk (kuna rakendusel on ligipääs kasutaja kõvakettale) ning et rakendus ei ole usaldatav (kuna meil puudub vastav sertifikaat).

Käivita

Rakendust on testitud Windowsi ja Linuxi keskkondades.

Screenshot:

Screenshot

Segmenteeritav helifail võib olla mingis Java poolt tuntavas formaadis (näiteks .wav), diskreetimissagedusega vähemalt 8 kHz. Kõrgema diskreetimissagedusega heli muundatakse automaatselt 8 kHz peale.

Transkiptsioonifail peaks olema operatsioonisüsteemi vaikimisi kasutatavas kodeeringus (näiteks kui arvuti vaikimisi kodeering on UTF-8, siis peaks ka transkriptsioon olema selles kodeeringus). Segmenteerijat huvitavad ainult transkriptsioonis olevad sõnad, kõik kirjavahemärgid, reavahetused ja üleliigsed tühikud visatakse automaatselt välja. Kõik numbrid, lühendid ja võõrnimed peavad olema transkribeeritud eesti hääldusreeglite järgi. Liitsõnaosade vahel võiks olla sidekriips (või plussmärk), vastasel juhul võib sõna häälduse tuletamine olla ebakorrektne. Näiteks lause “Newton sündis 17. sajandil” peaks olema transkribeeritud kujul “njuuton sündis seitsme-teist-kümnendal sajandil”.

Segmenteeriseks sobivad kuni u. kümneminutilised helilõigud. Pikemate salvestuste segmenteerimiseks tuleks need eelnevalt tükeldada ja tükikaupa transkribeerida.

Prooviks võib kasutada järgnevaid sisendfaile:

Segmenteerimise tulemusena saadakse selline väljundfail.

Taust

Kõnetuvastuseks kasutatakse Sphinx-4 mootorit ja eesti keele SpeechDat-tüüpi kõneandmebaasi põhjal treenitud akustilisi mudeleid.

Lähtekood

Varsti.


Copyright 2007 TTÜ Küberneetika Instituut.
Portions Copyright 1999-2004 Carnegie Mellon University.
Portions Copyright 2002-2004 Sun Microsystems, Inc.
Portions Copyright 2002-2004 Mitsubishi Electric Research Laboratories.

 
projects/tuvastus/est-align.et.txt · Last modified: 2015/02/18 13:41 by tanel