Other translations of this page: None.

Audiovisuaalne kõnesüntees

Inimestevaheline suhtlus on oma olemuselt multimodaalne - lisaks kõnele edastame informatsiooni ka visuaalselt žestide, näoilme, kehakeele, jm kaudu. Kommunikatsioonitehnoloogia üheks arengusuunaks on inimene-masin liideste arendus, milles rakendatakse kõiki inimesele omaseid suhtlusviise, audiovisuaalne kõnesüntees on üks multimodaalse suhtluse rakendusi. Audiovisuaalse kõnesünteesi puhul lisatakse heliväljundile ka animeeritud inimnäo või pea kujutis. Näo liigutused (näiteks naeratamine, kulmu kortsutamine, silma pilgutamine, noogutamine ja kulmude kergitamine) annavad edasi olulist informatsiooni kõneleja emotsionaalse seisundi kohta ja visuaalne esitus aitab kaasa ka kõnest aru saamisele, eriti kui seda segavad müra või kuulmispuue. Kõne audiovisuaalne süntees eeldab eraldi moodustatud akustilise ja visuaalse informatsiooni sünkroonset ning sidusat edastust, vastasel juhul võib kõnest arusaamine isegi halveneda. Näiteks on uuritud McGurk'i efekti, milles silbi /ba/ heli juurde on liidetud visuaalne /ga/, mille tulemusena tajutakse hoopiski silpi /da/.

Kõneleval peal on mitmeid rakendusi, näiteks:

  • abivahend kuulmishäiretega inimeste jaoks inimkõne mõistmisel ja huultelt lugema õppimisel,
  • virtuaalne juhendaja sünnipärase kuulmispuudega inimestele, kes saavad animatsiooni abil õppida häälikute õiget moodustamist, jälgides huulte ning kõnetrakti elundite liikumist kõnelemisel,
  • interaktiivne abivahend võõrkeele õppimisel, eriti kui kuvatakse ka kõnetrakti kuju ja keele asendit ning liikumist erinevate häälikute moodustamisel,
  • videokonverentsidel info edastajana või erinevates keskkondades uudistelugejana.

Audiovisuaalse kõnesünteesi puhul tuntakse valdavalt kaht lähenemist:

  • mudelipõhine ehk parameetriline – animatsioon genereeritakse etteantud mudeli põhjal parameetrite muutmise teel. Üks olulisemaid mudeleid on 1982. aastal Parke'i poolt loodud parameetrilise näo mudel. Tegemist on kolmemõõtmelise pea kujutisega, mis koosneb umbes 800 hulktahukast ning mida saab juhtida 50 erineva parameetri abil. Selle mudel on olnud aluseks mitmete prototüüpide loomisel, näiteks Baldi (kohandatud mitmetele keeltele https://www.ite.tul.cz/speechlabe/index.php/old-projects/czechbaldi.html), Synface (http://www.speech.kth.se/multimodal/) jt.
  • korpuse-põhine lähenemine, mis baseerub videokorpusest sobivate üksuste valiku algoritmil ja fotorealistlike kujutiste järgnevustel. See tähendab juba valmisolevate kujutiste (näiteks fotode) esitamist üksteise järel, tekitades nii kõnelemise illusiooni (http://www.ikp.uni-bonn.de/forschung/phonetik/sprachsynthese/aviss). Viimast meetodit saab edukalt kasutada siiski vaid piiratud rakenduste korral (etteantud sõnavaraga teated, hoiatused jne).

Projekti eesmärgiks on eestikeelse audiovisuaalse kõnesünteesi prototüübi loomine. See koosneb kahest põhilisest komponendist:

  • visuaalset animatsiooni võimaldavast peamudelist,
  • tekst-kõnesüntesaatorist.

Projekti raames tegeldakse eelkõige visuaalse mudeli loomisega, mis liidestatakse eestikeelse tekst-kõnesünteesaatoriga.

Projekti tulemusena loodava prototüübi tarkvara on vabavara, mis tehakse kättesaadavaks Eesti Keeleressursside Keskuse kaudu vastavalt keskuse litsentsitingimustele.

Projekti tulemused

2011:

  • Valdkonna taustauuringud ja AV-sünteesi meetodite võrdlus:
    • parameetriline meetod kasutab umbes 800 hulktahukast koosnevat pea sõrestikmudelit, mida juhitakse 50 parameetri abil
    • kujutisepõhine meetod - videokorpusest leitakse sobivad fotorealistlikud näopildid, mille esitamisel vajalikus järjestuses luuakse kõnelemise illusioon
    • korpusepõhine meetod põhineb suurest audiovisuaalsest korpusest leitavate sobivate segmentide ahelsünteesil
  • Eesti viseemide analüüs ja klassifikatsioon
  • Prototüübi valik - MASSY mudel (Sasha Fageli loodud mudel saksa keele AV-sünteesiks)
  • MASSY mudeli liidestamine eestikeelse difoonsüntesatoriga

2012:

  • Multimodaalsete kõnesalvestuste segmenteerimine ja töötlus
  • Eesti viseemide sihtväärtuste artikulatoorsete tunnuste kirjeldamine MASSY mudeli juhtparameetrite (huulte laius, huulte ümardatus, suu avatus (lõua asend), keeletipu kõrgus, keelekeha kõrgus, alahuule asend) kaudu
  • Audiovisuaalsete stiimulite süntees ja tajueksperimendid
  • MPEG4 standardiga ühilduva LUCIA mudeli lähtekoodi uurimine selle kohaldamiseks eestikeelseks AV-sünteesiks

2013:

  • Loodi audiovisuaalse kõnesünteesi veebirakendus http://massy-est.phon.ioc.ee/
  • 3D artikulatsiooniandmete põhjal leiti peamudeli juhtimiseks vajalikud eesti viseemide artikulatoorsed parameetrid
  • Loodi uue 3D peamudeli staatiline osa
  • Tajukatseteks sünteesiti VCV-ühendeid sisaldav AV-stiimulikorpus, tajukatsetes osales 4 inimest

2014:

  • Loodi uus animeeritav 3D peamudel
  • Loodi tarkvaramoodul visuaalse artikulatsiooni juhtimiseks viseemide artikulatoorsete tunnuste alusel ja sünkroniseerimiseks audiosignaaliga
  • Tehti tajukatseid MASSY-mudeliga leidmaks halvemini tajutavaid viseemikombinatsioone
  • MASSY-mudelile lisati Eesti Keele Instituudis loodud HTS-kõnesüntesaator, vt http://massy-est.phon.ioc.ee/
  • Loodi AV-sünteesi rakendus Windows’i ja Linux'i jaoks

Projektiga seotud publikatsioonid:

Meister, Einar; Metsvahi, Rainer; Fagel, Sascha (2014). Evaluation of the Estonian audiovisual speech synthesis. In: Human Language Technologies - the Baltic Perspective : Proceedings of the Sixth International Baltic Conference, Baltic HLT 2014: (Eds.) Utka, Andrius; Grigonytė, Gintarė; Kapočiūtė-Dzikienė, Jurgita; Vaičenonienė, Jurgita. Amsterdam: IOS Press, 2014, (Frontiers in Artificial Intelligence and Applications; 268), 11–18.

Meister, Einar; Fagel, Sascha; Metsvahi, Rainer (2012). Towards audiovisual TTS in Estonian. In: Human Language Technologies. The Baltic Perspective : Proceedings of the Fifth International Conference Baltic HLT 2012: (Eds.) Tavast, Arvi; Muischnek, Kadri; Koit, Mare. Amsterdam: IOS Press, 2012, (Frontiers in Artificial Intelligence and Applications; 247), 138–145.

 
projektid/avsyntees/avsyntees.et.txt · Last modified: 2015/01/04 19:04 by einar