Other translations of this page: None.

Kõne- ja multimodaalsed korpused

Kõnetuvastuses kasutatakse laialdaselt statistilisi mudeleid, mille treenimiseks on vajalikud suuremahulised korpused – mida suurem ja mitmekesisem on treeningmaterjal, seda paremad on tuvastustulemused. Kõnelejast sõltumatu tuvastussüsteemi treenimiseks on vajalik kasutada võimalikult paljude inimeste kõnesalvestusi. Seetõttu on vajalik jätkata olemasolevate kõnekorpuste laiendamist ja koguda uusi eri kõnestiile, sõnavara ja kõnelejarühmi (näiteks lapsi ja noorukeid vanuses 8-15 aastat, võõrkeelse aktsendiga kõnelejaid) kaasavaid kõnekorpusi. Paljud võimalikud kõnetuvastuse rakendused on valdkonnaspetsiifilised ja nende sõnavara on suhteliselt hästi piiritletav, nt pildikirjeldused radioloogias,infopäringud jpm. Selliste rakenduste loomise eelduseks on vajalik valdkonnaspetsiifiliste kõnekorpuste kogumine.

EKKTT (2006-2010) projekti EKKTT06-6 „Kõnekeele ressursid ja kõnetehnoloogia andmebaasid“ raames koguti järgmised korpused: 1. raadiouudiste korpus: maht ca 300 tundi, sellest märgendatud 30 tundi; 2. loengukõne korpus: maht ca 350 tundi eri ainevaldkondade akadeemiliste loengute salvestustusi ja üle 20 tunni konverentsiettekandeid, neist märgendatud ca 13 tundi; 3. raadio vestlussaadete korpus: maht ca 20 tundi, kõik märgendatud; 4. aktsendikorpus: maht ca 50 tundi (160 keelejuhti).

Projekt on eelnimetatud projekti otsene järg ja selle raames jätkub eestikeelsete kõnekorpuste salvestamine, märgendamine ja haldus. Projekti tegevused on kavandatud kolmes põhisuunas.

1. Olemasolevate kõnekorpuste laiendamine ja märgendamine:

  • loengukõne korpus: uute konverentsiettekannete salvestused ja nende märgendamine
  • aktsendikorpus: uute keelejuhtide salvestused ja märgendamine

2. Uute korpuste kavandamine, salvestus ja töötlus:

  • raadiointervjuude korpuse kogumine ja märgendamine
  • noorukite (vanuses 8-15) kõnekorpuse kavandamine, salvestamine ja märgendamine
  • nimede (inimeste, asutuste, kaubamärkide, tänavate, külade, linnade, riikide nimed) korpuse kogumine ja märgendamine
  • eriliigilised kõnekorpused – valdkonnaspetsiifilise sõnavaraga kõnekorpused kõnetuvastusrakenduste loomiseks ja erinevate kõne foneetilis-fonoloogiliste aspektide (fookusrõhk, kõnetempo jm) eksperimentaalfoneetilisteks uuringuteks vajalikud korpused
  • kõneproduktsiooni multimodaalse andmebaasi kavandamine, salvestamine ja märgendamine
  • viipekeele korpuse kavandamine, salvestamine ja märgendamine

3.Korpuste salvestusteks, töötluseks ja haldamiseks vajaliku infrastruktuuri arendus

Kõik korpused tehakse kättesaadavaks Eesti Keeleressursside Keskuse kaudu vastavalt keskuse litsentsitingimustele.

Projekti tulemused

2011:

  • Loengukõne korpus: koguti 25 tundi konverentsiettekandeid (30 keelejuhti), käsitsi märgendati 20 tundi salvestusi
  • Aktsendikorpus: salvestati 5 eri keeletaustaga keelejuhti, automaatselt segmenteeriti 150 keelejuhi salvestused, käsitsi korrigeeriti ühe keelejuhi kõnematerjal (140 lauset)
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi salvestusi
  • Laste ja noorte kõnekorpus: koostati tekstikorpus (sisaldab spontaanset kõnet esile kutsuvaid küsimusi ja pilte ning etteantud tekste (PIN-koodid, telefoninumbrid, numbrijadad, kellaajad, kuupäevad, koha- ja isikunimed, organisatsioonide nimetused, IT-valdkonna terminid, foneetiliselt rikkad laused)); komplekteerit mobiilne salvestuskomplekt (laua- ja peamikrofon, mikrofonivõimendi/AD-muundur M-Audio MobilePre, sülearvuti eraldi monitoriga, SpeechRecorder salvestusprogramm); tehti proovisalvestusi
  • Eriliigilised kõnekorpused: koostati fookusrõhu akustiliste tunnuste uurimiseks sobiv tekstikorpus (iga uuritav sõna on kolmes erinevas rõhupositsioonis - lauserõhutu, lauserõhuline, kontrastiivne rõhk) ja see salvestati 11 keelejuhiga; rõhupositsioonis olevad sõnad on segmenteeritud häälikutasandil
  • Multimodaalsed korpused: (1) kõneproduktsiooni andmebaasi salvestamiseks VCV ja CVCV struktuure sisaldav korpus, mis salvestati kahe mõõtesüsteemiga: EMA (elektromageetiline artikulograaf) ja EPG (elektropalatograaf); (2) audiovisuaalse kõnesünteesi projekti jaoks salvestati eesti põhiviseemide korpus nii isoleeritud häälduses kui sidusas kõnes

2012:

  • Loengukõne korpus: märgendati 20 tundi salvestusi
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi salvestusi
  • Aktsendikorpus: salvestati 19 läti, 5 rootsi ja 1 saksa keeletaustaga keelejuhti, käsitsi märgendati 50 eri keeletaustaga (soome, vene, saksa, taani, poola) keelejuhi spontaanset kõnet sisaldavad laused; segmenteeriti (hääliku, silbi ja sõna tasandil) 12 soome keelejuhi vältevastandusi sisaldavad sõnad
  • Laste ja noorte kõnekorpus: salvestati 90 keelejuhti vanuses 9-19
  • Multimodaalsed korpused: EPG-süsteemiga (+larüngograaf) salvestati VCV ja CVCV korpus; VCV-korpus on segmenteeritud ja viidud vastavusse Emu kõne andmebaasi formaadiga, korpus on kasutatav Emu ja Emu/R keskkondades

2013:

  • Uudistekorpus: koguti ja märgendati käsitsi 20 tundi uudistesalvestusi
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi erinevate raadiojaamade vestlussaadete salvestusi
  • Aktsendikorpus: märgendati 50 keelejuhi spontaanset kõnet sisaldavad laused ja segmenteeriti 20 läti keelejuhi vältevastandustega sõnu sisaldavad laused (48 lauset iga keelejuhi kohta)
  • Laste ja noorte kõnekorpus: salvestati 100 keelejuhti vanuses 9-19, märgendati 40 keelejuhi spontaanset kõnet sisaldavad laused ja segmenteeriti vältevastandusi sisaldavad sõnad hääliku, silbi ja sõna tasandil (40 keelejuhti, 21 sõna iga keelejuhi kohta)
  • Multimodaalsed korpused: salvestati (EPG ja LG süsteemidega) ja segmenteeriti konsonantühendeid sisaldavaid sõnu (448 sõna, 2 keelejuhti); 3D artikulograafiga salvestati VCV ja CVCV korpused

2014:

  • Uudistekorpus: koguti ja märgendati käsitsi 10 tundi uudistesalvestusi
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi erinevate raadiojaamade vestlussaadete salvestusi
  • Aktsendikorpus: salvestati 10 leedu emakeelega keelejuhti, segmenteeriti 6 jaapani, 7 rootsi ja 20 läti keelejuhi vältevastandustega sõnu sisaldavad laused
  • Laste ja noorte kõnekorpus: salvestati 110 keelejuhti Ida-Virumaa, Saaremaa ja Võrumaa koolides, automaatselt segmenteeriti loetud laused kogu korpuses; käsitsi märgendati 60 keelejuhi spontaanset kõnet sisaldavad laused
  • Multimodaalsed korpused: kõik artikulatsioonisalvestused on viidud EMU/R andmebaasisüsteemiga ühilduvasse formaati

Projektiga seotud artiklid:

Meister, Einar; Meister, Lya (2014). Estonian Quantity Degrees Produced by Latvian Subjects. Linguistica Lettica, 85 - 106. [ilmumas]

Meister, Lya; Meister, Einar (2014). Development of the corpus of Estonian Adolescent Speech. In: Human Language Technologies - the Baltic Perspective : Proceedings of the Sixth International Baltic Conference, Baltic HLT 2014: (Toim.) Utka, Andrius; Grigonytė, Gintarė; Kapočiūtė-Dzikienė, Jurgita; Vaičenonienė, Jurgita. Amsterdam: IOS Press, 2014, (Frontiers in Artificial Intelligence and Applications; 268), 206 - 209.

Meister, Einar; Meister, Lya (2014). L2 production of Estonian quantity degrees. In: Speech Prosody 7 : Proceedings of the 7th international conference, (Trinity College Dublin) May 20-23, 2014: (Toim.) Campbell, Nick; Gibbon, Dafydd; Hirst, Daniel. Dublin: International Speech Communication Association, 2014, 929 - 932.

Meister, Lya; Meister, Einar (2013). The corpus of Estonian adolescent speech: work in progress. In: XXVIII Fonetiikan Päivät : Turussa 25.-26. lokakuuta 2013: Turku: University of Turku, 2013, [1].

Meister, Einar; Meister, Lya (2013). Production and perception of Estonian quantity contrasts by L2 subjects with different language backgrounds. In: PPLC13 : Phonetics, phonology, languages in contact : Contact varieties, multilingualism, second language learning, Paris, France, 2013, August 21-23, Book of Abstracts:, 2013, 41 - 43.

Meister, Lya; Meister, Einar (2013). The Estonian Foreign Accent Corpus. In: PPLC13 : Phonetics, phonology, languages in contact : Contact varieties, multilingualism, second language learning, Paris, France, 2013, August 21-23, Book of Abstracts:, 2013, 141 - 143.

Meister, Einar; Meister, Lya (2013). Production of Estonian quantity contrasts by native speakers of Finnish. In: Interspeech 2013 : 14th Annual Conference of the International Speech Communication Association, Lyon, France, 25-29 August, Proceedings: Lyon, France: International Speech Communication Association, 2013, 330 - 334.

Meister, Einar; Meister, Lya (2013). Native and non-native production of Estonian quantity degrees: comparison of Estonian, Finnish and Russian subjects. Asu, Eva Liina; Lippus, Pärtel (Toim.). Nordic Prosody : Proceedings of the XIth Conference, Tartu 2012 (235 - 243). Frankfurt am Main: Peter Lang Verlag

Meister, Einar; Meister, Lya; Metsvahi, Rainer (2012). New speech corpora at IoC. In: XXVII Fonetiikan päivät 2012 - Phonetics Symposium 2012 : 17-18 February 2012, Tallinn, Estonia, Proceedings: (Toim.) Meister, Einar. Tallinn: TUT Press, 2012, 30 - 33.

Meister, Lya; Meister, Einar (2012). Aktsendikorpus ja võõrkeele aktsendi uurimine. Keel ja Kirjandus, 55(8-9), 696 - 714.

Meister, Lya; Meister, Einar (2012). The production and perception of Estonian quantity degrees by native and non-native speakers. In: Interspeech 2012 : Spoken Language Processing and Biomedicine, 13th Annual Conference of the International Speech Communication Association, September 9-13, 2012, Portland, Oregon: Portland: International Speech Communication Association, 2012, 886 - 889.

Meister, Einar; Meister, Lya (2012). Multimodal corpus of speech production: work in progress. In: Human Language Technologies. The Baltic Perspective : Proceedings of the Fifth International Conference Baltic HLT 2012: (Toim.) Tavast, Arvi; Muischnek, Kadri; Koit, Mare. Amsterdam: IOS Press, 2012, (Frontiers in Artificial Intelligence and Applications; 247), 146 - 153.

 
projektid/mmkorpus/mmkorpus.et.txt · Last modified: 2015/01/04 19:07 by einar