Other translations of this page: None.

Eestikeelse kõne andmebaas

Projekti eesmärk: Eestikeelse kõnematerjali salvestamine ja märgendamine kõne- ja kõnelejatuvastuse uuringuteks ning rakendussüsteemide treenimiseks

Prototüüp: SpeechDat-tüüpi andmebaasid, eriti soomekeelne SpeechDat

Andmebaasi olulisemad parameetrid:

  • Kõnelejate arv: 1335
  • Ajaline maht: ca 112 tundi
  • Salvestussessioone ühe kõneleja kohta: 1
  • Kõne hulk ühelt kõnelejalt: ca 5 minutit
  • Kõnelejate emakeel: põhiliselt eesti
  • Kõnekorpuse sisu:
    • numbrid, numbrijadad, telefoninumbrid, PIN-koodid
    • inimeste, asutuste, külade, linnade, riikide nimed
    • rahaühikud
    • kellaajad, kuupäevad, ajamäärsõnad
    • IT-valdkonna terminid ja laused
    • foneetiliselt rikkad sõnad ja laused
  • Signaaliallikas: mobiil- või tavatelefon
  • Keskkond, kust helistati: kodu, büroo (üldjuhul vaikne, taustahelideta ruum)
  • Signaali diskreetimissagedus: 8 kHz
  • Signaaliformaat: 8 bitti, Alaw
  • Segmenteerimistasand: ütlus (lause või sõna)
  • Märgendus: ortograafiline

Kuula kõnenäiteid:

Põhitegijad: Einar Meister, Jürgen Lasn, Lya Meister
Projekti kestus: 2002 - 2004
Finantseerijad: HTM, Kultuuriministeerium
Toetajad: EMT, Eesti Telefon, Radiolinja Eesti, Tele2, Postimees, Tehnokratt, Õpetajate Leht

 
projects/speechdat/speechdat.et.txt · Last modified: 2013/09/09 16:58 by lya