Other translations of this page: None.

Eestikeelse kõne andmebaas

Projekti eesmärk: Eestikeelse kõnematerjali salvestamine ja märgendamine kõne- ja kõnelejatuvastuse uuringuteks ning rakendussüsteemide treenimiseks

Prototüüp: SpeechDat-tüüpi andmebaasid, eriti soomekeelne SpeechDat

Andmebaasi olulisemad parameetrid:

 • Kõnelejate arv: 1335
 • Ajaline maht: ca 112 tundi
 • Salvestussessioone ühe kõneleja kohta: 1
 • Kõne hulk ühelt kõnelejalt: ca 5 minutit
 • Kõnelejate emakeel: põhiliselt eesti
 • Kõnekorpuse sisu:
  • numbrid, numbrijadad, telefoninumbrid, PIN-koodid
  • inimeste, asutuste, külade, linnade, riikide nimed
  • rahaühikud
  • kellaajad, kuupäevad, ajamäärsõnad
  • IT-valdkonna terminid ja laused
  • foneetiliselt rikkad sõnad ja laused
 • Signaaliallikas: mobiil- või tavatelefon
 • Keskkond, kust helistati: kodu, büroo (üldjuhul vaikne, taustahelideta ruum)
 • Signaali diskreetimissagedus: 8 kHz
 • Signaaliformaat: 8 bitti, Alaw
 • Segmenteerimistasand: ütlus (lause või sõna)
 • Märgendus: ortograafiline

Kuula kõnenäiteid:

Põhitegijad: Einar Meister, Jürgen Lasn, Lya Meister
Projekti kestus: 2002 - 2004
Finantseerijad: HTM, Kultuuriministeerium
Toetajad: EMT, Eesti Telefon, Radiolinja Eesti, Tele2, Postimees, Tehnokratt, Õpetajate Leht

 
projects/speechdat/speechdat.et.txt · Last modified: 2013/09/09 16:58 by lya