Other translations of this page: None.

This is an old revision of the document!


2010. a. töökava

Keelemudeli adapteerimise alased uuringud

Kavas on jätkata tööd keelemudeli adapteerimise alal, mis on oluline mitmesuguste praktiliste tuvastusülesannete juures. Põhitähelepanu suunatakse maksimaalse entroopia põhimõtet kasutatavatele mudelitele, ning nende mitmemõõtmelise hierarhilise adapteerimise võimalustele. Selline adapteerimine võimaldaks keelemudelit samaaegselt adapteerida nii kõne teemale kui stiilile (näiteks konverentsiettekanded teatud teemal), samuti võimaldab see treeningandmete efektiivset kasutust. Kavas on implementeeida maksimaalse entroopia põhimõtet kasutavate hierarhiliste mudelite treeningalgoritm, mis kasutaks sobivaid andmestrktuure ja algoritme, et vältida tüüpiliselt selliste mudelite treenimise puhul tekkivat ülisuurt mälu- ja protsessorinõudlust.

Raadiote vestlussaadete sisu indekseerimise, organiseerimise ning otsingu veebirakendus

Eelmise aasta töö tulemusena valmis raadiote vestlussaadete täisautomaatset transkribeerimist võimaldava süsteemi prototüüp. Sel aastal on kavas alustada süsteemile saadete sisu indekseerimise, organiseerimise ja otsingu funktsioonide lisamist ning nendele funktsioonidele avalikku ligipääsu võimaldava kasutajaliidese implementeerimist. Kasutajaliides oleks implementeeritud veebirakendusena ning võimaldaks järgmisi tegevusi:

  • transkribeeritud vestlussaadete sisu vaatamine; transkribeeritud tekst oleks organiseeritud kõneleja kaupa ning võimaldaks lihtsalt kuulata tekstilõigule vastavat kõnet;
  • otsing transkribeeritud saadete sisust kasutaja poolt sisestatud märksõnade põhjal;
  • mingile vestlussaatele sarnase sisuga teiste saadete otsimine.

Süsteem oleks suuteline automaatselt uusi vestlussaadete salvestusi alla laadima, transkribeerima ning indekseerima, kasutades sisendina erinevate raadiote vastavaid RSS-vooge.

Rakenduse potensiaalsed hiljem lisatavad funktsioonid on:

  • automaatselt transkribeeritud tekstidesse kasutajapoolsete paranduste tegemine;
  • sama kõneleja kõnelõikude otsing erinevatest saadetes, otsing kõneleja ja märksõna põhjal;
  • saadete automaatsed lühikokkuvõtted;
 
projects/tuvastus/kava2010.et.1271770169.txt.gz · Last modified: 2010/04/20 16:29 by tanel