GAČR Logo GAČR

Rozpoznávání mluvené řeči v reálném prostředí

Laboratoř zpracování řečového signálu Laboratoř počítačového zpracování řeči Oddělení umělé inteligence Skupina zpracování řeči Loga účastníků

Projekt navazuje na předchozí grantově podporovaný výzkum, v němž se řešitelskému týmu podařilo vyvinout a částečně i realizovat základní metody rozpoznávání řeči v českém jazyce. Aby však mohly být úspěšně nasazeny v nejvíce žádaných aplikacích, jako jsou přepisy hovorů, záznamů diskusí nebo jednání v soudních síních, musí být pozornost zaměřena na analýzu a modelování běžné mluvené (hovorové) řeči zaznamenávané v reálných podmínkách za přítomnosti šumu, hluků, případně dalších mluvících osob.

Hlavní cíle tohoto projektu odrážejí potřeby hlubšího výzkumu v oblastech směřujících k výraznému zvýšení úspěšnosti rozpoznávání mluvené řeči v reálných podmínkách a logicky navazují na výše zmiňované konkrétní výsledky předchozích aktivit všech zúčastněných navrhovatelů. Konkrétní výzkumné cíle lze shrnout v následujících bodech:

Stanovená problematika byla řešena ve 4 tematických okruzích: Parametrizace a zpracování signálu, Akustické modelování, Jazykové modelování a Algoritmy vyhledávání a dekódování. V oblasti parametrizace řeči byly především zkoumány metody robustní parametrizace řečového signálu (často nestandardního či silně narušeného). Nejvýznamnější výsledky představují kombinace parametrizace a potlačování vlivu rušivého pozadí (zejména pak metody slepé separace), obecnější studie vhodné hierarchie neuronových sítí v úlohách extrakce řečových příznaků, či analýzy emočních stavů v mluveném projevu. V oblasti akustického modelování byly vyvinuty nové metody trénování a nasazení akustických modelů v rozpoznávání řeči (včetně metod adaptace na nového řečníka a nový přenosový kanál), nové modely používané v úloze rozpoznávání řečníka založené na metodách promítání do nízko-dimenzionálních pod-prostorů, či byly vyvinuty Sub-Space Gaussovské modely (SGMM), které jsou vhodné zejména pro úlohy s malým množstvím trénovacích dat. Byla vyvinuta metoda pro adaptaci umělých neuronových sítí, která je aplikovatelná v hybridních i klasických HMM a GMM systémech rozpoznávání řeči. V oblasti jazykového modelování byl výzkum zaměřen na metody použitelné pro inflektivní jazyky. Byl navržen slovník s hierarchickou strukturou a na bázi této struktury byl vytvořen kompaktnější slovník a jazykový (N-gramový) model a byly také vyvinuty jazykové modely na bázi rekurentních neuronových sítí, které jsou velmi kompetitivní samy o sobě i v kombinaci se standardními n-gramy. V oblasti dekódování je nutné zmínit především vývoj dekodéru "KALDI", který je volně dostupný vědecké komunitě, i dalších dekodérů. Ty jsou nyní schopny rozpoznávání mluvené řeči v reálném čase i pro slovníky nad 500 000 slov. Konkrétní výsledky byly publikovány v celkem 165 publikacích, viz sekce publikace, z nichž více než polovina je prací prestižních, které představují články v impaktovaných časopisech (9) a na prestižních konferencích uvedených ve světové databázi WoS (82). Řada výzkumných úkolů základního výzkumu byla řešena v rámci disertačních prací, z nichž 12 bylo úspěšně obhájeno.

Na základě dosažených výsledků vytvořil tento projekt podmínky pro významný posun současného stavu základního výzkumu v oblasti rozpoznávání mluvené řeči a prohloubil také integraci zúčastněných pracovišť v rámci mezinárodních výzkumných aktivit.