Metody kompenzace šumu pro rozpoznávače řeči využívajících skrytých Markovových modelů

Úvod do rozpoznávačů řeči založených na Markovových modelech (opakování)

Skryté Markovovy modely (HMM) odpovídají statistickým modelům s konečným počtem stavů. Tyto modely mohou být užitečné pro statistický popis po částech stacionárních signálů jako je řeč. V teorii HMM je po částech stacionární signál modelován pomocí řetězce skládajícího se z N stavů, přičemž každý z nich má jiný soubor statistických charakteristik. N stavový Markovův model je uveden na obr.1.

 

 

 

 

 

 

 

 

 

 

 


Obrázek 1: N-stavový skrytý Markovův model

 

 

N-stavový skrytý Markovův model je definován následujícím souborem parametrů  .

 

Význam jednotlivých parametrů:

 - počáteční pravděpodobnost stavu

 - pravděpodobnost přechodu mezi stavy i a j

 - hustota pravděpodobnosti pro pozorovaný vektor x v daném stavu

N - počet stavů

i, j - označení daných konkrétních stavů

 

Hlavními parametry, které charakterizují HMM model jsou pravděpodobnosti přechodů mezi stavy  a hustoty pravděpodobnosti pro pozorované vektory x v daných stavech. Pravděpodobnosti přechodů mezi jednotlivými stavy vyjadřují různou délku trvání řečových segmentů, jejichž statistické parametry lze přiřadit jednotlivým stavům. Hustoty pravděpodobnosti pro pozorované vektory v daných stavech oproti tomu vyjadřují změny ve spektrálním obsahu řečových segmentů přiřazených k danému stavu. Vzhledem k tomu, že přechod mezi jednotlivými stavy se může konat pouze z levé části modelu do pravé, se pro zpracování řečových signálů používá tzv. levopravý HMM.

Pravděpodobnost, že sekvence pozorovaných vektorů  odpovídá akustické realizaci slova popsaného modelem , je obecně dána sečtením pravděpodobností sekvence pozorovaných vektorů přes všechny možné sekvence stavů. Toto lze vyjádřit následujícím vzorcem:

                   (1)

Pro vyčíslení předchozí pravděpodobnosti je nutné umět vypočítat hustotu pravděpodobnosti pro pozorovaný vektor x v daném stavu. Tato hustota je zpravidla modelována pomocí M-složkové směsi hustot pravděpodobnosti podle Gaussova rozložení. To vyjadřuje vzorec 2.

                                                                                             (2)

kde  jsou váhové koeficienty stavu i a  jsou jednotlivé hustoty pravděpodobnosti pro daný pozorovaný vektor,  je vektor středních hodnot a  označuje kovarianční matici.

Jednotlivé části HMM rozpoznávače řeči

Zjednodušené schéma rozpoznávače je uvedeno na obr.2. První operací, kterou řečový signál prochází je kódování. Při něm se zpravidla signál segmentuje na stejně dlouhé segmenty z kterých se vypočítá spektrum a to se dále zpracovává například do kepstrální reprezentace. Existuje mnoho různých typů kódování. 

 

 

 

 

 

 

 

 

 

 

 


Obrázek 2: Blokové schéma rozpoznávače

 

 

Před tím, než je rozpoznávač schopen rozpoznávat jednotlivé promluvy (např. slova) je třeba nejdříve natrénovat jeho modely jednotlivých promluv. K tomu slouží tzv. trénovací část databáze, kde se například vyskytuje mnoho různých realizací od každého slova, které chceme mít ve slovníku rozpoznávače. Tato etapa přípravy rozpoznávače se nazývá trénování.

Vlastní rozpoznávání se děje vyhodnocováním pravděpodobnosti, že daná promluva (sekvence pozorovaných vektorů x) byla generována daným modelem. Model, který generuje danou promluvu s nejvyšší pravděpodobností reprezentuje danou promluvu.

Vliv šumu a hluku okolního prostředí na rozpoznávání

Šum ovlivňuje proces kódování, trénování modelů i vlastní rozpoznávání. Rozpoznávače řeči dosahují nejlepších výsledků pokud jsou trénovány a testovány na promluvách s přítomností stejného druhu šumu (co do množství i spektra). V reálných aplikacích je to však nepraktické, protože spektrum šumu a jeho velikost se zpravidla mění. Proto musí být aplikován algoritmus, který je schopen šum dynamicky kompenzovat. Výzkumnou činnost v oblasti rozpoznávačů řeči v hlučném prostředí lze rozdělit do tří širokých kategorií.

 

·        Předzpracování řečového signálu před vlastním rozpoznáváním. Toto se může dít před vlastním kódováním, případně může být daný algoritmus zařazen do části kódování.

·         Adaptace (Přizpůsobení) modelů jednotlivých promluv tak, aby zahrnuly vliv šumu.

·         Použití robustních algoritmů pro parametrizaci (kódování).

 

Rozpoznávač, který pracuje v hlučných podmínkách, by také měl vzít v úvahu změny v řeči způsobené mluvčím, který je ovlivněn šumem. V hlučném prostředí lidé často mluví hlasitěji a v jejich řeči se mění doby trvání jednotlivých hlásek, pitch perioda a artikulace obecně. Tento jev, který je znám jako Lombardův vliv, může být pro rozpoznávání stejně tak škodlivý jako šum sám o sobě.

Redukce vlivu šumu pomocí předzpracování řečového signálu

Jak již bylo řečeno, jedním ze způsobů jak zlepšit chování rozpoznávače při zašuměném signálu je předzpracování tohoto signálu před vlastním procesem rozpoznávání. Rozpoznávač je v tomto případě zpravidla natrénován na nezašuměné řeči. Mezi často používané metody předzpracování patří spektrální odečítání, které je následně popsáno.

Mezi hlavní výhody spektrálního odečítání patří poměrně nízká výpočetní náročnost i relativně jednoduchá implementace. Výhodou je také fakt, že ke zpracování je nutná pouze znalost spektra šumu. Hlavní myšlenkou spektrální odečítání je získat odhad spektra původního signálu pomocí spektra zašuměného signálu odečtením odhadu spektra šumu. Spektrální odečítání lze popsat následující rovnicí

                                                                                          (3)

Kde  je odhad spektra původního signálu,  odpovídá spektru zašuměného signálu a  je časově zprůměrovaný odhad spektra šumu. Pro amplitudové spektrální odečítaní má exponent b hodnotu 1, pro výkonové spektrální odečítání platí b = 2. Parametr alfa určuje množství šumu odečítané od zašuměného signálu. Spektrum šumu je získáváno ze segmentů signálu, kde není přítomna řeč.  Časově zprůměrované spektrum šumu je pak získáváno pomocí blokového odhadu (rovnice 4) nebo jako výstup dolní propusti prvního řádu (rovnice 5). Typická hodnota koeficientu tohoto filtru je mezi 0,7 a 0,95.

                                                                                                   (4)

                                                                       (5)

Vzhledem k určité variaci spektra šumu, systém spektrálního odečítání vytváří záporné odhady výkonového případně amplitudového spektra původního signálu. Tyto odhady je proto nutné dále zpracovat pomocí určité nelineární funkce. Toto je naznačeno vzorcem 6.

                                                             (6)

Hlavním problémem spektrálního odečítání je zkreslení signálu, vzniklé následkem variace spektra šumu. Výhodou je pak relativní výpočetní nenáročnost tohoto algoritmu.

Redukce vlivu šumu úpravou parametrů HMM modelů

Nevýhodou metod předzpracování zašuměného signálu (viz. spektrální odečítání) obecně je, že kritická část informace může být ze signálu odstraněna během předzpracování. Alternativou k předzpracování řečového signálu je adaptace parametrů HMM modelů tak, aby zahrnuly statistické parametry šumu a zašuměný signál zůstal nezměněn. Záměrem je získat takové HMM modely, které by vznikly, pokud by byly trénovány na zašuměné řeči stejných parametrů jako při rozpoznávání.

Šum ovlivňuje jak pravděpodobnost přechodů mezi jednotlivými stavy, tak i hustoty pravděpodobnosti pozorovaného vektoru v daných stavech. Vliv šumu na hustoty pravděpodobnosti pozorovaného vektoru v daných stavech se zpravidla považuje za více významný než jeho vliv na pravděpodobnosti přechodů. Ty však jsou samozřejmě také ovlivněny přes již zmíněný Lombardův vliv.  Adaptace HMM modelů, která zde bude popsána, zahrnuje pouze vliv šumu na hustoty pravděpodobnosti pozorovaného vektoru v daných stavech, pravděpodobnosti přechodů mezi stavy jsou ponechány beze změny.

Způsob adaptace statistických parametrů HMM modelů závisí na zvolené reprezentaci řečového signálu, tzn. jestli je daný segment řeči charakterizován jeho spektrem, AR predikčními koeficienty, kepstrálními koeficienty, MEL kepstrálními koeficienty apd. Jak již bylo řečeno, způsob reprezentace řeči závisí na použitém typu kódování.

Pro lineární reprezentaci řeči (např. výkonové spektrum) a aditivní šum jsou statistické parametry zašuměného signálu dány součtem statistických parametrů řeči a šumu. Při kepstrální reprezentaci řeči je adaptace modelů ovlivněna nelineární logaritmickou transformací ze spektrální oblasti do oblasti kepstrální.

Autoři Gales a Young navrhli metodu kombinace modelů (model combination), kde je přizpůsobený HMM model získáván pomocí parametrů HMM modelu čisté řeči a parametrů HMM modelu šumu. Obr. 3 schematicky znázorňuje takto provedenou adaptaci HMM modelů.

 

 

 

 

 

 

 

 

 

 

 


Obrázek 3: Blokové schéma adaptace HMM modelů

 

 

Hustoty pravděpodobnosti pro pozorovaný vektor x v daných stavech u HMM modelů v kepstrální oblasti jsou převedeny do logaritmické spektrální oblasti pomocí diskrétní kosínové transformace (DCT). Parametry jsou pak dále transformovány z logaritmické do lineární spektrální oblasti. Zde probíhá adaptace, která upravuje střední hodnoty a variance modelu využívající parametrů modelu šumu a řeči. Po této adaptaci je model konvertován zpět do kepstrální oblasti.

V lineární spektrální oblasti je přizpůsobení středních hodnot a variancí dáno následujícími vztahy

                                                                                                     (7)

                                                                                               (8)

kde  , ,  jsou střední hodnoty a variance spektra čistého signálu, šumu a zašuměného signálu. Index i označuje dané frekvenční pásmo, označuje kovarianci i-tého a j-tého frekvenčního pásma.

Pokud je splněn předpoklad, že kepstrální reprezentace řeči (kepstrální vektory) mají Gaussovo rozložení pravděpodobnosti, potom logaritmická spektrální reprezentace, získaná inverzní kosínovou transformací, bude mít také Gaussovo rozložení.

Z exponenciální transformace z kepstrální do spektrální oblasti vyplývá, že lineární výkonové spektrální proměnné budou mít logaritmicko-normální rozložení. Pro převedení středních hodnot a variancí z normálního na logaritmicko-normální rozložení lze použít následující vztahy

                                                                                         (9)

                                                                         (10)

kde  je střední hodnota logaritmu spektra v i-tém frekvenčním pásmu a  je kovariance mezi i-tým a j-tým frekvenčním pásmem. Index l značí logaritmickou proměnnou. Pro zpětné převedení z logaritmicko-normálního rozložení do normálního slouží vztahy 11 a 12.

                                                                       (11)

                                                             (12)

K převedení parametrů z logaritmické spektrální oblasti do kepstrální je užito diskrétní kosínové transformace.

Shrnutí

Cílem  této práce bylo shrnout možné způsoby redukce vlivu šumu na rozpoznávání řeči pomocí HMM. Vzhledem k intenzivnímu výzkumu probíhajícímu v této oblasti v posledních letech je nutné brát tuto práci pouze jako informativní přehled s dvěma užitečnými příklady (předzpracování řečového signálu a modifikace modelů řečového signálu).

Literatura

[1]       B.P. Milner, S.V. Vaseghi: ‘Comparison of some noise-compensation methods for speech recognition in adverse environments’, IEE Proc.-Vis. Image Signal Process., Vol. 141, No. 5, October 1994

[2]       Young, S. J., HTK: ‘Reference and User Manual’,Cambridge University Engineering Dept., Speech Group, August, 1991