Detekce znělých úseků řeči

ÚVOD MOŽNÁ  ŘEŠENÍ POUŽITÉ  METODY ODOLNOST  PROTI  ŠUMU LITERATURA



ÚVOD

        Zdrojem řečových kmitů, které reprezentují lidskou řeč, je hlasové ústrojí. To se skládá z hlasivek, dutiny hrdelní , ústní a nosní, patra, zubů a jazyka. Zdroj hlasové energie je tvořen plícemi a s nimi souvisejícím svalstvem. Zdrojem znělých zvuků jsou kmitající hlasivky, které jsou umístěny v horní části hrtanu. Pokud člověk mlčí, je štěrbina mezi hlasivkami odkrytá a vzduch, potřebný k dýchání jimi může volně procházet. Při vytváření jednotlivých řečových zvuků se hlasivky svírají a roztahují. Pod tlakem vzduchu začínají hlasivky kmitat. Frekvence kmitů závisí jednak na tlaku vzduchu a jednak na svalovém napětí hlasivek. Tato frekvence je u každého člověka jiná a obvykle se pohybuje v rozmezí 150 až 400 Hz. Frekvence F0 charakterizuje základní tón lidského hlasu, přítomný ve všech znělých partiích promluvy (tedy samohlásek a části souhlásek).

        Informace o znělosti patří mezi základní prvky analýzy a syntézy řečových signálů. Rozlišení znělých a neznělých úseků je důležité například pro systémy efektivního přenosu řeči, kdy se místo samotného signálu přenáší jen jeho parametry (tzv. vokodéry). S problémem detekce znělosti úzce souvisí i určení délky základní periody (pitch period). Ta má zásadní důležitost pro volbu délky úseků signálu při segmentaci. Pokud je segmentace prováděna synchroně s pitch periodou, lze při analýze dosáhnout lepších výsledků než s konstantní délkou okénka.


METODY POUŽÍVANÉ PRO DETEKCI ZNĚLOSTI

        Pro svoji relativní jednoduchost se často používají základní krátkodobé charakteristiky signálu. Nejčastěji to jsou:
            - krátkodobá energie,
            - krátkodobý výkon,
            - krátkodobá intenzita,
            - krátkodobá funkce průchodu signálu nulou,
            - krátkodobá autokolerační funkce.

Krátkodobá energie je definována jako

,
        kde x(k) je vzorek signálu v čase k a w(k) je příslušné okénko (typicky Hammingovo, případně pravoúhlé). Funkce pro každý segment udává průměrnou energii v něm obsaženou (obecně platí, že znělé úseky se vyznačují velkou energií). Tato metoda je značně citlivá na velké změny úrovně signálu, což je druhou mocninou ještě zvětšeno. Proto je možno místo krátkodobé energie sledovat krátkodobou intezitu :
        Obě tyto metody lze použít i k detekci řeč/pauza.

Krátkodobá funkce středního počtu průchodu signálu nulou

        Na rozdíl od předchozích charakteristik, zaměřených na sledování amplitudy signálu, poskytuje krátkodobá funkce středního počtu průchodu signálu nulou informaci o frekvenčních vlastnostech signálu. Při frekvenci signálu f je průměrný počet průchodů nulou 2f[průchodů/vteřinu]. Takto jednoduchý vztah samozřejmě pro signál složený, kterým řeč je, zcela neplatí, přesto je možno tuto charakteristiku pro účely detekce zvažovat.

        Krátkodobá funkce středního počtu průchodu signálu nulou je definována vztahem :

,
            kde sgn(x(k)) je znaménková funkce definovaná jako
 
sgn(x(k))   =
 
 1 ,   pro   s(k) >= 0
 
-1 ,   pro   s(k) < 0
            a w(n) je okno použité při segmentaci.

Krátkodobá autokorelační funkce

        Krátkodobá autokorelační funkce je definována jako :

,
        Vlastnosti autokorelační funkce jí umožňují používat pro detekci periodicity signálu. Při aplikaci na periodický signál je možno v autokorelační funkci pozorovat opakující se špičky. Proto ji lze použít i k určení základního tónu F0. 
obsah

Kepstrální analýza

        Vzhledem k výše popsanému procesu tvorby řeči (konvoluce budícího signálu s impulsní odezvou hlasového ústrojí), je možno se na detekci znělosti a určení základního tónu dívat jako na problém rozkladu signálu na jednotlivé složky. Takovou úlohu je možno řešit pomocí kepstrální analýzy. Její princip je na obrázku. Na segment vstupního signálu je aplikována DFT a absolutní hodnota vzniklého výstupu je zlogaritmována. Tím získáme sumu logaritmů Fourierovy transformace buzení a a impulsní odezvy hlasového ústrojí. Pro získání kepstra je na tento signál aplikována zpětná Fourierova transformace. K vydělení požadované části (v tomto případě buzení) použijeme kepstrálního okénka l(n):

 
   l(n)   =
 
 1 ,   pro   |n| < n0
 
 0 ,   pro   |n| >= n0   ,
            kde n0 je voleno s ohledem na možnou velikost pitch periody.
 
obsah

MĚŘENÍ ZÁKLADNÍHO TÓNU

        Tato úloha je komplikována tím, že současně se základním tónem je ve spektru signálu přítomna i řada formantových frekvencí. Vzhledem ke značnému rozsahu frekvencí, kterých může základní tón nabývat, není ho možné oddělit od formantů například prostou filtrací. Takový přístup by nevedl ke spolehlivým výsledkům. Jako vhodné se jeví metody založené na autokorelační funkci a na výpočtu kepstra.

        Přítomnost základního tónu v daném segmentu je zjistitelná z existence výrazných spiček v průběhu obou funkcí. Vzhledem k tomu, že jsou přítomny i další významné špičky, odpovídající formantovým kmitočtům, je třeba detekci provádět pouze na té části funkčního průběhu, kde se dá přítomnost základního tónu očekávat. 

obsah

POUŽITÉ METODY
 

Krátkodobá energie

        Výhodou tohoto přístupu je značná jednoduchost a malé výpočetní nároky. Pro spolehlivé určení znělosti je třeba ještě výpočtu energie předřadit jednoduchý filtr (dolní propust). Ten zabrání tomu, aby se jako znělé detekovaly neznělé úseky s velkou energií na vysokých kmitočtech, jako jsou některé úžinové souhlásky (například š). S rostoucím šumem se rozdíl v energetickém obsahu znělých a neznělých úseků snižuje a detekce se stává méně spolehlivou.

Autokorelační funkce

        Kromě běžného výpočtu autokorelační funkce (AFC) byla zkoušena i varianta, kdy se AFC aplikovala na signál z amplitudového omezovače a na chybový signál LPC. Především tento přístup vypadal velice slibně, už proto, že v takovém signálu není obsažena informace o formantových kmitočtech. Při zvyšování úrovně šumu však spolehlivost detekce rychle klesala. Z hlediska odolnosti vůči šumu se tak jako nejlepší jeví "obyčejná" AFC, aplikovaná přímo na segment signálu.

Kepstrální analýza

        Metoda dává dobré výsledky pro malé úrovně šumu, pro zlepšení odolnosti proti šumu se provádí úprava ve frekvenční oblasti popsaná v [2], kdy se nulují záporné špičky ve spektru a části odpovídající vyšším frekvencím.

 
obsah

ODOLNOST PROTI ŠUMU

         Srovnávat výsledky u různých metod není snadné. Důvod je jednoduchý, "stoprocentní" určení hranice znělých a neznělých úseků řeči je prakticky nemožné a vždy se bude jednat o jistý kompromis. Pro ohodnocení jednotlivých metod byl proto zvolen následující přístup.
         Jako referenční údaj byl vzat výsledek autokorelační metody, aplikované na čistý, nezašuměný signál. Každá metoda zpracovala sto realizací zašuměného signálu pro jednu hodnotu globálního SNR. V každé realizaci se zjistil počet chybně klasifikovaných segmentů a spočetla se průměrná chybovost metody pro daný poměr SNR. Výsledek není zcela přesný, ale vypovídá o použitelnosti jednotlivých metod. Obdržené výsledky se (co se pořadí algoritmů týče) shodují s pozorováním "od oka". Metoda používající krátkodobou energii dává spolehlivé výsledky při odstupu signálu od šumu do 10dB, kepstrální analýza přibližně do 5dB a nejspolehlivější metoda s autokorelační funkcí až do -3 dB. Jako signály byly použity izolovaná slova (základní číslovky) od jednoho mluvčího, šum byl modelován bílým šumem.
 

Krátkodobá energie

- čistý signál, je dobře patrný  rozdíl energií ve 
znělých a neznělých úsecích.
 
 
 
 
 

Kepstrální analýza 

-středně zašuměný signál.

Slabá čára ve 
spektrogramu značí velikost základního 
tónu F0.

Autokorelační funkce

- silně zašuměný signál, přesto je detekce stále dobrá. 
V neznělých 
částech jsou hodnoty AFC minimální.

Slabá čára ve 
spektrogramu značí velikost základního 
tónu F0.

         Jak je vidět, nejlépe si se šumem poradí autokorelační metoda, následovaná kepstrální analýzou. Pro použití krátkodobé energie pak hovoří její jednoduchost a dobré výsledky pro méně zašuměné signály.
 

obsah

LITERATURA

[1] Psutka Josef : Komumikace s počítačem lidskou řečí. Academia, Praha 1995
[2] ICASSP 95 CDROM, Causal Productions Pty Ltd., 1995


Tento text vznikl jako semestrální práce z předmětu ASI na katedře teorie obvodů ČVUT. Poslední úprava 21.5.2000

Petr Prášek: xprasek@feld.cvut.cz