Tento dokument vcetne vsech odkazu pouziva kodovani ISO 8856-2 (Latin-2)

Algoritmy zpracování signálů

Témata semestrálních prací v letním semestru 2006/2007


Možné varianty semestrálního projektu:

Skupina A - projekt podle zadání z uvedeného seznamu
Skupina B - Individuální zadání (po dohodě s cvičícím)

Způsob zpracování:


Skupina A

  1. Koherenční analýza vícekanálových řečových signálů
    • Určete odhad koherence následujících řečových signálů snímaných ve více kanálech:
      Signály: 2channels-set-1.zip - 2 kanály,
      rec1.wav - 4 kanály - pracovat s libovolnými kombinace,
    • Určete průměrné dlouhodobé koherence mezi signály dostupných kanálů (včetně konfidenčních intervalů).
    • Určete krátkodobé odhady koherence daných signálů a jejich časový vývoj (kohergram).
    • Sledujte časový vývoj koherence průměrované přes kmitočtovou osu.

  2. Robustnost Burgova algoritmu výpočtu parametrů AR modelu
    • Srovnejte robustnost Burgova algoritmu výpočtu parametrů AR modelu se standardním algoritmem na bázi Yuleových-Walkerových rovnic.
    • Určete parametry AR modelu signálu vm0.bin (fs = 16 kHz, bez hlavičky, 16-bit PCM) oběma metodami.
    • Sledujte rozdíly ve LPC spektru resp. v rozložení pólů syntetizujícího filtru.
    • Kvantifikujte rozdíly v rozložení pólů syntetizujícího filtru mezi oběma metodami.
    • Sledujte vliv různé úrovně šumu pozadí na výsledky modelování, sledujte opět rozdíly v LPC spektru a kvantifikujte rozdíly v rozložení pólů syntetizujícího filtru mezi modelem zašuměného a čistého signálu (viz bod a). SNR volte 0 dB, 5dB, 10 dB, 20 dB.
    • Předcházející bod opakujte pro barevné šumy :
      nc1.bin - (neznámý šum) fs = 16 kHz, bez hlavičky, 16-bit PCM
      nc2.bin - (neznámý šum) fs = 16 kHz, bez hlavičky, 16-bit PCM
      nc3.bin - (neznámý šum) fs = 16 kHz, bez hlavičky, 16-bit PCM

  3. AR model za přítomnosti šumu.
    • Proveďte spektrální analýzu pomocí LPC signálu obsahující jednu nebo dvě sinusovky v bílém šumu pro různá SNR (10 0 -10 dB).
      a) jedna sinusovka : fs=8000 Hz, f=1400 Hz
      a) dvě sinusovky : fs=8000 Hz, f1=1400 Hz, f2=1900 Hz
    • Sledujte vliv volby řádu AR modelu.
    • Podobné výsledky sledujte rovněž pro barevný šum pozadí (šířka pásma překrývající resp. nepřekrývající analyzované sinusovky)

  4. AR modelování EEG signálu.
    • Zvažte možnosti modelování EEG pomocí AR modelu (autokorelační metoda).
    • Určete optimální řád modelu pomocí zvoleného kritéria.
    • Vygenerujte umělý EEG signál na základě určeného modelu a srovnejte s původním signálem.

  5. Potlačování šumu pomocí DCT.
    • Použijte DCT pro potlačování stacionárního šumu v nestacionárním signálu. Implementujte v MATLABu základní algoritmus podle [1]. Odhad šumu realizujte z počátečního úseku bez užitečného signálu.
    • Kvantifikujte úroveň potlačení šumu pomocí SNR kritérií. Analyzujte úroveň potlačení pro vstupní SNR 0dB, 5dB, 10dB, 20dB.
    • Srovnejte výsledky se potlačováním šumu na bázi standardního spektrálním odečítáním pomocí DFT.
    • Diskutujte zejména:
      - dosaženou úroveň potlačení šumu při použití DFT a DCT,
      - významné rozdíly ve vlastnostnech DFT a DCT a jejich důsledky pro algoritmus potlačování šumu,
    • Pro experimentální část použijte následující signály:
      - SA106992.CS0, SA107992.CS0, SA110992.CS0, SA114992.CS0 - fs = 16 kHz, bez hlavičky, 16-bit PCM
      - Uvažujte 4 různé typy rušení : bílý šum a 3 neznámé barevné šumy nc1.bin,nc2.bin,nc3.bin - binární data bez hlavičky, 16-bit PCM
    [1] Soon et al. Noisy Speech Enahncement Using discrete Cosine Transform. In Speech Communication 1998.

  6. Potlačování šumu pomocí modifikované Wienerovy filtrace.
    • Použijte modifikovanou adaptivní Wienerovu filtraci pro potlačování stacionárního šumu v nestacionárním signálu. Přenosovou funkci Wienerova filtru stanovte na bázi LPC spekter. Odhad šumu realizujte z počátečního úseku bez užitečného signálu.
    • Sledujte úroveň potlačení pro vstupní SNR 0dB, 5dB, 10dB, 20dB.
    • Srovnejte výsledky se potlačováním šumu na bázi standardního spektrálním odečítáním pomocí DFT a zaměřte se na rozdíly ve zkreslení a úrovni hudebních zvuků ve výstupním signálu.
    • Demonstrujte ilustrativní ukázkové poslechy.
    • Pro experimentální část použijte signály ze zadání předcházející úlohy.

  7. Harmonické modelování signálů.
    • Proveďte rozklad signálu do harmonických komponent (řeč, hudba).
    • Syntetizujte signál pomocí harmonických komponent.
    • Kvantifikujte rozdíly v signálech pomocí SNR kritérií.

  8. Energetický detektor na bázi mel-spektra.
    • Implementujte banku Zwikerových filtrů s nelineární frekvenční osou v kmitočtové oblasti (mel-kepstrum).
    • Určete časový vývoj výkonu v jednotlivých pásmech.
    • Realizujte detektor řečové aktivity s adaptivním prahem nezávisle pro každé pásmo.
    • Srovnejte výsledky v jednotlivých pásmech a určete algoritmus detekce řeči pomocí kombinace dílčích výsledků v jednotlivých pásmech.
    • Opakujte postup s bankou filtrů se stejným počtem pásem avšak s lineární kmitočtovou stupnicí.

  9. PLP-kepstrální detektor
    • Určete kepstrální koeficienty na základě kosinové transformace výkonového spektra na výstupu PLP-banky filtrů (Barkova nelineneární frekvenční stupnice).
    • PLP-kepstrální koeficienty použijte pro integrální detektor řeči.
    • Proveďte poslechové testy pomocí vyklíčování detekované řeči.

  10. Vokodér s transversální strukturou syntetizujícího filtru.
    • Proveďte zakódování řečového signálu po segmentech s nulovým překryvem, tj. určete autoregresní koeficienty, výkon chyby predikce a základní periodu řeči (znělost/neznělost).
    • Proveďte zpětnou syntézu řečového signálu.
    • Diskutujte možnosti zvýšení kvality syntetizovaného signálu.


Skupina B - Individuální zadání

  1. Individuální zadání dle vlastního výběru.
    • Vhodné zejména pro diplomanty nebo bakaláře pracující na výzkumných úkolech katedry.
    • Možná jsou i další zadání z jiných aplikačních oblastí.
    • V případě zájmu kontaktujte cvičícího.

  2. Odhad formantů řečového signálu na bázi LPC
    • Navrhněte metodu odhadu formantů řečového signálu na bázi AR modelu.
    • Implementujte průběžný odhad pro delší promluvu
    • Sledujte přesnost detekce ve spektrogramu signálu na bázi DFT.
      [Grill, Zavadil]

  3. Detektor řečové aktivity používaný v telekomunikačních standardech
    • Implementujte algoritmus detekce řeči dle doporučení ITU-T G.729B.
    • Popište významné bloky uvedeného algoritmu.
    • Analyzujte spolehlivost detekce pomocí vhodných kritérií.
      [Jonáš]

  4. Spektrální odečítání s odhadem šumu ze spektrálních minim
    • Implementujte algoritmus spetrálního odečítání s odhadem šumu na bázi spektrálních minim.
    • Srovnejte se standardním spektrálním odečítáním s jednocestným či dvoucestným usměrněním (předvěďte ilustrativní poslechy).
    • Otestujte dosažitelné zlepšení SNR na vybrané množině simulovaných dat.
      [Sandr]

  5. Vokodér s křížovou strukturou syntetizujícího filtru v prostředí s rušivým pozadím
    • Proveďte zakódování řečového signálu po segmentech s nulovým překryvem, tj. určete koeficienty odrazu AR modelu, výkon chyby predikce a základní periodu řeči (znělost/neznělost).
    • Proveďte zpětnou syntézu řečového signálu s křížovou strukturou syntetizujícího filtru.
    • Analyzujte vliv aditivního rušení na kvalitu kódovaného signálu.
    • Implementujte potlačení aditivního šumu pomocí spektrálního odečítání před zakódováním řečového signálu.
    • Analyzujte kvalitu kódovaného signálu s odstraněným aditivním rušením.
      [Svárovský]

  6. Robustnost různých krátkodobých charakteristik řečového signálu na aditivní rušení.
    • Proveďte výpočet následujících krátkodobých charekteristik řečového signálu (tj. po jednotlivých segmetnech):
      • autoregresní koeficienty AR modelu autokorelační metodou
      • koeficienty odrazu AR modelu (opět autokorelační metodou)
      • prvních 20 koeficientů reálného kepstra
      • 16 LPC kepstrálních koeficientů
      • Výstupu banky filtrů s lineárním rozdělením frekvenční osy do 22 pásem
      • Výstupu trojúhelníkové banky filtrů s nelinární mel-frekvenční osou (22 pásem s 50% překryvem).
    • Sledujte robustnost všech výše uvedených charakteristik vůči aditivnímu rušení s odstupem (0 dB, 5 dB a 10 dB).
    • Pro experimentální část použijte následující signály:
      - SA106992.CS0, SA107992.CS0, SA110992.CS0, SA114992.CS0 - fs = 16 kHz, bez hlavičky, 16-bit PCM
      - Uvažujte 4 různé typy rušení : bílý šum a 3 neznámé barevné šumy nc1.bin,nc2.bin,nc3.bin - binární data bez hlavičky, 16-bit PCM
    • Analyzujte Euklidovskou vzdálenost výše uvedených charakteristik mezi čistým řečovým signálem a signálem s aditivním šumem.
      [Pospíšil]