Uživatel:Cinklond

Z HPM wiki
Přejít na: navigace, hledání

Obsah

Semestrální práce: Dolby Digital versus DTS

Dolby Digital

Dolby digital logo.png

Dolby digital je kódovací systém, který je založen na základních principech lidského sluchu. Jeho vývoj začal v roce 1987 a byl původně určen jako vícekanálový audio kodek pro 35 mm kinofilm. Později byl tento systém implementován i do jiných technologií, jako jsou např. digitální televize, digitální satelit, DVD-Video, DVD-Audio i internetové audio distribuce.

Dolby Digital rozděluje audio spektrum do úzkých frekvenčních pásem. Používá při tom matematické modely odvozené z charakteristik lidského ucha. Zvlášť analyzuje každé pásmo k vyhodnocení slyšitelnosti audio signálů. Velký počet bitů reprezentuje více slyšitelné signály, méně bitů reprezentuje méně slyšitelný signál. Tímto dosahuje Dolby Digital menšího počtu dat a zvyšuje tak svoji efektivnost. Další věcí, která umožní efektivní kódování signálu je tzv. maskování. To využívá faktu, že lidské ucho je méně citlivé na signály s nízkou hlasitostí pokud jsou v signálu přítomny signály s vyšší hlasitostí při podobné frekvenci. Při tomto jevu tedy signál s vyšší hlasitostí maskuje signál s nižší hlasitostí. Tyto poznatky umožňují zakódování audio signálu do mnohem méně objemných souborů než např. při využití lineární pulzně kódové modulace.

Dolby Digital není jenom systém pro kódování audia. Také umožňuje jak vývojáři, tak posluchači ovlivňovat celkový reprodukovaný výsledek. Vývojář poskytuje s produktem vícekanálový zvuk i s kontrolními parametry. Těmito parametry můžeme ovlivňovat např. hlasitost přehrávání, dynamický rozsah , nastavení komprese i to, jak bude výsledný produkt znít při smíchání do sterea. Můžeme tak snadno přenastavit parametry, které nejsou nastaveny správně.

Možnosti Dolby Digital Dekodérů

Funkce Dolby Digital

Sestava pro kódování

Existuje spousta způsobů, kterými můžeme kódovat signál pomocí Dolby Digital. Propojení jednotlivých zařízení záleží na typu použitého kodéru a dalšího HW. Základními prvky pro Dolby Digital kódování jsou:

Základní kódovací sestava

Algoritmy používané při kódování

AC-3 je vysoce kvalitní audio kodér. Kóduje více kanálů jako jeden a tím tak dosahuje menšího objemu dat než soubor ekvivalentních jednokanálových kodérů. AC-3 algoritmy jsou nezávislé na počtu kódovaných kanálů, ale současné standardy SMPTE (Society of Motion Picture and Television Engineers) jsou určeny pro systémy 5.1 (5 celopásmových kanálů: levý, pravý, středový, pravý efektový a levý efektový kanál; jeden nízkofrekvenční subwoofer kanál). Přenos signálů se uskutečňuje při rychlosti 320 kbps.

Principy percepčního kódování

Hlavním smyslem kódování je zmenšení objemu dat, které slouží k transportu vícekanálového číslicového zvukového signálu. K tomuto účelu se používá kompresního algoritmu zvaného AC-3. Tento audio kodér používá ztrátovou kompresi. Musí být tedy zajištěno, aby všechna ztracená informace při kódovaní nebyla lidským sluchem postřehnutelná.  Lidské ucho je citlivý orgán, přesto ale není dokonalé a má své limity. Při kódování se využívá tzv. prahu slyšitelnosti lidského ucha. Ucho není rovnoměrně citlivé při všech frekvencích. Umíme detekovat tiché signály při 2 kHz-4 kHz, ale při nízkoúrovňových signálech na velmi vysokých či velmi nízkých frekvencích  je ucho málo citlivé. Tento jev se vyskytuje skrz celý slyšitelný dynamický rozsah včetně prahu slyšení. Absolutní práh slyšení je funkcí frekvence a zvuky pod tímto prahem nejsou postřehnutelné lidským uchem.

Práh slyšení

Další jev, který se při kódování využívá, je maskování. Frekvenční maskování je jev, který se objeví, když dva rozdílné signály mají velmi podobné frekvence. Pokud je jeden signál mnohem hlasitější než druhý, tak slabší signál nemusí být vůbec postřehnutelný. Silnější signál tedy maskuje všechny slabší signály, které jsou na podobné frekvenci. 

Frekvenční maskování

Percepční kódování tedy využívá těchto a jiných nedokonalostí lidského ucha a odstraňuje tak neslyšitelnou informaci z původního signálu. Predikuje reakci ucha na komplexní signál a odstraňuje značnou část nadbytečné informace. Ve výsledku má tedy kódovaný signál menší objem dat při zachování dostatečné kvality. Kvantizační šum se vyskytuje až pod maskovací křivkou, jak je vidět na obrázku. Díky tomuto je kvalita výsledného signálu stále vysoká i po kódování.

Kvantizační šum

AC-3 kodér

AC-3 je je kodér s blokovou strukturou. Jeden či více bloků (typicky 512 vzorků na blok) z každého kanálu jsou tedy skladovány ve vyrovnávací paměti před vlastním zpracováním.

Vstupní signály jsou filtrovány horní propustí (okolo 3Hz) za účelem odstranění stejnosměrné složky. Signál subwooferu je filtrován dolní propustí (okolo 120 Hz).

Filtrovaný signál s plnou šířkou pásma je analyzován vysokofrekvenční pásmovým filtrem. Takto jsou detekované tzv. přechody (transients). Tahle informace se použije k přizpůsobení velikosti bloku TDAC [1] (time domain alias cancellation) banky filtrů.

Všechny vstupní kanály jsou samostatně rozděleny do tzv. oken (windows) a filtrovány pomocí banky filtrů založené na TDAC. TDAC transformace je v podstatě upravená FFT [2] (Fast Fourier transform). Tento proces se vyznačuje nízkou výpočetní složistí, dobrou frekvenční selektivitou. Harwarová implementace je výhodná z hlediska nízkých nákladů.

Další zpracovávání se převážně odehrává na 5.1 kanálovém systému složeného z TDAC koeficientů, které se vyskytují už jako jeden celek. (Pouze prvních pár koeficientů subwooferu vypočítaných z transformace je přenášeno napřed.) Nakonec jsou signály zpět dekódovány pomocí TDAC inverzní banky filtrů. Banky filtrů jsou vzorkovány kriticky, jsou tedy bezeztrátové. Pokud se při kódování nepřidá nebo naopak neubere slyšitelná informace, dekódovaný výstup budu znít stejně jako kódovaný vstup.

Koeficienty AC-3 TDAC transformace jsou převedeny na čísla s plovouví desetinnou čárkou. Rozdělení koeficientů na tzv. mantisu a exponent. Velikost mantisy je v rozsahu 0.5-1.0. To zajistí, že postupné zpracovávání signálu nebude limitovat dynamický rozsah. AC-3 má 18-22 bitové A/D a D/A převodníky. Plovoucí desetinná čárka slouží také pro logaritmické výpočetní procesy, např. alokaci bitů.

Průměrný nárok na počet přenesených bitů za sekundu u více kanálů je skoro úměrný druhé odmocnině počtu kanálů. Pokud tedy potřebujeme 128 kbps k zakódování jednoho kanálu, v průměru potřebujeme na 5.1 kanálový systém 289 kbps. AC-3 používá minimálně 320 kbps.Z tohoto vyplývá, že většina multikanálových signálů může být zakódována technikou zvanou globální alokace bitů. Pro náročnější signály se používá technika selektivní prekombinace.

Tato technika eliminuje redundantní vysokofrekvenční informaci. AC-3 separuje vysokofrekvenční signály do obálek a nosných částí a kóduje informace z obálek s větší přesností. Kódovaná nosná informace rozšiřuje pole s mantisou a exponentem, zatímco informace z obálky je přenášená jako pole spojitých koeficientů. Tímto zachováme převážně prostorové zvukové vlastnosti.

AC-3 alokátor analyzuje TDAC koeficienty s ohledem na jejich maskovací efekt a vztah k prahu slyšitelnosti. Spočítá potom počet bitů potřebných ke kódování každé mantisy. Výpočet se provádí globálně na celém systému 5.1 jako na celku. Je možné i maskování mezi kanály, ovšem schopnost signálu jednoho kanálu maskovat signál v jiném kanálu je značně limitovaná a při každé změně pozice posluchače se liší. Kodér i dekodér provádějí v podstatě stejnou alokaci bitů, vycházejí z TDAC informace v exponentu. Proces dekódování je ale usnaděn tím, že kodér může výsledky alokace bitů poskytnout přímo dekodéru a značně mu tak usnadnit práci.

Výsledky bitové alokace jsou použity ke kvantizaci dat z TDAC mantisy. Neposílá se tedy 'n' nejvíce důležitých bitů určité hodnoty, ale hodnoty jsou zkalibrovány (zarovnána na symetrickou kvantizační hladinu) a tím je minimalizováno zkreslení a usnadněno použití ditheru. V dekodéru je k obnově správné hodnoty mantisy použito dalších výpočtů. Určité bity signalizují, zda je použito ditheru a poskytnou synchronizační informace, dekodér tedy může data správně dekódovat.

Všechny výše popsané procesy konvertují každý ze šesti signálů. Ty jsou potom přeneseny jako: série polí a skalárních čísel (obsahující TDAC exponenty a kvantizované mantisy), informaci o alokaci bitů, spojité koeficienty a informaci o ditheru. Na závěr procesu kódování jsou tato data zabalena do jednoho bloku spolu s informací o synchronizaci, hlavičkou a kódem pro detekci chyb.

DD kodér


AC-3 dekodér

Stejně jako kodér, je dekodér blokově strukturován a to mu umožňuje navázat synchronní spojení s příchozími daty. Nashromáždí tedy celý blok ve vyrovnávací paměti ještě před vlastním zpracováváním.

Všechna vstupní data jsou zkontrolována. Pokud je detekována neopravitelná chyba, dekodér použije data z posledního bezchybného bloku k opravě. Při výskytu více chyb je možno použít správný blok i vícekrát. Pokud je chyb ale více a dekódovaný signál by neodpovídal originálnímu signálu, dekodér chybný signál ztlumí nebo (například při hudbě k filmu) se musí vrátit k použití analogového signálu.

Rozbalování dat se provádí ve dvou fázích. V první se rozbalí data obsahující exponenty, spojité koeficienty a informace od ditheru. Relevantní části techto dat jsou použity k obnově alokace bitů dekodérem. Potom jsou rozbalovány TDAC pole mantis.

Probíhá obdobně jako kódování alokace bitů. Tento proces je ovšem urychlen tím, že kodér již výsledky alokace dekodéru postupně v mezikrocích předával. Tohle také umožňuje dekodéru počítat alokaci bitů jeden kanál po druhém, dekodér tudíž nemá žádné paměťové požadavky. Bitová alokace u dekodéru se musí přesně shodovat s alokací u kodéru, jinak se na výstupu může objevit chirp signál.

Bitová alokace, která specifikuje kvantizovanou velikost každé mantisy je použita k rozbalení proměnných dat ze zakódovaného signálu.

Mantisa a exponent jsou spojeny aby byla umožněna rekonstrukce pevných bodů TDAC koeficientů. Tohle slouží jako příprava na inverzní TDAC. Pokud je použit dither, je v tomto kroku odečten

Vysokofrekvenční koeficienty, které byly zakódovány jako nosné a obálky jsou obnoveny kombinací nosných s korespondujícími spojovacími koeficienty.

Všechny koeficienty TDAC transformace jsou inverzní TDAC transformací vráceny zpět do časové oblasti. Je tedy vytvořen digitální výstupní audio signál. Koeficienty subwooferu jsou před transformací ve středních a vysokých frekvencích doplněny nulami, takže výstup subwooferu je při plném vzorkovacím kmitočtu.

DD dekodér

DTS

Dts.png

Konkurentem formátu Dolby Digital je DTS. Jeho vývoj začal v roce 1991. Byl vytvořen jak pro potřeby studií, tak pro potřeby domácích kin. Cílem bylo vytvořit reprodukční techologii, která by zvuk reprodukovala tak dobře, jako v profesionálním studiu. Tento kódovací systém je flexibilní, schopný zakódovat zvuk s více kanály. Umožňuje vzorkování až 192 kHz, bitovou hloubku do 24 bitů. Kompresní poměr je u DTS 3:1, datový tok kolem 650 kbps. Klíčem ke kvalitním zvuku je především vetší účinnost při nahrávání, která je realizována skrz moderní techniky digitálního zmenšení datového toku. Zvuk kódovaný pomocí lineární PCM je jednoduše překódován pomocí složitější kódovací techniky. Ve výsledku potom máme signál, který má menší datový tok. Díky nahrazení lineárního PCM kódování DTS výrazně zlepšuje kvalitu reprodukovaného zvuku u koncových uživatelů.

Porovnání CD-audio a DTS
datový tok bitová hloubka vzorkovací kmitočet
CD-audio 705.6 kbit/kanál 16 bitů 44.1 kHz-
DTS 705.6 kbit/kanál 24 bitů 192 kHz

DTS kodér

V první fázi procesu kódování rozdělí banka filtrů každý kanál na jednotlivá subpásma. To nám umožní pozdější vyřazení neslyšitelné informace ze signálu. Každé subpásmo pořád obsahuje lineární PCM audio data, ale má omezenenou šířku pásma. Spektrum je obecně rozděleno do 32 subpásem. V každém pásmu se provode diferenciální kódování (ADPCM), které ze signálu odstraní objektivní redundance (např. krátkodobé periodicity,..). Spolu s tím se spouští psychoakustické a transientní analýzy na originálním PCM signálu. Tyto analýzy mají za úkol najít neslyšitelné informace, které ze signálu můžeme vypustit. Výsledky těchto analýz jsou použity k modifikování hlavního diferenciálního procesu, který se odehrává s každým signálem. Kombinace diferenciálního kódování s psychoakustickými modely je vysoce účinná metoda. Snižuje se při ní bitový tok. Pokud zvyšujeme bitový tok, závislost kódování na psychoakustickém modelu se snižuje, abychom zaručili vysokou věrnost výsledku.

Globální alokace bitů je zodpovědná za distribuci všech kódovaných bitů na celých subpásmech ve všech kanálech. Tato alokace překládá data do audio kvality, má zásadní význam ve všech kódovacích systémech. Pokud se nám zvyšuje bitový tok, flexibilita alokace je redukována.

Poslední fází kodéru je datový multiplexer. Dostává zakádovaná audio data z každého ADPCM procesu. Zabalí všechna data ze všech subpásem a ze všech kanálů. Opatří tato data a dodatečné informace podle speciálního algoritmu. V této fázi se také přidá synchronizační informace, která umožní dekodéru spolehlivě rozeznat bitový tok.

DTS kodér

DTS dekodér

DSP dekodér je jednoduchý a uzpůsobený na to, aby se mohl přizpůsobit změnám kódovacích algoritmů. Je to dáno tím, že všechny algoritmy jsou už vloženy v kodéru. Dekodér tak pouze jenom následuje instrukce generované kodérem. Díky tomu může být kódovací algoritmus modifikován a vylepšován, protože s těmito vylepšeními si dekodér poradí bez jakékoli jeho vlastní změny. Další předností dekodéru je to, že při tvorbě DTS byly v kódu ponechány prostory na další data, která mohou být přidaná v budoucnu. Tato data můžeme použít na vylepšení kvality zvuku nebo na změny zvukového formátu.

Dekodér provede nejdříve synchronizaci. Potom rozbalí zakódovaná data, detekuje chyby a případně je opraví. Dále demultiplexuje data do jednotlivých subpásem všech kanálů. V další fázi proběhne inverzní kvantizace subpásmových diferenciálních signálů na subpásmové PCM signály. To se děje podle instrukcí, které jsou přenášeny pro každé subpásmo. Poté jsou signály zpět filtrovány a zrekonstruovány do celopásmového PCM signálu.


DTS dekodér


Závěrečné porovnání

Výhody a nevýhody obou kodeků
Dolby Digital DTS
klady zápory klady zápory
dobrý zvuk pro filmy nepodporuje Audio CD skvělý zvuk pro filmy limitovaný DVD software
průmyslový standard Meridian Lossless Packing licencováno - nutnost koupě nového HW pro vícekanálový audio disk čistější a detailnější zvuk pro DTS software je v mnoha případech dražší než jeho DD protějšek
16-24 bitové kódování limitováno 48kHz vzorkováním 16-24 bitové kódování, 48/96 kHz vzorkování SW dostupný pouze pro 96/24 vzorkování
EX mód s přidaným předním středovým kanálem přední středový kanál je maticován, ne diskretizován ES mód s přidaným diskrétním předním kanálem málo SW dostupného pro tuto možnost
úrovně kanálů jsou velmi přesně přesunuty na výsledný disk občasný nedostatek dynamiky kvůli vysoké kompresi přenos z originálů s dobrou frekvenční odezvou a dobrým dynamickým rozsahem přední kanály jsou občas moc hlasité
velice rozsáhlé možnosti co se týče DVD koncertních videí nižší audio kvalita kvůli kompresi vynikající zvuk -

Zdroje

[1] http://www.minnetonkaaudio.com/info/PDFs/DolbyDigital_Guidelines.pdf

[2] http://www.beussery.com/pdf/beussery.dolby.pdf

[3] http://www.google.cz/url?url=http://www.dts.com/~/media/B962F033C9254AD4B62ECFC6293C9E86.ashx&rct=j&sa=U&ei=15u7TuT9OMrasgbVptVI&ved=0CCgQFjAC&q=dts+pdf&usg=AFQjCNH9lq4XEMhAEbTXLrp-QBkFwmp_kQ

[4] http://ebookbrowse.com/dts-whitepaper-pdf-d38921307

Osobní nástroje
Jmenné prostory
Varianty
Akce
Navigace
Nástroje