Komprese zvukových dat

Komprese (komprese) zvukových dat je proces snižování rychlosti digitálního toku snížením statistické a psychoakustické redundance digitálního zvukového signálu .

Metody pro snížení statistické redundance zvukových dat se také nazývají bezeztrátová komprese a v souladu s tím se metody pro snížení psychoakustické redundance nazývají ztrátová komprese.

Historie

V záznamu

Otázka zvýšení hustoty zvukového záznamu vyvstala prakticky okamžitě po nástupu zvukového záznamu jako takového. V éře mechanického nahrávání se za tímto účelem snažili položit zvukovou stopu co nejtěsněji na povrch desky. Pro tyto účely bylo nutné buď snížit kvalitu záznamu, snížit dynamický a frekvenční rozsah, což se praktikovalo např. při záznamu řeči (audio vystoupení, přednášky, záznamy pro dabing filmových pásů ). Ve 30. letech 20. století však byla při přechodu na vinylové desky navržena jiná metoda, založená na nezávislém omezení tří složek zákona o pohybu řezačky při nahrávání a jehly při přehrávání: oscilačního posuvu, oscilační rychlosti a kmitání. akcelerace. Při nízkých frekvencích jsou rychlosti a zrychlení vibrací malé a při přenosu signálu hraje největší roli vibrační posun. Na středních frekvencích už posun nemůže dosahovat velkých hodnot a při přenosu signálu začíná hrát největší roli rychlost. Při vyšších frekvencích se tato role přesouvá na zrychlení. Právě tato funkce mechanického záznamu zvuku byla použita k efektivní kompresi zvukových informací. Při nahrávání je zvukový signál předem zkreslený tak, aby se maximálně využila přidělená šířka zvukové stopy (což omezuje posunutí), její poloměr zakřivení (což omezuje rychlost) a síla nahrávaného materiálu. (což omezuje zrychlení). Nejoblíbenější a později standardizovaná byla křivka preemfáze RIAA. Komprese zvuku na gramofonových deskách je v podstatě optimalizací funkce spektrální hustoty.

V magnetickém záznamu

Stejně jako v případě gramofonového záznamu bylo zvýšení hustoty magnetického záznamu spojeno s optimalizací funkce spektrální hustoty signálu v souladu s fyzikálními omezeními vytvořenými systémem magnetická hlava  - magnetická páska . Důležitou charakteristikou, která ovlivňuje kvalitu magnetického záznamu, je šířka nemagnetické mezery hlavy. Čím menší je, tím širší frekvenční rozsah lze zaznamenat, ale úroveň signálu, zejména v oblasti nízkých frekvencí, je snížena a nelineární zkreslení se zvyšuje. Naopak, čím větší je mezera, tím více bude frekvenční rozsah shora omezen, ale úroveň signálu bude vyšší a nelineární zkreslení budou nižší. K překonání tohoto rozporu obsahuje záznamový kanál magnetofonu filtry před zkreslením. Faktem je, že při nízkých frekvencích je signál omezen magnetickou saturací, při středních frekvencích koercitivní silou a při vysokých frekvencích rozptylovým polem hlavy. Nízkofrekvenční filtr předběžného zkreslení proto nutí nahrávací zesilovač pracovat v režimu aktuálního zdroje, čímž omezuje množství magnetizace. Na středních frekvencích dochází k přechodu z režimu zdroje proudu do režimu zdroje napětí a nakonec na vyšších frekvencích pracuje záznamový zesilovač v režimu zdroje napětí. Frekvenční odezva předzkreslení filtru magnetofonu zesilovače připomíná křivku RIAA, ale má různé pólové frekvence, které závisí na rychlosti pásku a jeho typu. Špičkové vícerychlostní magnetofony měly přepínatelné banky filtrů.

V rozhlasovém vysílání

Snaha snížit frekvenční pásmo obsazené vysílající rozhlasovou stanicí ve vzduchu, aniž by došlo ke snížení kvality zvuku, vedla k použití komprese audio signálu v rozhlasovém vysílání. Protože však vysílací systémy s amplitudovou modulací v pásmech dlouhých, středních a krátkých vln byly vyvinuty již ve 20. a 30. letech 20. století, nebyly pokryty kompresí audio signálu a šířka pásma obsazená ve vzduchu byla omezena jednoduše snížením kvality vysílání. . Ale v oblasti ultrakrátkých vln při přenosu signálu s frekvenční modulací, kde šířka pásma není určena šířkou spektra původního audio signálu, ale jeho dynamickým rozsahem, byl použit systém „kompresor-expander“, který umožnilo omezit frekvenční odchylku na hodnotu 75 kHz a poskytlo dynamický rozsah 96 dB

Ve stereo systémech

Ve stereo systémech je komprese audio signálu založena na principu součtu a rozdílu a na vlastnostech lidského sluchu. Faktem je, že v přírodních podmínkách neexistují zcela oddělené zdroje zvuku pro levé a pravé ucho. U stereofonního zvukového záznamu tedy není nutné vytvářet rozdíl mezi okamžitou hodnotou akustického tlaku v levém a pravém uchu větší než 40 dB. Proto byla v analogových audio systémech široce používána metoda „joint stereo“, kdy byl signál součtu kanálů zaznamenán s vysokou kvalitou a signál rozdílu kanálů byl zaznamenán s amplitudově komprimovaným a frekvenčně omezeným kanálovým rozdílem. signál. V reprodukčním zařízení byl signál levého kanálu získán jako součet součtových a rozdílových signálů a pravý kanál byl získán jako rozdíl součtových a rozdílových signálů. Kombinovaný stereo systém byl použit při nahrávání a stereo vysílání.

Bezeztrátová komprese

Snížení statistické redundance je založeno na zohlednění vlastností samotných audio signálů. Je určena přítomností korelace mezi sousedními vzorky digitálního audio signálu, jejíž odstranění umožňuje snížit množství přenášených dat o 15 ... 25 % oproti jejich původní hodnotě. Pro přenos signálu je nutné získat jeho kompaktnější reprezentaci, což lze provést pomocí ortogonální transformace . Důležité podmínky pro použití takové metody převodu jsou:

Tyto požadavky splňuje modifikovaná diskrétní kosinová transformace (MDCT).

Přenosovou rychlost lze snížit metodami kódování, které berou v úvahu statistiky zvukových signálů, například pravděpodobnosti výskytu úrovní různých velikostí. Jednou z takových metod je Huffmanův kód , kde jsou kratší kódová slova přiřazena nejpravděpodobnějším hodnotám signálu a vzorové hodnoty s nízkou pravděpodobností výskytu jsou kódovány delšími kódovými slovy. Právě z těchto dvou důvodů nejsou v nejúčinnějších algoritmech komprese digitálních audio dat kódovány samotné vzorky audio signálu, ale koeficienty MDCT.

Podobné metody se používají při archivaci souborů.

Ztrátová komprese

Ztrátová komprese zvukových dat je založena na nedokonalosti lidského sluchu při vnímání zvukových informací. Neschopnost člověka v určitých případech rozlišovat mezi tiššími zvuky za přítomnosti hlasitějších, nazývaná maskovací efekt , byla využívána v algoritmech pro snížení psychoakustické redundance. Účinky sluchového maskování závisí na spektrálních a časových charakteristikách maskovaných a maskovacích signálů a lze je rozdělit do dvou hlavních skupin:

Maskovací efekt ve frekvenční oblasti je způsoben tím, že v přítomnosti velkých amplitud zvuku je lidské ucho necitlivé na malé amplitudy blízkých frekvencí. To znamená, že když jsou dva signály současně v omezené frekvenční doméně, slabší signál se stane neslyšitelným na pozadí silnějšího signálu.

Maskování v časové oblasti charakterizuje dynamické vlastnosti sluchu tím, že ukazuje změnu relativního prahu sluchu (prah slyšení jednoho signálu v přítomnosti druhého) v čase, kdy maskovací a maskovaný signál nezní současně. V tomto případě je třeba rozlišovat mezi jevy po maskování (změna prahu slyšení po signálu vysoké úrovně) a před maskováním (změna prahu slyšení před příchodem signálu maximální úrovně). . Slabší signál se stane neslyšitelným 5–20 ms před zapnutím maskovacího signálu a stane se slyšitelným 50–200 ms po jeho zapnutí.

Nejlepší metodou kódování zvuku, která bere v úvahu efekt maskování, je pásmové kódování. Jeho podstata je následující. Skupina vzorků vstupního audio signálu, nazývaná rámec, vstupuje do bloku filtru, který rozděluje signál do frekvenčních dílčích pásem. Na výstupu každého filtru je ta část vstupního signálu, která spadá do propustného pásma tohoto filtru. Dále se v každém pásmu pomocí psychoakustického modelu analyzuje spektrální složení signálu a odhadne se, která část signálu by měla být přenášena bez redukce a která část leží pod prahem maskování a lze ji překvantovat na menší číslo. bitů. Pro snížení maximálního dynamického rozsahu se určí maximální vzorek v rámci a vypočítá se škálovací faktor, který tento vzorek přivede na horní kvantizační úroveň. Tato operace je podobná kompandování v analogovém vysílání. Všechny ostatní hodnoty se násobí stejným faktorem. Měřítko je přenášeno do dekodéru spolu se zakódovanými daty, aby se korigoval jeho zisk. Po úpravě měřítka se odhadne práh maskování a celkový počet bitů se přerozdělí mezi všechna pásma.

Je zřejmé, že po odstranění psychoakustické redundance zvukových signálů již není možná jejich přesná rekonstrukce při dekódování. Metody pro eliminaci psychofyzické redundance mohou zajistit kompresi digitálních zvukových dat 10–12krát bez významné ztráty kvality.

Struktura kodéru ztrátové komprese zvuku

Mnoho dalších triků může sloužit jako způsob, jak snížit množství zvukových informačních dat. I pouhé zúžení šířky pásma signálu spolu se snížením dynamického rozsahu již můžeme nazvat kompresí zvukových dat. Například standard komprese celulárního zvuku používá obojí. Ve snaze odstranit ze zvuku redundanci se kodek se špatnou kvalitou signálu stává selektivním vůči určitým slovům a tvrdošíjně je polyká.

Subjektivní hodnocení kvality

U komprimovaných zvukových dat existuje subjektivní hodnocení kvality měřené jako procento lidí, kteří pocítili rozdíl oproti originálu.

Shoda datového toku kodeku MP3 ve stereo režimu a procento lidí, kteří si všimli rozdílu oproti originálu
Přibližný počet lidí, kteří slyšeli rozdíl mezi původní a komprimovanou nahrávkou, % Přenosová rychlost komprimovaného záznamu, kbps
0…1 320
5…30 256
30…40 192
40…70 128

Je třeba vzít v úvahu, že kvalita výsledného materiálu závisí na povaze komprimovaných dat, na žánru, přítomnosti pozadí a šumu. Po kompresi, například MP3, při středních bitratech si posluchači všimnou drobnosti perkusí. A komprese (i silná) má na hlas malý vliv.

Viz také

Odkazy