Detekce hlasové aktivity

VAD ( anglicky Voice Activity Detection ), stejně jako Silence Suppression (z angličtiny - “silence potlačení”) - detekce hlasové aktivity ve vstupním akustickém signálu pro oddělení aktivní řeči od hluku na pozadí nebo ticha. Hlas interpretovaný jako hluk může generovat „výstřižky“ z konverzace (čipování). Pozadí interpretované jako hlas má za následek sníženou účinnost komprese (např. v DTX ).

Výhody a použití

Při digitalizaci hlasu lze fragmenty signálu klasifikované jako aktivní řeč dále kódovat a komprimovat pomocí libovolného zvukového kodeku (například CELP ), když se používá v softwaru k rozlišení mezi lidským hlasem a hlukem na pozadí v kódované řeči.

Použití mechanismu VAD (neboli Silence Suppression) vám umožňuje ušetřit za přenos dat komunikačním kanálem , protože přerušení řeči (určené úrovní signálu) není digitalizováno ani kódováno , a tudíž nejsou přenášeny „prázdné“ pakety s tichem. přes síť. To je velmi důležité pro přenos paketů (což je přenos v sítích TCP / IP), protože kromě samotných dat každý protokol všech úrovní modelu OSI (transport, síť atd.) připojuje ke každému své vlastní servisní informace. datový paket. V důsledku toho se velikost paketu výrazně zvětšuje. Vyloučení „prázdných“ paketů s malým šumem je tedy snadný způsob, jak ušetřit provoz a v důsledku toho zvýšit propustnost kanálu. Z tohoto důvodu je mechanismus VAD poměrně často používán spolu s různými kodeky pro efektivní kompresi v IP telefonii .

Nevýhody a jak je odstranit

Problémem VAD je, že v důsledku potlačení ticha (ve skutečnosti zvuk nízké úrovně) posluchač neslyší vůbec žádné identifikační signály (dýchání, čichání a další drobné zvuky, které doprovázejí živou řeč). To vytváří určité problémy, protože v běžné hovorové řeči je slyšet všechno. Absence obvyklého hluku při reprodukci hlasu způsobuje nepohodlí a snižuje úroveň vnímání a porozumění.

K vyřešení tohoto problému lze na straně druhého účastníka (nebo posluchače) použít emulaci doprovodných zvuků, tzv. generování komfortního šumu (CNG) (obrácený proces pro VAD).

Viz také

Komfortní hluk

Odkazy

RFC 3389 _
Článek VAD na webu "Mobilní komunikace: Historie, standardy, technologie"
DMA minimální výkonnostní standardy pro diskontinuální přenosový provoz mobilních stanic TIA doc. a databáze IS-727, červen 1998. (anglicky)
MY Appiah, M. Sasikath, R. Makrickaite, M. Gusaite, " Robust Voice Activity Detection and Noise Reduction Mechanism ", Institute of Electronics Systems, Aalborg University (anglicky)
XL Liu, Y. Liang, YH Lou, H. Li, BS Shan, Noise-Robust Voice Activity Detector Based on Hidden Semi-Markov Models , Proc. ICPR'10 , 81-84. (Angličtina)
Technologie hlasové aktivace Yandex Yandex SpeechKit