Hlasové rozpoznávání

Rozpoznávání hlasu je forma biometrické autentizace , která vám umožňuje identifikovat osobu kombinací jedinečných hlasových charakteristik . Odkazuje na dynamické metody biometrie . Jelikož se však hlas člověka může měnit v závislosti na věku, emočním stavu, zdravotním stavu, hormonálních hladinách a řadě dalších faktorů, není to absolutně přesné [1] . S rozvojem technologie záznamu a reprodukce zvuku se technologie rozpoznávání používá s různým stupněm úspěchu v oblasti informační bezpečnosti , bezpečnostních a přístupových systémů a forenzní vědy .

Historie

Práce na rozpoznávání řeči se datují do poloviny minulého století. První systém vznikl na počátku 50. let: jeho vývojáři si dali za úkol rozpoznávat čísla. Vyvinutý systém mohl identifikovat čísla , ale mluvený jedním hlasem, takový jako “Audrey” systém Bell Laboratories . Pracovala na základě stanovení formantu v mocninném spektru každé řečové pasáže [2] . Obecně řečeno, systém se skládal ze tří hlavních částí: analyzátory a kvantizéry, šablony síťového párování a konečně senzory. Vznikla na elementární bázi různých frekvenčních filtrů, spínačů, ale i plynem plněných elektronek jako součást senzorů [3] .

Na konci dekády se objevily systémy, které rozpoznávaly samohlásky nezávisle na mluvčím [4] . V 70. letech se začaly používat nové metody, které umožňovaly dosahovat dokonalejších výsledků - metoda dynamického programování [5] a metoda lineární predikce (Linear Predictive Coding - LPC). Ve výše zmíněné společnosti Bell Laboratories byly vytvořeny systémy, které využívají právě tyto metody [6] . V 80. letech bylo dalším krokem ve vývoji systémů rozpoznávání hlasu použití skrytých Markovových modelů (Hidden Markov Models - HMM). V této době se začaly objevovat první velké programy pro rozpoznávání hlasu, jako je Kurzweil text-to-speech [7] . Koncem 80. let se také začaly používat metody umělých neuronových sítí (Artificial Neural Network - ANN) [8] . V roce 1987 se na trhu objevila panenka Julie od Worlds of Wonder, která byla schopna rozumět hlasu [7] . A o 10 let později Dragon Systems vydal program „NaturallySpeaking 1.0“ [9] .

Spolehlivost

Hlavními zdroji chyb rozpoznávání hlasu jsou:

nahrávací prostředí (úroveň a typ okolního hluku, úroveň dozvuku );
efekt prezentace (délka řeči, psychofyziologický stav mluvčího (nemoc, emoční stav atd.), jazyk sdělení řeči, přízvuk, hlasitost řeči);
nízká kvalita kanálu (šum, zkreslení mikrofonu a přenosového kanálu, typ kódování v kanálu atd.) [10] .

Rozpoznávání pohlaví lze rozlišit jako samostatný typ úlohy, který je poměrně úspěšně vyřešen - s velkým množstvím výchozích údajů je pohlaví určeno téměř bez chyby a v krátkých pasážích jako přízvučná samohláska je pravděpodobnost chyby 5,3% u mužů a 3,1 % u žen [11 ] .

Uvažovalo se také o problému imitace hlasu. Studie France Telecom ukázaly, že profesionální imitace hlasu prakticky nezvyšuje pravděpodobnost chyby identity - napodobitelé falšují hlas pouze navenek, zdůrazňují rysy řeči, ale základní obrys hlasu zfalšovat nejsou. I hlasy blízkých příbuzných, dvojčat budou mít rozdíl, alespoň v dynamice ovládání [11] . S rozvojem výpočetní techniky však vyvstal nový problém, který vyžaduje použití nových metod analýzy – transformace hlasu, která zvyšuje pravděpodobnost chyby až na 50 % [11] .

K popisu spolehlivosti systému se používají dvě kritéria: FRR (False Rejection Rate) - pravděpodobnost falešného odmítnutí přístupu ( chyba prvního druhu ) a FAR (False Acceptance Rate) - pravděpodobnost falešného přijetí. když systém omylem identifikuje někoho jiného jako svého (chyba druhého druhu) . Někdy jsou rozpoznávací systémy také charakterizovány takovým parametrem, jako je EER (Equal Error Rates), který představuje bod koincidence pravděpodobností FRR a FAR. Čím je systém spolehlivější, tím má nižší EER [12] .

Hodnoty chyb identifikace pro různé biometrické modality [10]

biometrický znak	Test	Zkušební podmínky	FRR %	DALEKO%
Otisky prstů	FVC 2006	Heterogenní populace (zahrnuje manuální dělníky a seniory)	2.2	2.2
Tvář	MBE 2010	Policejní fotografická základna Databáze fotografií z dokumentů	4,0 0,3	0,1 0,1
Hlas	NIST 2010	Nezávislé rozpoznávání textu	3..4	1,0
Duhovka oka	ICE 2006	Řízené osvětlení, široký rozsah kvality obrazu	1.1…1.4	0,1

Aplikace

Rozpoznávání lze rozdělit do dvou hlavních oblastí: identifikace a ověřování . V prvním případě musí systém samostatně identifikovat uživatele hlasem; ve druhém případě musí systém potvrdit nebo zamítnout identifikátor předložený uživatelem [11] . Definice zkoumaného mluvčího spočívá v párovém srovnání hlasových modelů, které zohledňují individuální vlastnosti projevu každého mluvčího. Nejprve tedy musíme shromáždit dostatečně velkou databázi. A na základě výsledků tohoto srovnání lze sestavit seznam zvukových záznamů, které jsou s určitou pravděpodobností projevem nás zajímavého uživatele [11] .

Přestože rozpoznávání hlasu nemůže zaručit 100% správný výsledek, lze jej poměrně efektivně použít v oblastech, jako je forenzní a forenzní; zpravodajská služba; protiteroristické monitorování; bezpečnost; bankovnictví a tak dále [11] .

Analýza

Celý proces zpracování řečového signálu lze rozdělit do několika hlavních fází:

předzpracování signálu;
výběr kritérií;
rozpoznávání mluvčího.

Každá fáze představuje algoritmus nebo nějakou sadu algoritmů, které nakonec poskytují požadovaný výsledek [13] .

Hlavní rysy hlasu tvoří tři hlavní vlastnosti: mechanika kmitání hlasivek, anatomie hlasového traktu a systém řízení artikulace. Někdy je navíc možné využít slovník mluvčího, jeho obraty [11] . Hlavní rysy, kterými se rozhoduje o osobnosti mluvčího, se utvářejí s ohledem na všechny faktory procesu tvorby řeči: zdroj hlasu, rezonanční frekvence hlasového traktu a jejich útlum, stejně jako dynamiku řízení artikulace. Uvážíme-li zdroje podrobněji, pak mezi vlastnosti zdroje hlasu patří: průměrná frekvence základního tónu, obrys a kolísání frekvence základního tónu a tvar budícího impulsu. Spektrální charakteristiky vokálního traktu jsou popsány obálkou spektra a jeho průměrným sklonem, formantovými frekvencemi , dlouhodobým spektrem nebo kepstrem . Kromě toho je uvažována také doba trvání slov, rytmus (rozložení stresu), úroveň signálu, frekvence a délka pauz [14] . K určení těchto charakteristik je třeba použít poměrně složité algoritmy, ale protože například chyba formantových frekvencí je poměrně velká, lze pro zjednodušení použít kepstrové koeficienty vypočítané z obálky spektra nebo přenosové funkce vokálního traktu zjištěné používá se metoda lineární predikce. Kromě zmíněných kepstrových koeficientů se využívá i jejich první a druhá časová diference [11] . Tuto metodu poprvé navrhli Davis a Mermelstein [15] .

Kepstrální analýza

V pracích o rozpoznávání hlasu je nejoblíbenější metodou kepstrální transformace spektra řečových signálů [11] . Schéma metody je následující: v časovém intervalu 10 - 20 ms se vypočítá aktuální výkonové spektrum a poté se použije inverzní Fourierova transformace logaritmu tohoto spektra (cepstrum) a zjistí se koeficienty: , - horní frekvence ve spektru řečového signálu, - výkonové spektrum. Počet kepstrálních koeficientů n závisí na požadovaném vyhlazení spektra a pohybuje se od 20 do 40. Pokud je použita banka pásmových filtrů , pak se diskrétní kepstrální transformační koeficienty vypočítají jako , kde Y(m) je výstupní signál m-tý filtr, je n-tý cepstrum koeficient. $c_{n}={\frac {1}{\Theta }}\int _{0}^{\Theta }{\mid S(j,\omega ,t)\mid }^{2}\ exp ^{-jn\omega \Omega }d\omega$ $\Omega =2{\frac {2\pi }{\Theta )),\Theta$ ${\displaystyle {\mid S(j,\omega ,t)\mid }^{2))$ ${\displaystyle c_{n}=\sum _{m=1}^{N}\log {Y(m)^{2))\cos ({\frac {\pi n}{M))(m- {\frac {1}{2))))))$ $c_{n}$

Sluchové vlastnosti jsou zohledňovány nelineární transformací frekvenční stupnice, obvykle ve stupnici křídy [11] . Tato stupnice je tvořena na základě přítomnosti takzvaných kritických pásem v uchu , takže signály jakékoli frekvence v rámci kritického pásma jsou nerozlišitelné. Mel stupnice se vypočítá jako , kde f je frekvence v Hz, M je frekvence v mel. Nebo se používá jiná stupnice - bark , takže rozdíl mezi dvěma frekvencemi, rovný kritickému pásmu, je roven 1 bark. Frekvence B se vypočítá jako . Koeficienty nalezené v literatuře jsou někdy označovány jako MFCC - Mel Frequiency Ceptral Coefficients. Jejich počet se pohybuje od 10 do 30. Použití prvního a druhého časového rozdílu kepstrálních koeficientů ztrojnásobuje rozměr rozhodovacího prostoru, ale zlepšuje efektivitu rozpoznávání mluvčích [11] . $M(f)=1125\ln {(1+{\frac {f}{700))))$ $B=13\operatorname {arctg{(0.00076f)}} +3.5\operatorname {arctg{\frac {f}{7500}}}$

Kepstrum popisuje tvar obálky spektra signálu, který je ovlivněn jak vlastnostmi zdroje buzení, tak vlastnostmi vokálního traktu. Při experimentech bylo zjištěno, že obálka spektra silně ovlivňuje rozpoznávání hlasu. Proto je použití různých metod spektrální obálkové analýzy pro rozpoznávání hlasu plně oprávněné [11] .

Metody

Protože mnoho systémů využívá prostor kepstrálních koeficientů, jejich prvního a druhého rozdílu, je věnována velká pozornost konstrukci rozhodovacích pravidel. Nejoblíbenější metody pro aproximaci hustoty pravděpodobnosti v prostoru příznaků s váženou směsí normálních rozdělení ( GMM - Gauss Mixture Models), podpůrný vektorový stroj (SVM - Support Vector Machines), metoda skrytých Markovových modelů (HMM - Hidden Markovovy modely), umělé neuronové sítě a také modifikace faktorové analýzy [11] .

Metoda GMM vyplývá z věty, že libovolnou funkci hustoty pravděpodobnosti lze reprezentovat jako vážený součet normálních rozdělení:

${\displaystyle p(x|\lambda )=\sum _{j=1}^{k}{\omega _{j}\phi (\chi ,\Theta _{j)))))$ ; je model reproduktoru, k je počet komponent modelu; — váhy složek jsou takové, že je distribuční funkcí vícerozměrného argumentu [11] . , - jeho hmotnost, k - počet složek ve směsi. Zde n je dimenze prostoru rysů, je vektorem matematického očekávání j-té složky směsi a je kovarianční maticí . $\lambda$ ${\omega _{j))$ $\sum _{j=1}^{n}{\omega _{j}}=1.$ $\phi (\chi ,\Theta _{j})$ ${\displaystyle \chi ,\Theta _{j))$ $\phi (\chi ,\Theta _{j})=p(\chi \mid \mu _{j},R_{j})={\frac {1}{({2\pi }) ^{\frac {n}{2}}{\mid R_{j}\mid }^{\frac {1}{2}}}}\exp {\frac {-1(\chi -\mu _{ j})^{T}R_{j}^{-1}(\chi -\mu _{j})}{2}}$ ${\displaystyle \omega _{j))$ $\mu _{j}\in \mathbb {R} ^{n}$ ${\displaystyle R_{j}\in \mathbb {R} ^{n\times n))$

Systémy s tímto modelem velmi často používají diagonální kovarianční matici. Lze jej použít pro všechny komponenty modelu nebo dokonce pro všechny modely. K nalezení kovarianční matice, vah, středních vektorů se často používá EM algoritmus . Na vstupu máme trénovací posloupnost vektorů X = {x 1 , . . . , x T } . Parametry modelu jsou inicializovány počátečními hodnotami a poté při každé iteraci algoritmu jsou parametry znovu vyhodnoceny. K určení počátečních parametrů se obvykle používá shlukovací algoritmus , jako je algoritmus K-means . Po rozdělení sady trénovacích vektorů do M shluků lze parametry modelu definovat následovně: počáteční hodnoty se shodují se středy shluků, kovarianční matice jsou vypočteny na základě vektorů, které spadají do tohoto shluku, váhy komponent jsou určeny podílem vektorů tohoto shluku na celkovém počtu trénovacích vektorů. ${\displaystyle \mu _{j))$

Parametry se přehodnocují podle následujících vzorců:

výpočet aposteriorních pravděpodobností (krok odhadu): . ${\displaystyle p(i|\chi _{t},\lambda )={\frac {\omega _{i}\phi (\chi _{t},\Theta _{i})}{ \sum _{j=1}^{k}{\omega _{j}\phi (\chi _{t},\Theta _{j})))}}$
výpočet parametrů nového modelu (Maximization-step): ; ; . Kroky se opakují, dokud není dosaženo konvergence parametrů [16] . $\omega _{j}={\frac {\sum _{j=1}^{k}{p(i|\chi _{j},\lambda ))){T))$ ${\mu _{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )\chi _{t))} {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda ))))))$ ${R_{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )(\chi _{t}-\mu _{i}){(\chi _{t}-\mu _{i})}^{T))}{\součet _{t=1}^{n}{p(i|\chi _{ t},\lambda )}}}}}$

GMM lze také nazvat rozšířením metody vektorové kvantizace ( centroid method ). Při jeho použití se vytvoří kódová kniha pro nepřekrývající se oblasti v prostoru funkcí (často pomocí shlukování K-means). Vektorové kvantování je nejjednodušší model v kontextově nezávislých rozpoznávacích systémech [11] .

Support vector machine (SVM) konstruuje nadrovinu ve vícerozměrném prostoru, který odděluje dvě třídy – parametry cílového reproduktoru a parametry reproduktorů z referenční základny. Nadrovina je vypočítána pomocí podpůrných vektorů – vybraných zvláštním způsobem. Bude provedena nelineární transformace prostoru měřených parametrů do nějakého prostoru znaků vyšší dimenze, protože oddělující plocha nemusí odpovídat nadrovině. Oddělovací plocha v nadrovině je konstruována strojem podpůrných vektorů, pokud je splněna podmínka lineární oddělitelnosti v novém prostoru prvků. Úspěch aplikace SMM tedy závisí na zvolené nelineární transformaci v každém konkrétním případě. Support Vector Machines se často používají s GMM nebo HMM. Pro krátké fráze trvající několik sekund se obvykle pro kontextově závislý přístup lépe používají HMM citlivé na fonémy [11] .

Popularita

Podle newyorské poradenské společnosti International Biometric Group je nejrozšířenější technologií snímání otisků prstů. Je třeba poznamenat, že ze 127 milionů dolarů výnosů z prodeje biometrických zařízení tvoří 44 % podíl daktyloskopických skenerů. Systémy rozpoznávání obličeje jsou na druhém místě v poptávce se 14 %, následuje rozpoznávání tvaru dlaně (13 %), rozpoznávání hlasu (10 %) a rozpoznávání duhovky (8 %). Zařízení pro ověřování podpisů tvoří 2 % tohoto seznamu. Někteří z nejznámějších výrobců na trhu s hlasovou biometrií jsou Nuance Communications, SpeechWorks, VeriVoice [17] .

V únoru 2016 The Telegraph zveřejnil článek oznamující, že zákazníci britské banky HSBC budou moci přistupovat k účtům a provádět transakce pomocí hlasové identifikace. K přechodu mělo dojít začátkem léta [18] .

Poznámky

↑ E. K. Bragina, S. S. Sokolov. Moderní metody biometrické autentizace: revize, analýza a definice vyhlídek rozvoje // Věstník ASTU. - 2016. - č. 61 . — ISSN 1812-9498 .
↑ KH Davis, R. Biddulph a S. Balashek. Automatické rozpoznání mluvených číslic // J. Acoust. soc. Dopoledne..
↑ BH Juang a Lawrence R. Rabiner. Automatické rozpoznávání řeči – Stručná historie vývoje technologií // USCB. - 2004. - říjen. Archivováno z originálu 20. prosince 2016.
↑ JW Forgie a CD Forgie,. Výsledky získané z počítačového programu pro rozpoznávání samohlásek // J. Acoust. soc. Am., 31.
↑ H. Sakoe a S. Chiba. Optimalizace algoritmu dynamického programování pro rozpoznávání mluveného slova // ASSP.
↑ F. Itakura a S. Saito, "Analytická syntézní telefonie založená na metodě maximální věrohodnosti", Zprávy 6. mezinárodního kongresu o akustice
↑ 1 2 Rozpoznávání řeči v průběhu desetiletí: Jak jsme skončili se Siri , PCWorld . Archivováno z originálu 6. prosince 2016. Staženo 14. prosince 2016.
↑ JK Baker. Stochastické modelování pro automatické porozumění řeči. — Academic Press.
↑ Nuance Dragon Naturally Speaking, lékařský přepis, software pro rozpoznávání hlasu . www.dragon-medical-transscription.com. Získáno 14. prosince 2016. Archivováno z originálu 13. srpna 2015. (neurčitý)
↑ 1 2 Yu. N. Matveev Technologie biometrické identifikace osoby hlasem a dalšími způsoby
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Rozpoznávání osobnosti hlasem: analytický přehled
↑ Vlastnosti biometrické identifikace (nepřístupný odkaz) . Staženo 2. prosince 2016. Archivováno z originálu 19. května 2017. (neurčitý)
↑ Tassov K. L., Dyatlov R. A. Metoda identifikace osoby podle hlasu
↑ Kuwabara H., Sagisaka Y. (1995)
↑ Davis S., Mermelstein P. (1980)
↑ E.A. Pervushin. Přehled hlavních metod rozpoznávání mluvčích // Matematické struktury a modelování. — 2011.
↑ International Biometric Group (IBG) oznamuje 13. listopadu webové vysílání a zveřejnění zprávy o biometrickém trhu a průmyslu 2009-2014 – FindBiometrics , FindBiometrics ( 11. listopadu 2008). Archivováno z originálu 30. listopadu 2016. Staženo 29. listopadu 2016.
↑ Tim Wallace . Smrt hesel: HSBC uvádí na trh ID hlasu a otisku prstu , The Telegraph (19. února 2016). Archivováno z originálu 30. listopadu 2016. Staženo 29. listopadu 2016.

Zdroje

Yu. N. Matveev Technologies biometrické osobní identifikace pomocí hlasu a dalších modalit — ISSN 0236-3933. Bulletin MSTU im. N. E. Bauman. Ser. "Výroba nástrojů". 2012
V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Rozpoznávání osobnosti hlasem: analytický přehled — ISSN 1819-5822 Informační procesy, svazek 12, č. 1, s. 1-30
Tassov K. L., Dyatlov R. A. Metoda identifikace osoby hlasem. Engineering Journal: Science and Innovation, 2013, no. 6. URL: http://engjournal.ru/catalog/it/biometric/1103.html
Lamel LF, Gauvain JL (2000). Ověření mluvčího po telefonu. Žurnálová komunikace řeči - uznání mluvčího a jeho reklama a soudní aplikace
Kuwabara H., Sagisaka Y. (1995). Akustické charakteristiky individuality mluvčího: Control and Conversion. Komunikace řečí
Davis S., Mermelstein P. (1980). Porovnání parametrických reprezentací pro rozpoznávání jednoslabičných slov v souvisle mluvených větách. IEEE Trans. Akustika, řeč, proces signálu.

Odkazy

Computerworld Russia (2014) č. 25. Autentizace hlasem a vzhledem (13. 10. 2014). Datum přístupu: 6. srpna 2021. (neurčitý)
Co jsou biometrie? . Najděte Biometrie. Datum přístupu: 6. srpna 2021. (neurčitý)