Rozpoznávání hlasu je forma biometrické autentizace , která vám umožňuje identifikovat osobu kombinací jedinečných hlasových charakteristik . Odkazuje na dynamické metody biometrie . Jelikož se však hlas člověka může měnit v závislosti na věku, emočním stavu, zdravotním stavu, hormonálních hladinách a řadě dalších faktorů, není to absolutně přesné [1] . S rozvojem technologie záznamu a reprodukce zvuku se technologie rozpoznávání používá s různým stupněm úspěchu v oblasti informační bezpečnosti , bezpečnostních a přístupových systémů a forenzní vědy .
Práce na rozpoznávání řeči se datují do poloviny minulého století. První systém vznikl na počátku 50. let: jeho vývojáři si dali za úkol rozpoznávat čísla. Vyvinutý systém mohl identifikovat čísla , ale mluvený jedním hlasem, takový jako “Audrey” systém Bell Laboratories . Pracovala na základě stanovení formantu v mocninném spektru každé řečové pasáže [2] . Obecně řečeno, systém se skládal ze tří hlavních částí: analyzátory a kvantizéry, šablony síťového párování a konečně senzory. Vznikla na elementární bázi různých frekvenčních filtrů, spínačů, ale i plynem plněných elektronek jako součást senzorů [3] .
Na konci dekády se objevily systémy, které rozpoznávaly samohlásky nezávisle na mluvčím [4] . V 70. letech se začaly používat nové metody, které umožňovaly dosahovat dokonalejších výsledků - metoda dynamického programování [5] a metoda lineární predikce (Linear Predictive Coding - LPC). Ve výše zmíněné společnosti Bell Laboratories byly vytvořeny systémy, které využívají právě tyto metody [6] . V 80. letech bylo dalším krokem ve vývoji systémů rozpoznávání hlasu použití skrytých Markovových modelů (Hidden Markov Models - HMM). V této době se začaly objevovat první velké programy pro rozpoznávání hlasu, jako je Kurzweil text-to-speech [7] . Koncem 80. let se také začaly používat metody umělých neuronových sítí (Artificial Neural Network - ANN) [8] . V roce 1987 se na trhu objevila panenka Julie od Worlds of Wonder, která byla schopna rozumět hlasu [7] . A o 10 let později Dragon Systems vydal program „NaturallySpeaking 1.0“ [9] .
Hlavními zdroji chyb rozpoznávání hlasu jsou:
Rozpoznávání pohlaví lze rozlišit jako samostatný typ úlohy, který je poměrně úspěšně vyřešen - s velkým množstvím výchozích údajů je pohlaví určeno téměř bez chyby a v krátkých pasážích jako přízvučná samohláska je pravděpodobnost chyby 5,3% u mužů a 3,1 % u žen [11 ] .
Uvažovalo se také o problému imitace hlasu. Studie France Telecom ukázaly, že profesionální imitace hlasu prakticky nezvyšuje pravděpodobnost chyby identity - napodobitelé falšují hlas pouze navenek, zdůrazňují rysy řeči, ale základní obrys hlasu zfalšovat nejsou. I hlasy blízkých příbuzných, dvojčat budou mít rozdíl, alespoň v dynamice ovládání [11] . S rozvojem výpočetní techniky však vyvstal nový problém, který vyžaduje použití nových metod analýzy – transformace hlasu, která zvyšuje pravděpodobnost chyby až na 50 % [11] .
K popisu spolehlivosti systému se používají dvě kritéria: FRR (False Rejection Rate) - pravděpodobnost falešného odmítnutí přístupu ( chyba prvního druhu ) a FAR (False Acceptance Rate) - pravděpodobnost falešného přijetí. když systém omylem identifikuje někoho jiného jako svého (chyba druhého druhu) . Někdy jsou rozpoznávací systémy také charakterizovány takovým parametrem, jako je EER (Equal Error Rates), který představuje bod koincidence pravděpodobností FRR a FAR. Čím je systém spolehlivější, tím má nižší EER [12] .
Hodnoty chyb identifikace pro různé biometrické modality [10]
biometrický znak | Test | Zkušební podmínky | FRR % | DALEKO% |
---|---|---|---|---|
Otisky prstů | FVC 2006 | Heterogenní populace (zahrnuje manuální dělníky a seniory) | 2.2 | 2.2 |
Tvář | MBE 2010 | Policejní fotografická základna
Databáze fotografií z dokumentů |
4,0
0,3 |
0,1
0,1 |
Hlas | NIST 2010 | Nezávislé rozpoznávání textu | 3..4 | 1,0 |
Duhovka oka | ICE 2006 | Řízené osvětlení, široký rozsah kvality obrazu | 1.1…1.4 | 0,1 |
Rozpoznávání lze rozdělit do dvou hlavních oblastí: identifikace a ověřování . V prvním případě musí systém samostatně identifikovat uživatele hlasem; ve druhém případě musí systém potvrdit nebo zamítnout identifikátor předložený uživatelem [11] . Definice zkoumaného mluvčího spočívá v párovém srovnání hlasových modelů, které zohledňují individuální vlastnosti projevu každého mluvčího. Nejprve tedy musíme shromáždit dostatečně velkou databázi. A na základě výsledků tohoto srovnání lze sestavit seznam zvukových záznamů, které jsou s určitou pravděpodobností projevem nás zajímavého uživatele [11] .
Přestože rozpoznávání hlasu nemůže zaručit 100% správný výsledek, lze jej poměrně efektivně použít v oblastech, jako je forenzní a forenzní; zpravodajská služba; protiteroristické monitorování; bezpečnost; bankovnictví a tak dále [11] .
Celý proces zpracování řečového signálu lze rozdělit do několika hlavních fází:
Každá fáze představuje algoritmus nebo nějakou sadu algoritmů, které nakonec poskytují požadovaný výsledek [13] .
Hlavní rysy hlasu tvoří tři hlavní vlastnosti: mechanika kmitání hlasivek, anatomie hlasového traktu a systém řízení artikulace. Někdy je navíc možné využít slovník mluvčího, jeho obraty [11] . Hlavní rysy, kterými se rozhoduje o osobnosti mluvčího, se utvářejí s ohledem na všechny faktory procesu tvorby řeči: zdroj hlasu, rezonanční frekvence hlasového traktu a jejich útlum, stejně jako dynamiku řízení artikulace. Uvážíme-li zdroje podrobněji, pak mezi vlastnosti zdroje hlasu patří: průměrná frekvence základního tónu, obrys a kolísání frekvence základního tónu a tvar budícího impulsu. Spektrální charakteristiky vokálního traktu jsou popsány obálkou spektra a jeho průměrným sklonem, formantovými frekvencemi , dlouhodobým spektrem nebo kepstrem . Kromě toho je uvažována také doba trvání slov, rytmus (rozložení stresu), úroveň signálu, frekvence a délka pauz [14] . K určení těchto charakteristik je třeba použít poměrně složité algoritmy, ale protože například chyba formantových frekvencí je poměrně velká, lze pro zjednodušení použít kepstrové koeficienty vypočítané z obálky spektra nebo přenosové funkce vokálního traktu zjištěné používá se metoda lineární predikce. Kromě zmíněných kepstrových koeficientů se využívá i jejich první a druhá časová diference [11] . Tuto metodu poprvé navrhli Davis a Mermelstein [15] .
Kepstrální analýzaV pracích o rozpoznávání hlasu je nejoblíbenější metodou kepstrální transformace spektra řečových signálů [11] . Schéma metody je následující: v časovém intervalu 10 - 20 ms se vypočítá aktuální výkonové spektrum a poté se použije inverzní Fourierova transformace logaritmu tohoto spektra (cepstrum) a zjistí se koeficienty: , - horní frekvence ve spektru řečového signálu, - výkonové spektrum. Počet kepstrálních koeficientů n závisí na požadovaném vyhlazení spektra a pohybuje se od 20 do 40. Pokud je použita banka pásmových filtrů , pak se diskrétní kepstrální transformační koeficienty vypočítají jako , kde Y(m) je výstupní signál m-tý filtr, je n-tý cepstrum koeficient.
Sluchové vlastnosti jsou zohledňovány nelineární transformací frekvenční stupnice, obvykle ve stupnici křídy [11] . Tato stupnice je tvořena na základě přítomnosti takzvaných kritických pásem v uchu , takže signály jakékoli frekvence v rámci kritického pásma jsou nerozlišitelné. Mel stupnice se vypočítá jako , kde f je frekvence v Hz, M je frekvence v mel. Nebo se používá jiná stupnice - bark , takže rozdíl mezi dvěma frekvencemi, rovný kritickému pásmu, je roven 1 bark. Frekvence B se vypočítá jako . Koeficienty nalezené v literatuře jsou někdy označovány jako MFCC - Mel Frequiency Ceptral Coefficients. Jejich počet se pohybuje od 10 do 30. Použití prvního a druhého časového rozdílu kepstrálních koeficientů ztrojnásobuje rozměr rozhodovacího prostoru, ale zlepšuje efektivitu rozpoznávání mluvčích [11] .
Kepstrum popisuje tvar obálky spektra signálu, který je ovlivněn jak vlastnostmi zdroje buzení, tak vlastnostmi vokálního traktu. Při experimentech bylo zjištěno, že obálka spektra silně ovlivňuje rozpoznávání hlasu. Proto je použití různých metod spektrální obálkové analýzy pro rozpoznávání hlasu plně oprávněné [11] .
MetodyProtože mnoho systémů využívá prostor kepstrálních koeficientů, jejich prvního a druhého rozdílu, je věnována velká pozornost konstrukci rozhodovacích pravidel. Nejoblíbenější metody pro aproximaci hustoty pravděpodobnosti v prostoru příznaků s váženou směsí normálních rozdělení ( GMM - Gauss Mixture Models), podpůrný vektorový stroj (SVM - Support Vector Machines), metoda skrytých Markovových modelů (HMM - Hidden Markovovy modely), umělé neuronové sítě a také modifikace faktorové analýzy [11] .
Metoda GMM vyplývá z věty, že libovolnou funkci hustoty pravděpodobnosti lze reprezentovat jako vážený součet normálních rozdělení:
; je model reproduktoru, k je počet komponent modelu; — váhy složek jsou takové, že je distribuční funkcí vícerozměrného argumentu [11] . , - jeho hmotnost, k - počet složek ve směsi. Zde n je dimenze prostoru rysů, je vektorem matematického očekávání j-té složky směsi a je kovarianční maticí .
Systémy s tímto modelem velmi často používají diagonální kovarianční matici. Lze jej použít pro všechny komponenty modelu nebo dokonce pro všechny modely. K nalezení kovarianční matice, vah, středních vektorů se často používá EM algoritmus . Na vstupu máme trénovací posloupnost vektorů X = {x 1 , . . . , x T } . Parametry modelu jsou inicializovány počátečními hodnotami a poté při každé iteraci algoritmu jsou parametry znovu vyhodnoceny. K určení počátečních parametrů se obvykle používá shlukovací algoritmus , jako je algoritmus K-means . Po rozdělení sady trénovacích vektorů do M shluků lze parametry modelu definovat následovně: počáteční hodnoty se shodují se středy shluků, kovarianční matice jsou vypočteny na základě vektorů, které spadají do tohoto shluku, váhy komponent jsou určeny podílem vektorů tohoto shluku na celkovém počtu trénovacích vektorů.
Parametry se přehodnocují podle následujících vzorců:
GMM lze také nazvat rozšířením metody vektorové kvantizace ( centroid method ). Při jeho použití se vytvoří kódová kniha pro nepřekrývající se oblasti v prostoru funkcí (často pomocí shlukování K-means). Vektorové kvantování je nejjednodušší model v kontextově nezávislých rozpoznávacích systémech [11] .
Support vector machine (SVM) konstruuje nadrovinu ve vícerozměrném prostoru, který odděluje dvě třídy – parametry cílového reproduktoru a parametry reproduktorů z referenční základny. Nadrovina je vypočítána pomocí podpůrných vektorů – vybraných zvláštním způsobem. Bude provedena nelineární transformace prostoru měřených parametrů do nějakého prostoru znaků vyšší dimenze, protože oddělující plocha nemusí odpovídat nadrovině. Oddělovací plocha v nadrovině je konstruována strojem podpůrných vektorů, pokud je splněna podmínka lineární oddělitelnosti v novém prostoru prvků. Úspěch aplikace SMM tedy závisí na zvolené nelineární transformaci v každém konkrétním případě. Support Vector Machines se často používají s GMM nebo HMM. Pro krátké fráze trvající několik sekund se obvykle pro kontextově závislý přístup lépe používají HMM citlivé na fonémy [11] .
Podle newyorské poradenské společnosti International Biometric Group je nejrozšířenější technologií snímání otisků prstů. Je třeba poznamenat, že ze 127 milionů dolarů výnosů z prodeje biometrických zařízení tvoří 44 % podíl daktyloskopických skenerů. Systémy rozpoznávání obličeje jsou na druhém místě v poptávce se 14 %, následuje rozpoznávání tvaru dlaně (13 %), rozpoznávání hlasu (10 %) a rozpoznávání duhovky (8 %). Zařízení pro ověřování podpisů tvoří 2 % tohoto seznamu. Někteří z nejznámějších výrobců na trhu s hlasovou biometrií jsou Nuance Communications, SpeechWorks, VeriVoice [17] .
V únoru 2016 The Telegraph zveřejnil článek oznamující, že zákazníci britské banky HSBC budou moci přistupovat k účtům a provádět transakce pomocí hlasové identifikace. K přechodu mělo dojít začátkem léta [18] .