Rozpoznávání řeči je automatický proces převodu řečového signálu na digitální informace (například textová data ). Inverzním problémem je syntéza řeči .
První zařízení pro rozpoznávání řeči se objevilo v roce 1952 , dokázalo rozpoznat čísla vyslovená osobou . [1] V roce 1962 byl IBM Shoebox představen na New York Computer Technology Fair .
V roce 1963 byla ve Spojených státech představena miniaturní rozpoznávací zařízení s optickým paměťovým zařízením s názvem „Septron“ ( Sceptron , ale vyslovováno [ˈseptrɑːn] bez „k“), vyvinuté inženýry společnosti Sperry Corporation, [2] provádění jedné nebo druhé sekvence akcí na určité fráze vyslovené lidským operátorem. "Septrony" byly vhodné pro použití v oblasti pevné (drátové) komunikace pro automatizaci vytáčení hlasem a automatický záznam diktovaného textu dálnopisem , mohly být použity ve vojenské sféře (pro hlasové ovládání složitých vzorků vojenské techniky ), letectví (vytvořit „chytrou avioniku “, která reaguje na pilota a členů posádky),povely automatizované řídicí systémy atd. [2] [3] [4] řídící signály do palubního zařízení a jednoslabičný hlas, který mu odpovídá ohledně možnost realizace jím stanoveného úkolu [5] .
Komerční programy pro rozpoznávání řeči se objevily na počátku devadesátých let. Obvykle je používají lidé, kteří kvůli zranění ruky nejsou schopni napsat velké množství textu. Tyto programy (jako je Dragon NaturallySpeaking, VoiceNavigator) převést hlas uživatele do textu, a tím uvolnit jeho ruce. Spolehlivost překladu takových programů není příliš vysoká, ale v průběhu let se postupně zlepšuje.
Nárůst výpočetního výkonu mobilních zařízení umožnil vytvářet pro ně programy s funkcí rozpoznávání řeči. Mezi takovými programy stojí za zmínku aplikace Microsoft Voice Command, která vám umožňuje pracovat s mnoha aplikacemi pomocí vašeho hlasu. Můžete například povolit přehrávání hudby v přehrávači nebo vytvořit nový dokument.
Používání rozpoznávání řeči je stále populárnější v různých oblastech podnikání, například lékař na klinice může vyslovit diagnózy, které se okamžitě zapíší do elektronické karty. Nebo jiný příklad. Každý jistě alespoň jednou v životě snil o tom, že pomocí hlasu zhasne světlo nebo otevře okno. V poslední době se systémy automatického rozpoznávání a syntézy řeči stále více používají v telefonních interaktivních aplikacích. V tomto případě se komunikace s hlasovým portálem stává přirozenější, protože výběr v něm lze provádět nejen pomocí tónové volby, ale také pomocí hlasových příkazů. Systémy rozpoznávání jsou přitom nezávislé na mluvčích, to znamená, že rozpoznávají hlas jakékoli osoby.
Za další krok v technologiích rozpoznávání řeči lze považovat vývoj tzv. rozhraní pro tichý přístup (SSI). Tyto systémy zpracování řeči jsou založeny na příjmu a zpracování řečových signálů v rané fázi artikulace. Tato fáze ve vývoji rozpoznávání řeči je způsobena dvěma významnými nedostatky moderních rozpoznávacích systémů: nadměrnou citlivostí na hluk a také potřebou čisté a zřetelné řeči při přístupu k rozpoznávacímu systému. Přístup založený na SSI spočívá v použití nových bezšumových senzorů k doplnění zpracovaných akustických signálů.
Systémy rozpoznávání řeči jsou klasifikovány: [6]
U systémů automatického rozpoznávání řeči je odolnost proti šumu zajištěna především použitím dvou mechanismů: [7]
„...je zřejmé, že algoritmy zpracování řečových signálů v modelu percepce řeči by měly používat stejný systém pojmů a vztahů, jaké používá osoba“ [8] [9] .
Dnes jsou systémy rozpoznávání řeči postaveny na principech rozpoznávání[ kým? ] formy uznání [ neznámý termín ] . Dosud používané metody a algoritmy lze rozdělit do následujících velkých tříd: [10] [11]
Klasifikace metod rozpoznávání řeči na základě srovnání se standardem.
Kontextově závislá klasifikace. Při jeho implementaci se od řečového proudu odlišují samostatné lexikální prvky – fonémy a alofony, které se následně spojují do slabik a morfémů.
Algoritmus dynamické transformace časové osy se používá k určení, zda řečové signály představují stejnou původní mluvenou frázi.
Jedna z architektur systémů automatického zpracování řeči založená na statistických datech může být následující. [12] [13]
Fáze uznání [12]
Základní pojmy, které charakterizují parametry lidské řeči spojené s tvarem, velikostí, dynamikou změn řečotvorného traktu a popisují emoční stav člověka, lze rozdělit do čtyř skupin objektivních znaků, které umožňují rozlišovat mezi řečí vzory: spektrálně-temporální, kepstrální, amplitudově-frekvenční a znaky nelineární dynamiky. Další podrobnosti, každá skupina funkcí: [9] [14] [15]
Spektrálně-časové vlastnostiSpektrální vlastnosti:
Dočasná znamení:
Spektrálně-časové vlastnosti charakterizují řečový signál v jeho fyzikální a matematické podstatě založené na přítomnosti tří typů složek:
Spektrálně-časové vlastnosti umožňují reflektovat originalitu tvaru časové řady a spektra hlasových impulsů u různých jedinců a vlastnosti filtračních funkcí jejich řečových traktů. Charakterizují rysy toku řeči spojené s dynamikou restrukturalizace artikulačních orgánů řeči mluvčího a jsou integrálními charakteristikami řečového toku, odrážející zvláštnost vztahu nebo synchronismu pohybu artikulačních orgánů řeči. mluvčí.
Cepstrální znameníVětšina moderních systémů automatického rozpoznávání řeči se zaměřuje na extrakci frekvenční odezvy lidského vokálního traktu, přičemž zahazuje charakteristiky budícího signálu. To se vysvětluje tím, že koeficienty prvního modelu poskytují lepší oddělitelnost zvuků. K oddělení excitačního signálu od signálu vokálního traktu se používá kepstrální analýza .
Amplitudo-frekvenční vlastnostiVlastnosti amplitudy a frekvence umožňují získat odhady, jejichž hodnoty se mohou lišit v závislosti na parametrech diskrétní Fourierovy transformace (typ a šířka okna), jakož i s malými posuny okna nad vzorkem. . Řečový signál akusticky představuje zvukové vibrace složité struktury šířící se vzduchem, které jsou charakterizovány ve vztahu k jejich frekvenci (počet vibrací za sekundu), intenzitě (amplituda oscilace) a trvání. Amplitudově-frekvenční znaky přenášejí potřebné a dostatečné informace pro člověka na řečovém signálu s minimální dobou vnímání. Využití těchto znaků ale neumožňuje jejich plné využití jako nástroje pro identifikaci emocionálně zabarvené řeči.
Známky nelineární dynamikyPro skupinu znaků nelineární dynamiky je řečový signál považován za skalární hodnotu pozorovanou v systému hlasových cest člověka. Proces produkce řeči lze považovat za nelineární a lze jej analyzovat metodami nelineární dynamiky. Úkolem nelineární dynamiky je najít a podrobně prostudovat základní matematické modely a reálné systémy, které vycházejí z nejtypičtějších návrhů o vlastnostech jednotlivých prvků tvořících systém a zákonitostech interakce mezi nimi. V současnosti jsou metody nelineární dynamiky založeny na fundamentální matematické teorii, která je založena na Takensově teorému, který přináší rigorózní matematický základ myšlenkám nelineární autoregrese a dokazuje možnost obnovení fázového portrétu atraktoru z časové řady nebo z jedné z jejích souřadnic. (Atraktor je množina bodů nebo podprostoru ve fázovém prostoru, ke kterému se fázová trajektorie přibližuje po rozpadu přechodových jevů.) Odhady signálových charakteristik z rekonstruovaných trajektorií řeči se používají při konstrukci nelineárního deterministického fázového prostoru. modely sledovaných časových řad. Odhalené rozdíly ve formě atraktorů lze využít pro diagnostická pravidla a rysy, které umožňují rozpoznat a správně identifikovat různé emoce v emočně zabarveném řečovém signálu.
Parametry kvality řeči pro digitální kanály: [17]
Za hlavní výhodu hlasových systémů byla deklarována uživatelská přívětivost . Řečové příkazy měly koncového uživatele ušetřit nutnosti používat dotykové a další způsoby zadávání dat a příkazů.
Úspěšné příklady použití technologie rozpoznávání řeči v mobilních aplikacích jsou: zadání adresy hlasem do Yandex.Navigator, hlasové vyhledávání Google Now.
Kromě mobilních zařízení je technologie rozpoznávání řeči široce používána v různých obchodních oblastech:
Slovníky a encyklopedie | |
---|---|
V bibliografických katalozích |
|
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |