Rozhraní tichého přístupu

Rozhraní tichého přístupu ( anglicky silent speech interfaces , SSI ) - systémy zpracování řeči založené na příjmu a zpracování řečových signálů v rané fázi artikulace .

Historie

Rozhraní s tichým přístupem mají velmi nedávnou historii, která sahá až do počátku 21. století. V posledním desetiletí se výkon systémů automatického zpracování řeči, včetně rozpoznávání řeči , rozpoznávání textu, překladu a syntézy řeči, výrazně zlepšil. To vedlo k používání řečové a řečové technologie v širokém spektru služeb, jako jsou systémy pro vyhledávání informací, call centra , hlasové ovládání mobilních telefonů a navigačních systémů automobilů , osobní překladatelé a použití řečové technologie v bezpečnosti. Avšak řečová rozhraní založená na tradičních akustických řečových signálech mají stále řadu významných omezení.
Za prvé, akustické signály přenášené vzduchem podléhají zkreslení v důsledku hluku . Spolehlivé systémy pro zpracování řeči, které by bezchybně fungovaly v přeplněných restauracích, na letištích a dalších veřejných místech, navzdory titánskému úsilí, stále nejsou v dohledu.
Za druhé, tradiční řečová rozhraní vyžadují jasnou a srozumitelnou řeč, která má dvě hlavní nevýhody: na veřejném místě narušuje důvěrnost zprávy a za druhé ruší ostatní. Služby, které vyžadují přístup, vyhledávání a přenos soukromých nebo důvěrných informací, jako jsou PIN a hesla, jsou obzvláště zranitelné.

Na počátku 21. století byla k vyřešení tohoto problému navržena rozhraní pro tichý přístup , která uživatelům umožňují komunikovat mluvením „potichu“, to znamená, že nevydávají žádné zvuky. To se děje přijímáním řečových signálů v raných stádiích lidské artikulace, jmenovitě předtím, než se řeč objeví ve vzduchu; poté jsou artikulační signály přenášeny do systému pro další zpracování a interpretaci. Díky tomuto novému přístupu mají rozhraní pro tichý přístup potenciál překonat hlavní nedostatky dnešních tradičních hlasových rozhraní:

omezení spolehlivosti rozpoznávání řečového signálu v přítomnosti hluku na pozadí,
nedostatečná spolehlivost při přenosu soukromých a důvěrných informací,
obavy druhých.

Rozhraní pro tichý přístup by navíc mohla být alternativou pro osoby s poruchami řeči (např. po laryngektomii) a pro starší nebo oslabené lidi, kteří nemohou mluvit dostatečně nahlas, jasně a srozumitelně.

Technologie

pak. H. Chan et al prokázali ( 2001 , 2002) [1] , že myoelektrický signál z artikulačních obličejových svalů obsahuje dostatek informací pro přesné rozlišení malého souboru slov. Tato slova jsou rozpoznána, i když jsou vyslovena tiše, tj. bez zvukového signálu (Jorgensen et al. 2003, Bradley et al. 2006). Nedávné práce naznačují, že rozpoznávání fonematických jednotek na základě elektromyografických (EMG) jednotek (Jou et al. 2006, Walliczek et al. 2006) otevírá cestu k rozpoznávání rozsáhlých základů slovní zásoby.

Nedávno se také objevil výzkum, který umožňuje vývoj tichého přístupového rozhraní založeného na pohybech jazyka a rtů pomocí ultrazvuku a optického zobrazování (Denby a Stone 2004, Denby et al. 2006, Hueber et al. 2007).

Systémy SSI, které převádějí „bručení“ na řeč, jsou vyvinuty převážně v Japonsku . Ve Spojených státech DARPA financuje výzkum glotální aktivity pro použití senzorů v hlučném prostředí:

V rámci programu moderního kódování řeči ( anglicky Advanced speech encoding , zkr. ASE ) [2] budou vyvinuty technologie, které umožní výměnu informací ve ztížených vojenských podmínkách.

Za posledních 50 let byl učiněn velký pokrok ve vývoji hlasového kodéru ( vocoderu ) , ale velkou výzvou zůstává kódování hlasu s ultra -nízkou bitovou rychlostí (ULBR) při 300 bps. Zejména vokodéry ULBR stále nemají kvalitní analyzátor řeči, který by bez rušení rozpoznal řeč mluvčího; tyto nevýhody jsou zveličené v akusticky obtížných prostředích (například v hlučném prostoru nebo v prostoru s dozvukem zvuku).

Přístup sledovaný programem Advanced Speech Encoding (ASE) spočívá v použití nových senzorů , které nejsou ovlivněny šumem, jako doplněk ke zpracovaným akustickým signálům (viz obrázek). Tyto senzory budou prozkoumány z hlediska jejich potenciálu, aby bylo možné použít předřečovou/slyšitelnou řeč jako alternativní prostředek komunikace v akusticky drsných a nebezpečných prostředích, kde je povinná vojenská kamufláž.

—

Viz také

Odkazy

Speciální přednáška o rozhraních tiché řeči
Alexej Yesaulenko . Špatné dobré IVR // "Sítě / síťový svět" č. 4, 2010

Poznámky

↑ Zabalit. H. Chan Handbook of Neurochemistry and Molecular Neurobiology
↑ Pokročilé kódování řeči Archivováno 6. března 2016 na Wayback Machine . Síť virtuálních světů.