Microsoft Speech API

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. prosince 2014; kontroly vyžadují 6 úprav .

Speech Application Programming Interface (SAPI) je aplikační programovací rozhraní založené na COM pro rozpoznávání a syntézu řeči.

Rozpoznávání řeči

Rozpoznávání řeči je proces převodu mluveného slova na tištěný text. Rozpoznávání řeči zahrnuje:

zachycení a digitalizace zvuku mluveného do mikrofonu;
převod digitalizovaného zvuku na fonémy ;
konstrukce z fonémů slov;
analýza kontextu, ve kterém bylo slovo vysloveno, a v případě potřeby nahrazení slov podobnými.

Rozpoznávací modul (motor pro rozpoznávání textu) iterativně porovnává rozpoznaný text s gramatickými pravidly aplikace, a pokud se text shoduje s řadou pravidel, vygeneruje výstupní proud XML pomocí jazyka SML ( Semantic Markup Language ) . Výstupní proud obsahuje rozpoznaný text, správné pravděpodobnosti rozpoznání a může obsahovat sémantické hodnoty přiřazené pomocí značek interpretace sémantiky . Rozpoznaný text se běžně používá pro zadávání dat pomocí diktování a pro ovládání aplikací pomocí hlasových příkazů.

Velikost gramatických pravidel omezuje schopnost rozpoznávání textu. Většina programů, které podporují diktování, je naladěna na řečové vzory konkrétního uživatele, aby bylo zajištěno co nejpřesnější rozpoznání. Režim ovládání hlasových příkazů je jednodušší na implementaci, protože obsah gramatických pravidel je omezen na dostupné příkazy [1] .

Syntéza řeči

Syntéza řeči je proces převodu textu na mluvená slova. Syntéza řeči zahrnuje:

dělení slov na fonémy;
vyhledání textu, který je třeba převést na znaky, jako jsou čísla, částky měny a interpunkce;
generování digitálního zvuku pro přehrávání.

Moduly převodu textu na řeč mohou používat jednu ze dvou metod hlasové syntézy:

vytvářet zvuky podobné hlasivkám a pomocí různých filtrů modelovat délku hrdla, tvar úst, polohu rtů a jazyka;
shromážděte jej z četných řečí zaznamenaných hlasatelem.

Poznámky

↑ Tomashenko N. A., Khokhlov Yu. Yu.// STUDIE PROBLÉMU ROVNOVÁHY DAT PŘI KONSTRUKCI AKUSTICKÝCH MODELŮ SYSTÉMŮ AUTOMATICKÉHO ROZPOZNÁVÁNÍ ŘEČI Archivní kopie ze dne 19. září 2015 na Wayback Machine . - Článek. - Přístrojové vybavení. - MDT 004.934

Odkazy

Představujeme technologii Computer Speech Technology (anglicky) (nedostupný odkaz) . Knihovna MSDN . Microsoft (2012). Získáno 24. července 2012. Archivováno z originálu dne 29. září 2012.

syntéza řeči
Proprietární software	Prohlížejte nahlas CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-to-speech hlasy Reproduktor pro čtení Mluv to! hlasový prohlížeč Vocaloid Cantor hlasový ovladač Utau Software Automatic Mouth CoolSpeech La La Voice Symfonické sbory Realivox Kreativní studio CeVIO Chipsspeech Alter/Ego PPG Phonem
svobodný software	eSpeak Gnuspeech Festivalový systém syntézy řeči FreeTTS Gnopernicus Orca Sinsy Automatická textová čtečka
Auto	echo 2 Přehrávání vzoru Fázor RIAS Řečové čipy Texas Instruments LPC TuVox
Aplikace	AOLbyPhone Dialogový OS Dr. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk hlasové písmo
Protokoly	Značkovací jazyk syntézy řeči
Vývojáři / výzkumníci	Catherine Browmanová Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignác Mattingly Filip Rubin Hlasový web VoiceXML Yamaha
Proces	Artikulační syntéza Konkatenativní syntéza Currah inverzní filtr PSOLA Fázový vokodér SOBOLÍ Sebevyjádření