Microsoft Speech API
Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od
verze recenzované 3. prosince 2014; kontroly vyžadují
6 úprav .
Speech Application Programming Interface (SAPI) je aplikační programovací rozhraní založené na COM pro rozpoznávání a syntézu řeči.
Rozpoznávání řeči
Rozpoznávání řeči je proces převodu mluveného slova na tištěný text. Rozpoznávání řeči zahrnuje:
- zachycení a digitalizace zvuku mluveného do mikrofonu;
- převod digitalizovaného zvuku na fonémy ;
- konstrukce z fonémů slov;
- analýza kontextu, ve kterém bylo slovo vysloveno, a v případě potřeby nahrazení slov podobnými.
Rozpoznávací modul (motor pro rozpoznávání textu) iterativně porovnává rozpoznaný text s gramatickými pravidly aplikace, a pokud se text shoduje s řadou pravidel, vygeneruje výstupní proud XML pomocí jazyka SML ( Semantic Markup Language ) . Výstupní proud obsahuje rozpoznaný text, správné pravděpodobnosti rozpoznání a může obsahovat sémantické hodnoty přiřazené pomocí značek interpretace sémantiky . Rozpoznaný text se běžně používá pro zadávání dat pomocí diktování a pro ovládání aplikací pomocí hlasových příkazů.
Velikost gramatických pravidel omezuje schopnost rozpoznávání textu. Většina programů, které podporují diktování, je naladěna na řečové vzory konkrétního uživatele, aby bylo zajištěno co nejpřesnější rozpoznání. Režim ovládání hlasových příkazů je jednodušší na implementaci, protože obsah gramatických pravidel je omezen na dostupné příkazy [1] .
Syntéza řeči
Syntéza řeči je proces převodu textu na mluvená slova. Syntéza řeči zahrnuje:
- dělení slov na fonémy;
- vyhledání textu, který je třeba převést na znaky, jako jsou čísla, částky měny a interpunkce;
- generování digitálního zvuku pro přehrávání.
Moduly převodu textu na řeč mohou používat jednu ze dvou metod hlasové syntézy:
- vytvářet zvuky podobné hlasivkám a pomocí různých filtrů modelovat délku hrdla, tvar úst, polohu rtů a jazyka;
- shromážděte jej z četných řečí zaznamenaných hlasatelem.
Poznámky
- ↑ Tomashenko N. A., Khokhlov Yu. Yu.// STUDIE PROBLÉMU ROVNOVÁHY DAT PŘI KONSTRUKCI AKUSTICKÝCH MODELŮ SYSTÉMŮ AUTOMATICKÉHO ROZPOZNÁVÁNÍ ŘEČI Archivní kopie ze dne 19. září 2015 na Wayback Machine . - Článek. - Přístrojové vybavení. - MDT 004.934
Odkazy
Představujeme technologii Computer Speech Technology (anglicky) (nedostupný odkaz) . Knihovna MSDN . Microsoft (2012). Získáno 24. července 2012. Archivováno z originálu dne 29. září 2012.
syntéza řeči |
---|
Proprietární software |
- Prohlížejte nahlas
- CereProc
- DECtalk
- IVONA
- Microsoft Agent
- Microsoft Speech API
- Microsoft text-to-speech hlasy
- Reproduktor pro čtení
- Mluv to!
- hlasový prohlížeč
- Vocaloid
- Cantor
- hlasový ovladač
- Utau
- Software Automatic Mouth
- CoolSpeech
- La La Voice
- Symfonické sbory
- Realivox
- Kreativní studio CeVIO
- Chipsspeech
- Alter/Ego
- PPG Phonem
|
---|
svobodný software |
|
---|
Auto |
- echo 2
- Přehrávání vzoru
- Fázor
- RIAS
- Řečové čipy Texas Instruments LPC
- TuVox
|
---|
Aplikace |
- AOLbyPhone
- Dialogový OS
- Dr. Sbaitso
- MBROLA
- Microsoft Narrator
- Microsoft Speech Server
- PlainTalk
- hlasové písmo
|
---|
Protokoly | Značkovací jazyk syntézy řeči |
---|
Vývojáři / výzkumníci |
|
---|
Proces |
- Artikulační syntéza
- Konkatenativní syntéza
- Currah
- inverzní filtr
- PSOLA
- Fázový vokodér
- SOBOLÍ
- Sebevyjádření
|
---|