Microsoft Speech API

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. prosince 2014; kontroly vyžadují 6 úprav .

Speech Application Programming Interface (SAPI) je aplikační programovací rozhraní založené na COM pro rozpoznávání a syntézu řeči.

Rozpoznávání řeči

Rozpoznávání řeči je proces převodu mluveného slova na tištěný text. Rozpoznávání řeči zahrnuje:

Rozpoznávací modul (motor pro rozpoznávání textu) iterativně porovnává rozpoznaný text s gramatickými pravidly aplikace, a pokud se text shoduje s řadou pravidel, vygeneruje výstupní proud XML pomocí jazyka SML ( Semantic Markup Language ) .  Výstupní proud obsahuje rozpoznaný text, správné pravděpodobnosti rozpoznání a může obsahovat sémantické hodnoty přiřazené pomocí značek interpretace sémantiky . Rozpoznaný text se běžně používá pro zadávání dat pomocí diktování a pro ovládání aplikací pomocí hlasových příkazů.

Velikost gramatických pravidel omezuje schopnost rozpoznávání textu. Většina programů, které podporují diktování, je naladěna na řečové vzory konkrétního uživatele, aby bylo zajištěno co nejpřesnější rozpoznání. Režim ovládání hlasových příkazů je jednodušší na implementaci, protože obsah gramatických pravidel je omezen na dostupné příkazy [1] .

Syntéza řeči

Syntéza řeči je proces převodu textu na mluvená slova. Syntéza řeči zahrnuje:

Moduly převodu textu na řeč mohou používat jednu ze dvou metod hlasové syntézy:

Poznámky

  1. Tomashenko N. A., Khokhlov Yu. Yu.// STUDIE PROBLÉMU ROVNOVÁHY DAT PŘI KONSTRUKCI AKUSTICKÝCH MODELŮ SYSTÉMŮ AUTOMATICKÉHO ROZPOZNÁVÁNÍ ŘEČI Archivní kopie ze dne 19. září 2015 na Wayback Machine . - Článek. - Přístrojové vybavení. - MDT 004.934

Odkazy

Představujeme technologii Computer Speech Technology  (anglicky)  (nedostupný odkaz) . Knihovna MSDN . Microsoft (2012). Získáno 24. července 2012. Archivováno z originálu dne 29. září 2012.