ESpeak

eSpeak

Typ	syntezátor řeči
Autor	Jonathan Duddington
Zapsáno v	C++
Operační systém	Linux a další UNIXové , Windows
První vydání	2006 [1]
Nejnovější verze	1.48.04 ( 6. dubna 2014 [1] )
Testovací verze	1.48.15 ( 16. dubna 2015 ) [2]
Stát	neaktivní
Licence	GNU GPL
webová stránka	espeak.sourceforge.net
Mediální soubory na Wikimedia Commons

eSpeak je kompaktní svobodný softwarový syntetizér řeči , který podporuje jazyk SSML ( Speech Synthesis Markup Language ). Původní projekt je v současné době neaktivní kvůli zmizení jeho autora Jonathana Daddingtona [3] . vyvíjí fork eSpeakNG

Operační systémy

Verze eSpeak existují pro operační systémy jako Microsoft Windows , Mac OS X , Linux , RISC OS a dostupný je také jeho zdrojový kód C++ . Oficiální dokumentace syntezátoru navíc uvádí pokyny pro jeho kompilaci pod Windows Mobile . Program má jedno podstatné omezení – generování hlasu je možné pouze ve WAV souboru. [čtyři]

Kromě toho se eSpeak používá v mobilních operačních systémech Android od verze 1.6 a Maemo , ale tyto projekty nejsou osobně pod dohledem vývojáře a na oficiálních stránkách eSpeak nejsou žádné odpovídající balíčky a verze pro Android má číslo významných chyb při práci v některých jazycích, zejména v ruštině. [5]

Verze pro Windows a Linux jsou pravidelně aktualizovány spolu se zdrojovým kódem, zatímco verze pro Mac a RISC již delší dobu nejsou podporovány.

Verze eSpeak pro Windows je napsána pro platformu Microsoft Speech API 5.x a je k dispozici také jako konzolový nástroj. Verze Mac OS X je samostatná aplikace, která není zabudována do systémové hlasové služby společnosti Apple a vyžaduje ruční konfiguraci. Existuje však možnost zrychlené instalace pomocí speciálního balíčku eSpeak Macintosh Installer. [6]

Podporované jazyky

eSpeak podporuje asi pět desítek různých jazyků. Při instalaci musí uživatel specifikovat, které dialekty má zájem podporovat. [7]

Níže je uveden seznam jazyků podporovaných syntezátorem eSpeak a jejich označení, která se používají v jeho nastavení.

albánština - sq
Angličtina (americká) – en-us
Angličtina (severní Britové) - en-n
Angličtina (Britština s přízvukem West Midland) - en-wm
angličtina (klasická britská) - en
Angličtina (obecný mluvený jazyk) - en-rp
Angličtina (skotština) - en-sc
arménský (západní) - hy-západ
arménský (klasický) - hy
afrikánština – af
bosenský - bs
velština - cy
maďarsky - hu
Vietnamci - vi
holandština - nl
Hlasy MBROLA (hlas xxx) - mb-xxx
Řecké - el
starověká řečtina - grc
Indonéština - id
islandský - je
Španělština (klasická) - es
Španělština (latinskoamerická) - es-la
italsky - it
Katalánština - cca
Čínština ( kantonština ) - zh-yue
čínština ( Putonghua ) - zh
kurdské - ku
latina - la
lotyština - lv
Lojban - jbo
makedonský - mk
německy - de
Norština - ne
polština - pl
portugalština (brazilská) - pt
portugalština (evropská) - pt-pt
rumunština - ro
ruština - ru
Srbština - sr
slovensky - sk
slovinština - sw
tamilština - ta
turečtina - tr
finština - fi
francouzština - fr
Hindština - ahoj
chorvatština - hr
čeština (hovorová) - cs
švédština - sv
Esperanto - eo

Seznam podporovaných jazyků lze také rozšířit pomocí hlasových knihoven MBROLA, které lze připojit k eSpeak.

eSpeak a MBROLA

MBROLA je speciální algoritmus difonické syntézy řeči, na jehož základě bylo vytvořeno mnoho různých softwarových produktů se zahrnutím technologie převodu textu na řeč (TTS). Tento projekt drží rekord mezi ostatními technologiemi syntézy řeči, pokud jde o počet různých jazyků, pro které byl použit. Přestože hlasy MBROLA pro některé běžné jazyky, včetně ruštiny, ještě nebyly vytvořeny. [osm]

eSpeak může pracovat ve spojení s MBROLA, což umožňuje používat hlasové knihovny tohoto projektu jako součást samotného eSpeak. To vám umožní dále rozšířit seznam podporovaných jazyků pro syntézu řeči na text.

eSpeak a MBROLA můžete používat na operačních systémech jako Windows , Linux [8] a Mac OS X [6] .

Ne všechny hlasové knihovny MBROLA však podporují integraci eSpeak.

Principy implementace

Slova vstupního textu, který se má syntetizovat, procházejí dvěma fázemi zpracování:

slovo v doslovném zastoupení je převedeno na posloupnost fonémů;
na základě přijímané sekvence je generován zvukový signál.

Pravidla pro získání posloupnosti fonémů jsou uložena ve tvaru „A, B, C = D“. Kde B je dotyčné písmeno, A a C jsou kontext prostředí tohoto písmene ve slově a D je foném, na který lze toto písmeno převést. Kontext prostředí lze specifikovat jak konkrétními písmeny, tak speciálními znaky označujícími skupiny písmen. Pravidla syntezátoru umožňují nejednoznačnou definici takových řetězců. Aby se tato nejednoznačnost vyřešila, syntezátor přiřadí každému pravidlu prioritu, která se vypočítá na základě počtu písmen zahrnutých v pravidle a specifičnosti definice kontextu prostředí. Pravidla mohou také specifikovat rozdíly v překladu v závislosti na přízvuku.

V eSpeak jsou zvuky samohlásek vždy syntetizovány, znělé souhlásky jsou získávány smícháním syntetizovaných zvuků s předem nahranými zvuky hlasu a všechny ostatní zvuky jsou jednoduše zaznamenány, například [w].

Každý zvuk, kromě neznělých souhlásek, je reprezentován posloupností formantů. Kromě informací o formantech má každý foném informace o jeho amplitudě, délce zvuku a zpoždění před dalším fonémem. Na základě těchto parametrů je zvuk samohlásky syntetizován pomocí algoritmů implementovaných v syntezátoru. Informace o fonémech a formantech jsou uloženy v samostatných souborech, které jsou také následně kompilovány do binárního formátu.

Nástroj eSpeak Edit je dodáván se syntezátorem. Toto je GUI aplikace napsaná pomocí knihovny WXLib. Umožňuje vizuálně upravovat hotové fonémy. Foném je reprezentován jako křivkový graf, kde lze postupně vybírat formanty a měnit jejich hodnoty, jako je frekvence, výška a šířka. Díky těmto vlastnostem můžete na základě hotových fonémů získat nové, přesnější zvuky pro určitý jazyk. Některé z fonémů přitom nelze získat úpravou stávajících. Například při vývoji ruskojazyčné části eSpeak byl zvuk [r] speciálně zaznamenán, protože v jiných jazycích pro něj neexistoval žádný hodný analog. [9]

Projekty využívající eSpeak

eSpeak je open source projekt, díky tomu jej někteří vývojáři integrovali do svých produktů.

NVDA

eSpeak se používá jako hlavní syntetizér řeči v nekomerčním open source čtečce obrazovky NVDA . S jeho pomocí se ozve hlasový proces instalace programu a je to také výchozí hlas při prvním spuštění.

Syntetizátor řeči "Kapitán"

V dalším řečovém syntezátoru Captain, který vyvinuli Anatolij Kamynin a Gennadij Nefedov, je na bázi eSpeak postaven další balíček, který poskytuje samostatné čtení vícejazyčných textů: ruský nebo ukrajinský text čte syntezátor Captain a anglický, francouzský popř. Němčina od syntezátoru eSpeak. Tato funkce je implementována v Captain Speech Synthesizer jak ve verzi pod MS Speech API 4 [10] , tak ve verzi pod MS Speech API 5.x [11] .

Doplňky třetích stran

Některé jazyky nemají jednoduchá a univerzální pravidla pro vytváření gramotné řeči a eSpeak vyžaduje další komponenty pro vytváření vysoce kvalitní syntézy v těchto jazycích. Aby nedošlo ke zvětšení velikosti hlavního balíčku eSpeak, jsou tyto komponenty distribuovány samostatně. Zejména v ruštině neexistují žádná obecná pravidla, která by ve slovech stanovila přízvučnou slabiku. V těchto případech se eSpeak snaží určit přízvuk slova, ale tato výslovnost často neodpovídá té správné. K vyřešení tohoto problému existuje speciální rozšířený slovník výslovnosti, který je nutné nainstalovat odděleně od hlavního balíčku eSpeak.

Kromě ruštiny jsou pro čínštinu (putonghua a kantonština) k dispozici také komponenty pro korekci řeči eSpeak třetích stran.

Tyto slovníky si můžete stáhnout z oficiálních stránek projektu.

Viz také

Poznámky

↑ 1 2 úložiště eSpeak . . Získáno 14. srpna 2013. Archivováno z originálu 17. května 2013. (neurčitý)
↑ http://espeak.sourceforge.net/test/latest.html
↑ Převzetí vlastnictví projektu eSpeak a jeho budoucnosti . Staženo 14. ledna 2019. Archivováno z originálu 15. ledna 2019. (neurčitý)
↑ Manakhov P. - Přehled mobilních enginů Text-To-Speech . Získáno 20. května 2011. Archivováno z originálu 12. října 2011. (neurčitý)
↑ Tseykovets N. – Přehled syntetizátorů řeči v ruském jazyce pro OS Android . Získáno 26. března 2012. Archivováno z originálu dne 3. dubna 2012. (neurčitý)
↑ 1 2 Tseykovets N. – Instalace syntezátoru eSpeak v prostředí Mac OS X pomocí instalačního programu eSpeak Macintosh . Získáno 2. května 2011. Archivováno z originálu 11. října 2011. (neurčitý)
↑ Pokyny k instalaci eSpeak . Získáno 2. května 2011. Archivováno z originálu 22. ledna 2012. (neurčitý)
↑ 1 2 Tseykovets N. - Použití hlasů MBROLA v prostředí MS Windows . Získáno 2. května 2011. Archivováno z originálu dne 3. června 2011. (neurčitý)
↑ Pozhidaeva R. - Rusifikace syntetizéru espeakové řeči: Úvod . Získáno 2. května 2011. Archivováno z originálu 16. června 2012. (neurčitý)
↑ Syntetizátor řeči "Kapitán" (verze pro MS SAPI 4) . Získáno 2. května 2011. Archivováno z originálu dne 28. června 2012. (neurčitý)
↑ Syntetizátor řeči "Kapitán" (verze pro MS SAPI 5.x) . Získáno 2. května 2011. Archivováno z originálu 17. července 2011. (neurčitý)

Odkazy

syntéza řeči
Proprietární software	Prohlížejte nahlas CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-to-speech hlasy Reproduktor pro čtení Mluv to! hlasový prohlížeč Vocaloid Cantor hlasový ovladač Utau Software Automatic Mouth CoolSpeech La La Voice Symfonické sbory Realivox Kreativní studio CeVIO Chipsspeech Alter/Ego PPG Phonem
svobodný software	eSpeak Gnuspeech Festivalový systém syntézy řeči FreeTTS Gnopernicus Orca Sinsy Automatická textová čtečka
Auto	echo 2 Přehrávání vzoru Fázor RIAS Řečové čipy Texas Instruments LPC TuVox
Aplikace	AOLbyPhone Dialogový OS Dr. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk hlasové písmo
Protokoly	Značkovací jazyk syntézy řeči
Vývojáři / výzkumníci	Catherine Browmanová Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignác Mattingly Filip Rubin Hlasový web VoiceXML Yamaha
Proces	Artikulační syntéza Konkatenativní syntéza Currah inverzní filtr PSOLA Fázový vokodér SOBOLÍ Sebevyjádření