Syntéza řeči

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 23. června 2021; kontroly vyžadují 32 úprav .

Syntéza řeči  - v širokém slova smyslu - obnovení formy řečového signálu podle jeho parametrů [1] ; v užším smyslu - tvorba řečového signálu z tištěného[ upřesnit ] text . Část umělé inteligence .

Syntéza řeči je  především vše, co souvisí s umělou produkcí lidské řeči.

Syntezátor řeči  je rámec schopný překládat text/obrázky do řeči v softwaru a/nebo hardwaru.

Hlasový engine  je přímo textový/příkazový systém/jádro, může existovat i nezávisle na počítači.

Aplikace syntézy řeči

Syntéza řeči může být vyžadována ve všech případech, kdy je příjemcem informace osoba. Kvalita syntetizéru řeči se posuzuje především podle podobnosti s lidským hlasem a také podle schopnosti rozumět. Nejjednodušší syntetizovanou řeč lze vytvořit kombinací částí nahrané řeči, která se následně uloží do databáze. A kupodivu se s tímto způsobem syntézy již setkáváme všude, někdy aniž bychom tomu věnovali pozornost.

Metody syntézy řeči

Všechny metody syntézy řeči lze rozdělit do skupin: [2]

Parametrická syntéza

Parametrická syntéza řeči je vrcholnou operací v systémech vokodérů , kde je řečový signál reprezentován sadou malého počtu průběžně se měnících parametrů. Parametrickou syntézu je vhodné použít v případech, kdy je množina zpráv omezená a nemění se příliš často. Výhodou této metody je možnost záznamu řeči pro jakýkoli jazyk a jakéhokoli mluvčího . Kvalita parametrické syntézy může být velmi vysoká (v závislosti na stupni komprese informace v parametrické reprezentaci). Parametrickou syntézu však nelze aplikovat na libovolné, nepředdefinované zprávy.

Syntéza kompilace

Syntéza kompilace je redukována na sestavení zprávy z předem nahraného slovníku prvků počáteční syntézy. Velikost prvků syntézy není menší než slovo. Je zřejmé, že obsah syntetizovaných zpráv je pevně daný objemem slovníku. Počet slovníkových jednotek zpravidla nepřesahuje několik set slov. Hlavním problémem při kompilaci syntézy je množství paměti pro uložení slovníku. V tomto ohledu se používají různé způsoby komprese/kódování řečového signálu. Kompilativní syntéza má široké praktické využití. V západních zemích jsou systémy hlasové odezvy vybaveny různými zařízeními (od vojenských letadel až po domácí zařízení). V Rusku byly donedávna systémy hlasové odezvy využívány především v oblasti vojenské techniky, nyní se stále častěji používají v každodenním životě, například v pomocných službách mobilních operátorů při získávání informací o stavu účastnického účtu.

Kompletní syntéza řeči podle pravidel

Plná syntéza řeči podle pravidel (nebo syntéza pomocí tištěného textu) poskytuje kontrolu nad všemi parametry řečového signálu a může tak generovat řeč z dříve neznámého textu. V tomto případě jsou parametry získané během analýzy řečového signálu uloženy do paměti stejným způsobem jako pravidla pro spojování zvuků do slov a frází . Syntéza je realizována modelováním vokálního traktu pomocí analogové nebo digitální technologie. Navíc v procesu syntézy jsou hodnoty parametrů a pravidla pro spojování fonémů zadávány postupně v určitém časovém intervalu, například 5–10 ms. Metoda syntézy řeči z tištěného textu (syntéza podle pravidel) je založena na naprogramované znalosti akustických a jazykových omezení a přímo nevyužívá prvky lidské řeči. V systémech založených na této metodě syntézy se rozlišují dva přístupy. První přístup je zaměřen na sestavení modelu systému produkujícího lidskou řeč, je známý jako artikulační syntéza . Druhým přístupem je syntéza formantů podle pravidel . Srozumitelnost a přirozenost takových syntezátorů lze přivést na hodnoty srovnatelné s charakteristikami přirozené řeči.

Syntéza řeči podle pravidel pomocí dříve zapamatovaných segmentů přirozeného jazyka je druh syntézy řeči podle pravidel, která se rozšířila díky nástupu možnosti manipulace s řečovým signálem v digitalizované podobě. V závislosti na velikosti počátečních prvků syntézy se rozlišují následující typy syntéz:

Obvykle se jako takové prvky používají poloslabiky - segmenty obsahující polovinu souhlásky a polovinu samohlásky, která k ní přiléhá. V tomto případě je možné syntetizovat řeč z předem určeného textu, ale je obtížné ovládat intonační charakteristiky. Kvalita takové syntézy neodpovídá kvalitě přirozené řeči, protože na hranicích difonového sešívání často dochází ke zkreslení. Kompilace řeči z předem nahraných slovních tvarů také neřeší problém vysoce kvalitní syntézy libovolných zpráv, protože akustické a prozodické (trvání a intonace) vlastnosti slov se mění v závislosti na typu fráze a místě slova ve frázi. . Tato poloha se nemění ani při použití velkého množství paměti k ukládání tvarů slov.

Doménově orientovaná syntéza

Syntéza specifická pro doménu kompiluje předem nahraná slova a fráze, aby vytvořila kompletní řečové zprávy. Používá se v aplikacích, kde bude rozmanitost systémových textů omezena na určité téma/doménu, jako jsou hlášení vlaků a předpovědi počasí . Tato technologie se snadno používá a komerčně se používá již dlouhou dobu: používá se také při výrobě elektronických zařízení, jako jsou mluvící hodiny a kalkulačky . Přirozenost zvuku těchto systémů může být potenciálně vysoká vzhledem k tomu, že rozmanitost typů vět je omezená a úzce odpovídá intonaci originálních nahrávek. A protože jsou tyto systémy omezeny výběrem slov a frází v databázi, nemohou být dále široce používány v oblastech lidské činnosti, jen proto, že jsou schopny syntetizovat kombinace slov a frází, pro které byly naprogramovány.

Historie

Na konci 18. století vytvořil dánský vědec Christian Kratzenstein , řádný člen Ruské akademie věd , model lidského vokálního traktu schopného vyslovovat pět dlouhých samohlásek ( a , e , a , o , u ). Předlohou byla soustava akustických rezonátorů různých tvarů, které produkovaly samohlásky pomocí vibrujících jazýčků buzených proudem vzduchu. V roce 1778 rakouský vědec Wolfgang von Kampelen doplnil Kratzensteinův model o modely jazyka a rtů a představil akusticko- mechanický mluvící stroj schopný reprodukovat určité zvuky a jejich kombinace. Syčení a pískání se foukalo pomocí speciálního ručně ovládaného kožichu. V roce 1837 představil vědec Charles Wheatstone vylepšenou verzi stroje schopného produkovat samohlásky a většinu souhlásek . A v roce 1846 předvedl Joseph Faber svůj mluvící orgán Euphonia , ve kterém byl učiněn pokus o syntézu nejen řeči, ale i zpěvu.

Slavný vědec Alexander Bell vytvořil na konci 19. století vlastní „mluvící“ mechanický model, designově velmi podobný Wheatstoneově stroji. S příchodem 20. století začala éra elektrických strojů a vědci dostali příležitost používat generátory zvukových vln a na jejich základě stavět algoritmické modely.

Ve 30. letech 20. století pracovník Bell Labs Homer Dudley , pracující na problému hledání způsobů, jak snížit šířku pásma potřebnou v telefonii, aby se zvýšila její přenosová kapacita, vyvinul VOCODER (zkratka pro anglický  hlas  - hlas, anglický  kodér  - kodér) je klávesnice. -řízený elektronický analyzátor a syntezátor řeči. Dudleyho myšlenkou bylo analyzovat hlasový signál, rozebrat ho a znovu syntetizovat do méně náročné šířky pásma. Vylepšená verze Dudleyho vokodéru , VODER, byla představena v roce 1939 na světové výstavě v New Yorku [3] .

První syntezátory řeči zněly poněkud nepřirozeně a často bylo stěží možné rozeznat fráze, které reprodukovaly. Kvalita syntetizované řeči se však neustále zlepšovala a řeč generovaná moderními systémy syntézy řeči je někdy k nerozeznání od skutečné lidské řeči. Ale navzdory úspěchu elektronických syntetizérů řeči stále probíhá výzkum v oblasti mechanických syntetizérů řeči, například pro použití v humanoidních robotech . [čtyři]

První systémy pro syntézu řeči založené na počítači se začaly objevovat koncem 50. let a první syntezátor textu na řeč byl vytvořen v roce 1968 .

V roce 2005 Kurzweil předpověděl, že vzhledem k tomu, že hodnota za peníze zlevní a zpřístupní řečové syntetizéry, bude z používání programů pro převod textu na řeč těžit více lidí. [5]

Současnost a budoucnost

Zatím je předčasné hovořit o nějaké slibné budoucnosti pro nadcházející desetiletí syntézy řeči podle pravidel , protože zvuk stále nejvíce připomíná řeč robotů a na některých místech je také obtížné řeči rozumět. Můžeme přesně určit, zda řečový syntetizér mluví mužským nebo ženským hlasem, a někdy stále nerozlišujeme jemnosti, které jsou lidskému hlasu vlastní. Vývojová technologie se proto částečně odklonila od vlastní konstrukce syntézy řečových signálů, ale stále využívá nejjednodušší segmentaci hlasového záznamu.

Hybridní syntézu řeči lze použít k nabourání se do systémů rozpoznávání řeči . [6]

Viz také

Poznámky

  1. V této definici převod akustického tlaku na elektrické napětí a naopak v mikrofonu a telefonu, stejně jako nahrávání a přehrávání například z magnetických médií, nejsou syntézou. Vzorkování a kvantování řečového signálu v pulzní kódové modulaci také nesouvisí se syntézou řeči, ale generování řečového signálu v systémech vokodéru lze považovat za syntézu.
  2. Sorokin V. N. Syntéza řeči. — M.: Nauka, 1992, s. 392.
  3. Dennis Klatt's History of Speech Synthesis Archived 4. července 2006 na Wayback Machine , věnovaná historii vývoje řečových syntezátorů, představuje zvukové soubory s nahrávkami různých řečových syntezátorů. Existuje soubor zaznamenávající zvuk vokodéru Homera Dudleyho.
  4. Například japonští vědci z Takanishi Laboratory na Waseda University pracují na antropomorfním modelu mluvícího robota. Jejich nejnovější vývoj ( 2005 ) - model Waseda Talker No.5 - má celou sadu řečových nástrojů: plíce, hrtan, měkké patro, jazyk, zuby, rty atd. Celkem mají všechny tyto orgány 18 stupňů volnosti. Z jejich stránky Anthropomorphic Talking Robot Waseda-Talker Series Archivováno 17. července 2007. Můžete zobrazit podrobnější informace včetně fotografií a videí.
  5. Ray Kurzweil. Jedinečnost je blízko: když lidé překročí biologii . - New York: Viking, 2005. - xvii, 652 stran s. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
  6. STUDIE ODOLNOSTI HLASOVÉHO OVĚŘOVÁNÍ VŮČI ÚTOKŮM POMOCÍ SYSTÉMU SYNTÉZY. — Journal of Instrumentation Archived 23. ledna 2015 na Wayback Machine . - Únor 2014.

Literatura

Odkazy