Klonování hlasu

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 28. června 2016; kontroly vyžadují 25 úprav .

Klonování zvuku ( anglicky voice change, voice cloning ) je technologie, která implementuje změnu hlasu osoby, vytvořenou pomocí softwaru a hardwaru, a to jak v reálném čase, tak ve zpožděném dávkovém režimu.

Technologie umožňuje simulovat osobní charakteristiky řeči osoby s poměrně úplnou shodou s originálem, nazývaným „cíl kopie“.

Obecné hodnocení technologie

V současné době jsou systémy rozpoznávání řeči poměrně dobře vyvinuté . Používají se při hlasovém ovládání různých domácích spotřebičů (v telefonech, autorádiu a konče u praček). Obrácený proces – získávání slov ze zvukového signálu a syntéza řeči – naráží na řadu potíží.

Softwarové produkty

Programy jsou považovány za programy patřící do kategorie "Software pro změnu hlasu" nebo "Voice changer":

Morphvox
měnič hlasu
Hlasový anonymizér

Také balíčky SDK:

Voice Cloning Toolkit pro Festival a HTS (Mac) Archivováno 28. května 2011 na Wayback Machine – výzkumný balíček z Výzkumného centra řečové technologie a Junichi Yamagishi z University of Edinburgh

Servis přes webové stránky a telefon

Dříve některé společnosti komerčně služba změny hlasu volajícího po telefonu v reálném čase. To bylo provedeno následovně:

Dříve si účastník (zákazník) na webu objednal zpětné volání na svůj telefon a volání na telefon „cíle kopírování“ a do systému byly poskytnuty vzorky hlasů zákazníka a „cíle kopírování“;
Poté si účastník objednal zpětné volání na svůj telefon a telefon účastníka, o který měl zájem. Systém připojil účastníka, signál od něj prošel firemním serverem, kde se frekvenční charakteristika a zabarvení hlasu změnily na parametry hlasu osoby - "cíl kopírování". Předplatitel slyšel slova zákazníka, ale pro něj tato slova (údajně) zněla jako hlas člověka - „cíl kopírování“.

Popis technologie

Technologie klonování řeči v telefonickém rozhovoru v reálném čase je založena na základě známých algoritmů pro matematické zpracování nosného hlasového signálu [1] [2, 4]. Zároveň využívají Metody DFT pro analýzu frekvencí v diskrétním signálu (pomocí speciální metody Fourierovy transformace ) získaného digitalizací analogového telefonního signálu pomocí úzkopásmového kodeku řeči G.729 [2] [5, 6, 7, 8 ]. Syntéza změněné řeči na základě nosného signálu, tedy výsledného „klonovaného hlasu“, realizuje možnost maximálního zachování osobních akustických charakteristik kopírovaného původního hlasu: fonetické rysy výslovnosti, přízvuk, ale i artefakty jako např. koktání [3] [9]. Není tedy možné identifikovat umělost reproduktoru ani při speciálním zpracování a matematické analýze původního telefonního signálu. Nelegální použití technologie klonování řeči je přísně zakázáno v souladu se speciálním ochranným programem online služby poskytující tuto službu. Popsaná technologie klonování hlasu v telefonních sítích byla podle tvůrců nejnovějším produktem, který dříve neměl obdoby.

Předchozí úroveň

Stávající systémy pro vytváření strojové řeči se dobře osvědčily v určitých technických výklencích: v automobilových navigačních systémech, náramkových hodinkách, elektronických „čtecích“ překladačích slovníků a tak dále. V takových systémech není nastavena úloha imitace hlasu konkrétní osoby, proto také výsledná strojová řeč není personalizovaná a je snadno rozpoznatelná díky svému výraznému umělému původu.

Dříve byly pokusy o syntézu řeči konkrétního člověka založeny na principu vytvoření „jádra“ řečového klonu, které obsahuje kompletní soubor akustických, fonetických a prozodických znaků – jednotlivých řečových znaků. To vyžadovalo poměrně podrobnou personalizovanou databázi „zkopírovaného“ hlasu. Osoba, jejíž hlas bylo třeba zkopírovat, musela přečíst dlouhý připravený text, speciálně navržený a obsahující velké množství fonémů, aby se maximalizovaly rysy řeči mluvčího.

To představovalo určité potíže, protože je známo, že běžný člověk se unaví i po 15 minutách nepřetržitého čtení a po 20 minutách čtení se mu může dokonce úplně zlomit hlas. I pro profesionálního řečníka je 45 minut nepřerušovaného čtení při zachování celého komplexu jednotlivých charakteristik řeči poměrně náročný úkol. Velmi vysoké byly i požadavky na kvalitu hlasového záznamu – bylo nutné vyloučit různé druhy šumu, které by mohly rušit modelování. Takto získaný personalizovaný záznam původního hlasu byl podroben frekvenční analýze a matematickému zpracování a výpočetní proces často trval déle než jeden den. Poté může být individuální hlasová databáze konkrétní osoby používána syntetizérem řeči. Přirozeně délka procesu kódování a hlavně nutnost zaznamenat referenční řeč ve studiovém prostředí výrazně zúžila rozsah použití systému pro kopírování řeči za běžných podmínek.

Poznámky

↑ Abe M., Nakamura S., Shikano K. a Kuwabara H. "Konverze hlasu pomocí vektorové kvantizace", v Proc. z Int. Conf. na akustick., řeč a sig. Proč. ICASSP, New York, USA, duben. 1988, sv. 1, str. 655-658.
↑ Levine S. a Smith JO „Audová reprezentace sinus+přechodů+šumu pro kompresi dat a úpravy měřítka času/výšky“, v Proc. 105. konv. AudioEng. Soc., předtisk #4781, září. 1998.
↑ Huang X., Acero A., Hon HW. "Zpracování mluveného jazyka: průvodce teorií, algoritmy a vývojem systému", Prentice Hall, NJ, 2001. - str. 980.

Literatura

B. M. Lobanov, L. I. Tsirulnik „Počítačová syntéza a klonování řeči“, Minsk „Běloruská věda“, 2008, 316 stran.
Abe M., Nakamura S., Shikano K. a Kuwabara H. "Konverze hlasu prostřednictvím vektorové kvantizace", v Proc. z Int. Conf. na akustick., řeč a sig. Proč. ICASSP, New York, USA, duben. 1988, sv. 1, str. 655–658.
Patent č.: US 6615174B1, září. 2, 2003.
ITU-T Rec. G.729, "Kódování řeči rychlostí 8 kbit/s pomocí konjugované struktury algebraicko-kódově buzené lineární - predikce (CS-ACELP)", Mar. 1996.
Levine S. a Smith JO "Audová reprezentace sinus+přechodů+šumu pro kompresi dat a úpravy měřítka času/výšky", v Proc. 105. konv. AudioEng. Soc., předtisk #4781, září. 1998.
Talkin D. "Robust algorithm for pitch tracking" in "Speech Coding and Synthesis", Kleijn, WB and Palival, KK Eds. Elsevier, Amsterdam, Nizozemsko, 1995.
Grocholevski S. "První databáze pro mluvenou polštinu", v Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, "Statistické konverzní algoritmy obrysů Pitch založené na prozodických frázích". Sborník příspěvků z mezinárodní konference "Prosodie řeči 2004". (SP 2004)", Nara, Japonsko 23.-26. března 2004.
Huang X., Acero A., Hon HW. "Zpracování mluveného jazyka: průvodce teorií, algoritmy a vývojem systému", Prentice Hall, NJ, 2001. - str. 980.