Klonování zvuku ( anglicky voice change, voice cloning ) je technologie, která implementuje změnu hlasu osoby, vytvořenou pomocí softwaru a hardwaru, a to jak v reálném čase, tak ve zpožděném dávkovém režimu.
Technologie umožňuje simulovat osobní charakteristiky řeči osoby s poměrně úplnou shodou s originálem, nazývaným „cíl kopie“.
V současné době jsou systémy rozpoznávání řeči poměrně dobře vyvinuté . Používají se při hlasovém ovládání různých domácích spotřebičů (v telefonech, autorádiu a konče u praček). Obrácený proces – získávání slov ze zvukového signálu a syntéza řeči – naráží na řadu potíží.
Programy jsou považovány za programy patřící do kategorie "Software pro změnu hlasu" nebo "Voice changer":
Také balíčky SDK:
Dříve některé společnosti komerčně služba změny hlasu volajícího po telefonu v reálném čase. To bylo provedeno následovně:
Popis technologie
Technologie klonování řeči v telefonickém rozhovoru v reálném čase je založena na základě známých algoritmů pro matematické zpracování nosného hlasového signálu [1] [2, 4]. Zároveň využívají Metody DFT pro analýzu frekvencí v diskrétním signálu (pomocí speciální metody Fourierovy transformace ) získaného digitalizací analogového telefonního signálu pomocí úzkopásmového kodeku řeči G.729 [2] [5, 6, 7, 8 ]. Syntéza změněné řeči na základě nosného signálu, tedy výsledného „klonovaného hlasu“, realizuje možnost maximálního zachování osobních akustických charakteristik kopírovaného původního hlasu: fonetické rysy výslovnosti, přízvuk, ale i artefakty jako např. koktání [3] [9]. Není tedy možné identifikovat umělost reproduktoru ani při speciálním zpracování a matematické analýze původního telefonního signálu. Nelegální použití technologie klonování řeči je přísně zakázáno v souladu se speciálním ochranným programem online služby poskytující tuto službu. Popsaná technologie klonování hlasu v telefonních sítích byla podle tvůrců nejnovějším produktem, který dříve neměl obdoby.
Předchozí úroveň
Stávající systémy pro vytváření strojové řeči se dobře osvědčily v určitých technických výklencích: v automobilových navigačních systémech, náramkových hodinkách, elektronických „čtecích“ překladačích slovníků a tak dále. V takových systémech není nastavena úloha imitace hlasu konkrétní osoby, proto také výsledná strojová řeč není personalizovaná a je snadno rozpoznatelná díky svému výraznému umělému původu.
Dříve byly pokusy o syntézu řeči konkrétního člověka založeny na principu vytvoření „jádra“ řečového klonu, které obsahuje kompletní soubor akustických, fonetických a prozodických znaků – jednotlivých řečových znaků. To vyžadovalo poměrně podrobnou personalizovanou databázi „zkopírovaného“ hlasu. Osoba, jejíž hlas bylo třeba zkopírovat, musela přečíst dlouhý připravený text, speciálně navržený a obsahující velké množství fonémů, aby se maximalizovaly rysy řeči mluvčího.
To představovalo určité potíže, protože je známo, že běžný člověk se unaví i po 15 minutách nepřetržitého čtení a po 20 minutách čtení se mu může dokonce úplně zlomit hlas. I pro profesionálního řečníka je 45 minut nepřerušovaného čtení při zachování celého komplexu jednotlivých charakteristik řeči poměrně náročný úkol. Velmi vysoké byly i požadavky na kvalitu hlasového záznamu – bylo nutné vyloučit různé druhy šumu, které by mohly rušit modelování. Takto získaný personalizovaný záznam původního hlasu byl podroben frekvenční analýze a matematickému zpracování a výpočetní proces často trval déle než jeden den. Poté může být individuální hlasová databáze konkrétní osoby používána syntetizérem řeči. Přirozeně délka procesu kódování a hlavně nutnost zaznamenat referenční řeč ve studiovém prostředí výrazně zúžila rozsah použití systému pro kopírování řeči za běžných podmínek.