Simultánní automatický překlad

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 23. března 2014; kontroly vyžadují 26 úprav .

Simultánní automatický překlad (Speech-to-Speech Real-Time Translation) – „ okamžitýstrojový překlad řeči z jednoho přirozeného jazyka do druhého pomocí speciálního softwaru a hardwaru . Nazývá se také směr vědeckého výzkumu souvisejícího s konstrukcí takových systémů. .

Na rozdíl od tištěného textu nebo umělých signálů neumožňuje přirozená řeč jednoduché a jednoznačné rozdělení na prvky (fonémy, slova, fráze), protože nemají zjevné fyzické hranice. Hranice slov v řečovém proudu lze automaticky určit pouze během rozpoznávání výběrem optimální sekvence slov, která nejlépe odpovídá vstupnímu řečovému proudu podle akustických, lingvistických, sémantických a dalších kritérií. [jeden]

Historie

Červen 2012  - Program pro automatický simultánní překlad (Technologický institut Karlsruhe (Spolková země Bádensko-Württembersko, Německo) [2] . Zařízení překládá ústní přednášky učitelů institutu z němčiny do angličtiny a reprodukuje překlad ve formě titulků [3 ] .

Říjen 2012 – Automatický, téměř simultánní hlasový překlad z angličtiny do mandarínské čínštiny. Vývojář - Microsoft. [4] Systém strojového učení založený na umělých neuronových sítích (Deep Neural Networks), který snižuje nedorozumění na každé sedmé až osmé slovo. Ale největším úspěchem je generování řeči při zachování modulací hlasu mluvčího. [5]

Listopad 2012 - Služba spuštěná japonským mobilním operátorem NTT Docomo umožňuje předplatitelům, kteří mluví různými jazyky, komunikovat v reálném čase. [6] Jazyky podporované službou: (japonština <-> angličtina), (japonština <-> korejština), (japonština <-> čínština). [7]

Květen 2015 – Spuštěn Blabber Messenger , který překládá řeč do 14 jazyků a chat do 88.

Jak to funguje

Proces elektronického překladu řeči (S2S Real-Time Translation) zpravidla zahrnuje následující tři fáze) [8] [9] :

  1. automatické rozpoznávání řeči (ASR - automatické rozpoznávání řeči) - převod řeči na text;
  2. strojový překlad (MT - Machine Translation); — automatický překlad textu z jednoho jazyka do druhého.
  3. syntéza řeči (TTS - text-to-speech) je technologie, která umožňuje vyslovovat text hlasem blízkým přirozenému.

Mluvčí jazyka A ​​mluví do mikrofonu a modul rozpoznávání řeči rozpoznává[ co? ] vyslovený. Dochází k porovnání vstupních dat s fonologickými modely skládajícími se z velkého počtu řečových knihoven. Takto filtrovaný pomocí slovníku a gramatiky jazyka A ​​je převeden na řetězec slov založený na frázovém poli jazyka [ neznámý výraz ] A. Automatický překladový modul tento řetězec převede. Rané systémy nahradily každé slovo odpovídajícím slovem v jazyce B. Pokročilejší systémy nepoužívají doslovný překlad, ale berou v úvahu celý kontext fráze, aby vytvořily vhodný překlad. Vytvořený překlad je předán modulu syntézy řeči , který vyhodnocuje výslovnost a intonaci odpovídající počtu slov z pole dat řeči jazyka B. Data odpovídající frázi jsou vybírána, kombinována a zobrazena ve formě požadované spotřebitel v jazyce B.

Systémy pro překlad řeči

Systémy překladu řeči (ST - Speech Translation) [10] , se skládají ze dvou hlavních součástí: Automatické rozpoznávání řeči (ASR - automatické rozpoznávání řeči) a Strojový překlad (MT - Machine Translation) a liší se:

Rozpoznání souvislé spontánní řeči je konečným cílem všech snah o rozpoznávání řeči. Automatické rozpoznávání řeči se dělí na vazbu a její nepřítomnost na hlas konkrétní osoby.

Pokud vezmeme v úvahu klasické schéma „věda-technika-praktické systémy

problémy“, pak nejzávažnější problémy, ve kterých bude fungovat praktický systém automatického rozpoznávání nebo porozumění řeči, vyvstávají za podmínek: [11]

Zobecněná klasifikace systémů rozpoznávání řeči. Viz ( [12] )

Tradičně se systémy strojového překladu dělí do kategorií: [13] [14] [15]

Hranice mezi systémy založenými na příkladech a systémy založenými na pravidlech nejsou příliš jasné, protože oba používají slovníky a pravidla pro práci se slovníky.

Statistický strojový překlad

Statistický strojový překlad je založen na nalezení nejpravděpodobnějšího překladu věty pomocí dat z dvojjazyčného korpusu (Parallel Corpora) - Bitext . Výsledkem je, že při provádění překladu počítač nepracuje s lingvistickými algoritmy, ale vypočítává pravděpodobnost použití určitého slova nebo výrazu. Slovo nebo posloupnost slov, která má optimální pravděpodobnost, je považována za nejvhodnější překlad zdrojového textu a je počítačem nahrazena do výsledného textu. Ve statistickém strojovém překladu není úkolem text přeložit, ale dešifrovat.

Typická architektura statistických systémů MT. [17] [18]

  • Jednojazyčný korpus (překladový jazyk).
  • Jazykový model je množina n-gramů (sekvencí slovních tvarů délky n) z korpusu textů.
  • Paralelní tělo.
  • Tabulka frází je tabulka shod mezi frázemi zdrojového korpusu a překladového korpusu s některými statistickými koeficienty.
  • Statistický dekodér - ze všech možných možností překladu vybere tu nejpravděpodobnější.

Jako jazykový model využívají statistické překladové systémy především různé modifikace n-gramového modelu, který říká, že „gramatickost“ výběru dalšího slova při tvorbě textu je určena pouze tím, jakých (n-1) slov je před ním. [osmnáct]

  • n-gramů.
    •  - Výhody: - vysoká kvalita překladu pro fráze, které zcela zapadají do n-gramového modelu.
    •  — Nevýhody: — vysoce kvalitní překlad je možný pouze u frází, které zcela zapadají do n-gramového modelu.

Výhody SMT

  • Rychlé nastavení
  • Snadné přidávání nových směrů překladu
  • Hladkost překladu

Nevýhody SMT

  • <Nedostatek> paralelních případů
  • Četné gramatické chyby
  • Nestabilita překladu

Systémy, které nepoužívají učení, se nazývají systémy „ nezávislé na mluvčích “. Systémy, které využívají učení, jsou systémy „ závislé na mluvčích “.

Systémy MT založené na pravidlech

Systémy strojového překladu založené na pravidlech se dělí na: [15] [19]

  • systémy překladu slovo za slovem;
  • přenosové systémy (Transfer) - transformují struktury vstupního jazyka na gramatické struktury výstupního jazyka;
  • interlingvistické systémy (Interlingua) - mezijazyk pro popis významu.

Komponenty typického RBMT:

  • Jazykové databáze: - dvojjazyčné slovníky; — soubory jmen, transliterace; - morfologické tabulky.
  • Překladový modul: - gramatická pravidla; — překladové algoritmy.

Vlastnosti systémů RBMT:

  • Výhody: — syntaktická a morfologická přesnost; - stabilita a předvídatelnost výsledku; - schopnost přizpůsobit oblast předmětu.
  • Nevýhody: - složitost a délka vývoje, - nutnost udržovat a aktualizovat jazykové databáze; - "strojový přízvuk" při překladu.
Hybridní modely SMT + RBMT

Architektura hybridní technologie: [15]

  • Školení: Paralelní korpus->Školení: - Model jazyka; — Data pro následnou úpravu; — Pravidla syntézy; — Slovníček terminologie.
  • Provoz: Hybridní překlad.

Fáze hybridní technologie:

  • Trénink RBMT založený na paralelním korpusu s využitím statistických technologií;
  • Provoz na základě vyškoleného systému.

Systémy pro syntézu řeči

Typická architektura systému "Text-to-Speech". [dvacet]

  • Analýza textu : - Určení struktury textu; — Normalizace textu; — Jazykový rozbor.
  • Fonetická analýza: - Graf - Fonetická transformace.
  • Prozodická analýza: - Výška a délka frází.
  • Syntéza řeči : - Vykreslování hlasu.

Syntéza řeči je zase rozdělena do skupin [21] :

  • parametrická syntéza;
  • konkatenativní, neboli kompilační (kompilační) syntéza;
  • syntéza podle pravidel;
  • doménově orientovaná syntéza.

Potlačení hluku

Zdroje hluku v řečových systémech: [22] - rušení od mikrofonů, vodičů, ADC (analogově-digitální převodník), vnější šum, který se vyskytuje v prostředí reproduktoru.

Klasifikace hluku podle jejich vlastností:

  • periodický / neperiodický šum;
  • šířka frekvenčního rozsahu, ve kterém je distribuována energie šumu: – širokopásmový (šířka pásma větší než 1 kHz) a úzkopásmový šum (šířka pásma menší než 1 kHz);
  • hluk řeči sestávající z hlasů lidí kolem mluvčího.

Bílý šum je považován za nejnebezpečnější z hlediska vlivu na řečový signál a za nejobtížněji odstranitelný šum: - neperiodický šum, jehož spektrální hustota je rovnoměrně rozložena v celém frekvenčním rozsahu.

V oblasti systémů rozpoznávání řeči v šumu existují následující přístupy:

  • Vývojáři nevěnují pozornost hluku.
  • Nejprve je odstraněn šum a poté je rozpoznán čistý řečový signál. Tento koncept se obvykle používá při vývoji systémů pro snížení hluku jako doplňkový modul rozpoznávacích systémů.
  • Rozpoznávání hlučného signálu bez jeho předběžného vylepšení, které studuje, jak člověk rozpozná a rozumí hlučné řeči; protože předem nefiltruje řečový signál, aby jej zbavil šumu.

Metody pro dosažení odolnosti proti hluku :

  • jsou redukovány buď na výběr některých šumově invariantních funkcí, nebo na učení v podmínkách hluku nebo modifikaci rozpoznávacích standardů pomocí odhadu hladiny hluku.

Slabou stránkou takových metod je nespolehlivá činnost rozpoznávacích systémů konfigurovaných pro rozpoznávání v šumu, v nepřítomnosti šumu, stejně jako silná závislost na fyzikálních vlastnostech hluku.

  • Výpočet koeficientů lineární predikce. Jako prvky standardů se místo číselných hodnot používají rozdělení pravděpodobnosti (matematický průměr, disperze).
  • Digitální zpracování signálu: - techniky maskování šumu (číselné hodnoty srovnatelné s charakteristikami šumu se ignorují nebo se používají s nižšími váhovými faktory) a techniky redukce šumu pomocí více mikrofonů (například čištění nízkofrekvenčního šumu pomocí mikrofonu na jedné straně zařízení a vysokofrekvenční šum pomocí druhé strany).
  • Čištění užitečného signálu od vnějšího šumu pomocí mikrofonních polí, které simulují směrový mikrofon s proměnným směrem paprsku (nejjednodušší metoda "zpoždění a součtu" nebo složitější s úpravou hmotností mikrofonu).

Modely a optimalizační metody

Většina existujících metrik pro automatické vyhodnocování strojového překladu je založena na srovnání s lidským benchmarkem. [17]

Při tréninku Systému překladu řeči se pro optimalizaci kvality a rychlosti překladu používají následující metody: [10] [23] [24] [25]

  • Kaskádové ASR/WER s MT/BLEU

Automatické rozpoznávání řeči (ASR)

  • ASR / WER (Word Error Rate) - pravděpodobnost chyby v kódovém slově;
  • ASR / PER (Position-independent Word Error Rate) - pravděpodobnost chyb ve slovech nezávislých na pozici (v různých větách);
  • ASR / CSR (Command Success Rate) - pravděpodobnost úspěšného provedení příkazu.

Strojově asistovaný překlad (MAT)

  • MT / BLEU (Bilingual Evaluation Understudy) - pravděpodobnost shody překladu se vzorkem.

Funkce

Kromě problémů spojených s překladem textu se simultánní překlad řeči zabývá konkrétními problémy, včetně nesoudržnosti mluveného jazyka, menšího omezení gramatiky mluveného jazyka, nejasných slovních hranic mluveného jazyka a opravy chyb rozpoznávání řeči. Simultánní překlad má navíc oproti překladu textu své výhody, včetně méně složité struktury mluveného jazyka a menší slovní zásoby v mluveném jazyce.

Normy

Protože mnoho zemí začíná s výzkumem a vývojem překladu řeči, bude nutné standardizovat rozhraní a datové formáty, aby byla zajištěna interoperabilita systémů.

Mezinárodní kolaborativní studie vytvořená konsorcii pro překlad řeči:

  • (C-STAR) Consortium for Speech Translation Advanced Research - mezinárodní konsorcium pro překlad řeči pro společné studium překladu řeči;
  • (A-STAR) Asie-Pacifik - Pro asijsko-pacifický region .

Byly založeny jako mezinárodní kolaborativní výzkumná organizace pro návrh dvojjazyčných standardních formátů, které jsou důležité pro pokrok ve vědeckém výzkumu této technologie a pro standardizaci rozhraní a datových formátů pro propojení modulu překladu řeči na mezinárodní úrovni. [jeden]

Hodnocení kvality překladu

  • BLEU (Bilingual Evaluation Understudy) je algoritmus pro hodnocení a optimalizaci kvality textu, strojový překlad.
  • WER (Word Error Rate) je algoritmus pro hodnocení a optimalizaci kvality textu, strojový překlad.
  • Klasifikátor „Speech/non-speech“ ( speech/non-speech ) — určující pravděpodobnost správného rozpoznání řeči. Kompromis mezi definicí hlasu jako hluku nebo hluku jako hlasu ( chyby typu I a typu II ).

Viz také

Literatura

Odkazy

  • cs:Překlad řeči
  • cs:Rozpoznávání řeči
  • cs:Syntéza řeči
  • cs:Strojový překlad
  • cs:Mobilní překlad
  • cs:Statistický strojový překlad
  • cs:Paralelní text
  • cs:Chyby typu I a typu II

Poznámky

  1. http://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf  (nedostupný odkaz)
  2. KIT - KIT - Média - Tiskové zprávy - Archiv tiskových zpráv - Simultánní překlad: Univerzita bez jazykových bariér . Získáno 1. února 2013. Archivováno z originálu 21. května 2013.
  3. V Německu byl vyvinut program pro simultánní překlad přednášek | Překladové novinky . Získáno 1. února 2013. Archivováno z originálu 13. listopadu 2012.
  4. Průlom v rozpoznávání řeči pro mluvené, přeložené slovo – výzkum společnosti Microsoft . Datum přístupu: 17. února 2013. Archivováno z originálu 15. března 2013.
  5. Microsoft ukazuje téměř okamžitý překlad z angličtiny do čínštiny / Habrahabr . Získáno 1. února 2013. Archivováno z originálu 15. března 2013.
  6. Japonci představili systém pro automatický překlad telefonních hovorů . Získáno 30. dubna 2020. Archivováno z originálu dne 25. ledna 2021.
  7. NTT DOCOMO zavede mobilní překlad konverzací a nápisů | Tiskové středisko | NTT DOCOMO Global . Získáno 13. února 2013. Archivováno z originálu 16. února 2013.
  8. Výzkum IBM | Překlad řeči do řeči . Datum přístupu: 17. února 2013. Archivováno z originálu 15. března 2013.
  9. Zdroj . Získáno 15. února 2013. Archivováno z originálu 4. března 2016.
  10. 12 lidí – výzkum společnosti Microsoft . Získáno 22. února 2013. Archivováno z originálu 23. března 2014.
  11. Moderní problémy v oblasti rozpoznávání řeči. - Auditech.Ltd (nepřístupný odkaz) . Datum přístupu: 3. března 2013. Archivováno z originálu 15. července 2013. 
  12. Účet pozastaven . Získáno 2. března 2013. Archivováno z originálu dne 27. listopadu 2013.
  13. cs:Strojový překlad
  14. Archivovaná kopie (odkaz není dostupný) . Datum přístupu: 24. února 2013. Archivováno z originálu 18. prosince 2011. 
  15. 1 2 3 4 Zdroj . Získáno 27. února 2013. Archivováno z originálu 25. června 2012.
  16. Rozpoznávání řeči, strojový překlad a překlad řeči – jednotné paradigma diskriminačního učení – výzkum společnosti Microsoft . Získáno 22. února 2013. Archivováno z originálu 23. března 2014.
  17. 1 2 Archivovaná kopie (odkaz není k dispozici) . Získáno 23. února 2013. Archivováno z originálu 9. listopadu 2012. 
  18. 1 2 Statistický systém strojového překladu (Distribuovaný statistický systém strojového překladu) | Ilya (w-495) Nikitin - Academia.edu . Získáno 19. března 2013. Archivováno z originálu 22. března 2013.
  19. Statistický systém strojového překladu (Distribuovaný statistický systém strojového překladu) | Ilya (w-495) Nikitin - Academia.edu . Získáno 18. března 2013. Archivováno z originálu 22. března 2013.
  20. Zdroj . Datum přístupu: 22. února 2013. Archivováno z originálu 24. prosince 2012.
  21. Sorokin V. N. Syntéza řeči. — M.: Nauka, 1992, s. 392.
  22. http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf  (nepřístupný odkaz)
  23. Zdroj . Datum přístupu: 24. února 2013. Archivováno z originálu 23. ledna 2014.
  24. Archivovaná kopie (odkaz není dostupný) . Získáno 25. února 2013. Archivováno z originálu 18. června 2006. 
  25. Zdroj . Získáno 25. února 2013. Archivováno z originálu 23. března 2014.