Hybridní strojový překlad

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 29. března 2021; kontroly vyžadují 12 úprav .

Hybridní strojový překlad (HMT) je integrace různých přístupů strojového překladu z možných možností MT: [1]

Očekává se, že hybridní architektura spojí výhody těchto přístupů. [1] Strojový překlad dnes představují dvě hlavní technologie: Statistický strojový překlad (SMT) a Strojový překlad založený na pravidlech (RBMT). [2]

Vývojáři softwaru Hybrid MT

Přístupy

Vrstvené

Tento přístup k hybridnímu strojovému překladu zahrnuje paralelní běh více systémů strojového překladu. Konečný výsledek se získá spojením výsledků všech subsystémů. Nejběžnějšími subsystémy používanými v těchto systémech jsou statistický překlad a překlad založený na pravidlech, ale byly prozkoumány i jiné kombinace. Například výzkumníci z Carnegie Mellon University dosáhli určitého úspěchu sloučením subsystémů založených na příkladech, přenosu, znalostí a statistického překladu do jediného systému strojového překladu.

Generování statistických pravidel

Tento přístup zahrnuje použití statistických dat k vytvoření lexikálních a syntaktických pravidel. Vstup je poté zpracován pomocí těchto pravidel, jako by to byl překladač založený na pravidlech. Tento přístup se snaží vyhnout složitému a časově náročnému úkolu vytvořit soubor komplexních, podrobných lingvistických pravidel extrahováním těchto pravidel z výukového korpusu. Tento přístup stále trpí mnoha problémy běžného statistického strojového překladu, konkrétně tím, že přesnost překladu bude silně záviset na podobnosti vstupního textu s trénovacím korpusem. Výsledkem je, že tato metoda má největší úspěch v aplikacích specifických pro doménu a má stejné problémy s přizpůsobením domény jako mnoho systémů statistického strojového překladu.

Multipass

Tento přístup zahrnuje sekvenční zpracování vstupu vícekrát. Nejběžnější technikou používanou v systémech víceprůchodového strojového překladu je vstupní předběžné zpracování pomocí systému strojového překladu založeného na pravidlech. Výstup preprocesoru založeného na pravidlech je předán statistickému systému strojového překladu, který vytváří konečný výsledek. Tato technika se používá k omezení množství informací, které statistický systém potřebuje vzít v úvahu, což značně snižuje potřebný výpočetní výkon. Odstraňuje také potřebu systému založeného na pravidlech, který by byl kompletním překladovým systémem pro jazyk, což výrazně snižuje množství lidského úsilí a práce potřebné k vybudování systému.

Na základě jistoty

Tento přístup se liší od ostatních hybridních přístupů tím, že se ve většině případů používá pouze jedna technologie překladu. Pro každou přeloženou větu je vygenerováno skóre spolehlivosti, na základě kterého se můžete rozhodnout, zda vyzkoušíte sekundární technologii překladu, nebo budete pokračovat v práci s původním překladem. Omniscien Technologies je jednou společností, která používá tento přístup, přičemž NMT je hlavní technologií, ale pokud je skóre spolehlivosti pod prahovou hodnotou nebo je délka věty velmi krátká (např. 1 nebo 2 slova), vrací se zpět k SMT. SMT se také používá, když se běžné chybové vzorce, jako je více opakovaných slov, objevují v sekvenci, jako je tomu často u NMT, když je zmatený mechanismus pozornosti.

Hybridní technologie "SMT a RBMT"

Technologie hybridního překladu zahrnuje použití statistických metod k automatickému vytváření databází slovní zásoby založené na paralelních korpusech, generování několika možných překladů jak na lexikální úrovni, tak na úrovni syntaktické struktury věty cílového jazyka, aplikaci posteditací v automatickém režimu a vybrat nejlepší (nejpravděpodobnější) překlad možného na základě jazykového modelu postaveného na konkrétním korpusu cílového jazyka. [2]

Hybridní (SMT + RBMT) Systém se liší: (bod 2.4.3 [4] )

  • MT založený na pravidlech se statistickým přístupem po zpracování.
  • Statistické MT s předzpracováním na základě pravidel.
  • Plná integrace RBMT a SMT. [3]

Statistická MT se snaží využívat lingvistická data, zatímco systémy s „klasickým“ přístupem založeným na pravidlech aplikují statistické metody. [2] Doplnění některých „průřezových“ pravidel, tedy vytváření hybridních systémů, je poněkud[ kolik? ] zlepšuje kvalitu překladů, zvláště když množství vstupních dat použitých při konstrukci indexových souborů pro ukládání jazykových informací strojového překladače na bázi N-gramů je nedostatečné. [deset]

Kombinace RBMT a statistického strojového překladu:

  • Lingvistická analýza vstupní věty;
  • Generování variant překladu;
  • Využití statistických technologií;
  • Vyhodnocení a výběr nejlepší možnosti překladu pomocí Jazykového modelu. [11] [12] [13]

Fáze hybridní technologie SMT a RBMT: [2]

  • Trénink RBMT založený na paralelním korpusu s využitím statistických technologií;
  • Provoz na základě vyškoleného systému.

Architektura hybridní technologie "SMT a RBMT"

V hybridním strojovém překladu je systém RBMT doplněn o dvě komponenty [14] : statistický posteditační modul a modul jazykového modelu. Statistické následné úpravy vám umožňují hladký RB překlad, přibližující jej přirozenému jazyku, při zachování jasné struktury syntetizovaného textu. Jazykové modely se používají k hodnocení plynulosti a gramatické správnosti překladů generovaných hybridním systémem.

Typická architektura HMT: [14]

  • Paralelní bydlení;
  • Vzdělání;
  • jazykový model;
  • Data pro následnou úpravu;
  • Pravidla syntézy;
  • Slovníček terminologie.
  • Vykořisťování:
    •  - Hybridní překlad.

Jak HMT funguje

Kombinace zdánlivě neslučitelných překladatelských metod, konkrétně klasické technologie strojového překladu Rule-Based Machine Translation (Rule-Based MT) a Statistical Machine Translation (Statistical MT), může být implementována v hybridní překladatelské technologii. [15] Zásadní rozdíl nového řešení spočívá v tom, že místo jedné možnosti překladu program generuje mnoho překladů, jejichž počet v jedné větě může v závislosti na nejednoznačnosti slov, konstrukcí a výsledcích statistického zpracování dosáhnout pár stovek. Pravděpodobnostní model jazyka dále umožňuje vybrat nejpravděpodobnější z navrhovaných možností.

Typický algoritmus HMT: [2]

  • Vytvoření terminologického slovníku z paralelních textů pro RBMT automaticky.
  • Generování všech možných překladů na základě:
    •  - lexikální varianty;
    •  — možnosti pro syntézu různých vzorů;
    •  - použití dodatečných úprav.
  • Výběr nejlepší možnosti prostřednictvím implementovaného jazykového modelu.

Výhody a nevýhody

Co přináší technologie hybridního překladu?

  • Rychlá automatická konfigurace založená na překladových pamětech zákazníka;
  • Terminologická správnost překladu, stejně jako jednota stylu;
  • Získání dalších užitečných údajů – dvojjazyčného terminologického slovníku.
Výhody a nevýhody strojového překladu založeného na pravidlech

Výhody RBMT: [16]

Uloženo:

  •  — syntaktická a morfologická přesnost;
  •  - stabilita a předvídatelnost výsledku;
  •  - schopnost přizpůsobit oblast předmětu.

Nevýhody RBMT:

  •  — složitost a trvání vývoje;
  •  — potřeba udržovat a aktualizovat jazykové databáze;
  •  - "strojový přízvuk" při překladu.

Nevýhody se vyrovnávají použitím paralelních korpusových a statistických metod.

  •  – automatické ladění lingvistických databází (rychlá a kvalitní extrakce terminologie),
  •  — „strojový“ přízvuk zmizí během překladu (možnosti syntézy a následné úpravy).
Výhody a nevýhody statistických překladových systémů

Výhody SMT: [17]

  •  - rychlé nastavení;
  •  — snadné přidávání nových směrů překladu;
  •  - Hladkost překladu.

Nevýhody SMT:

  •  - "nedostatek" paralelních budov;
  •  - četné gramatické chyby;
  •  — nestabilita překladu.

Viz také

Poznámky

  1. 1 2 Archivovaná kopie (odkaz není k dispozici) . Získáno 27. března 2013. Archivováno z originálu dne 13. března 2016. 
  2. 1 2 3 4 5 6 Technologie hybridního překladu - Y. Epifantseva, LLC <PROMT>, konference "Russian Internet Technologies", 2011 . Archivováno z originálu 8. dubna 2013.
  3. 12 Žádost zamítnuta . Datum přístupu: 29. března 2013. Archivováno z originálu 4. března 2016.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf  (odkaz dolů)
  5. Archivovaná kopie (odkaz není dostupný) . Datum přístupu: 29. března 2013. Archivováno z originálu 4. března 2016. 
  6. Technologie strojového překladu SYSTRAN . Získáno 1. dubna 2013. Archivováno z originálu 8. dubna 2013.
  7. Hybridní technologie SYSTRAN . Získáno 1. dubna 2013. Archivováno z originálu 8. dubna 2013.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf  (odkaz není k dispozici)
  9. Archivovaná kopie . Získáno 29. března 2013. Archivováno z originálu 12. května 2015.
  10. Archivovaná kopie (odkaz není dostupný) . Získáno 17. dubna 2013. Archivováno z originálu 19. dubna 2014. 
  11. Archivovaná kopie . Získáno 1. dubna 2013. Archivováno z originálu 4. března 2016.
  12. Archivovaná kopie . Získáno 1. dubna 2013. Archivováno z originálu 5. března 2016.
  13. O automatové aproximaci reálných jazyků - zdarma ke stažení abstrakt na téma Diskrétní matematika a matematická kybernetika. Objednávka dodání disertační práce z matematiky ... . Získáno 4. dubna 2013. Archivováno z originálu 8. dubna 2013.
  14. 1 2 Proč je potřeba technologie hybridního překladu - A. Molchanov, PROMT LLC, konference AINL, 2013 . Archivováno z originálu 8. dubna 2013.
  15. Společnost PROMT - překladače a slovníky pro překlad textu z angličtiny, ruštiny, němčiny, francouzštiny, španělštiny, portugalštiny a italštiny (nedostupný odkaz) . Získáno 23. března 2013. Archivováno z originálu 8. dubna 2013. 
  16. Archivovaná kopie (odkaz není dostupný) . Získáno 27. března 2013. Archivováno z originálu 9. listopadu 2012. 
  17. Proč je potřeba hybridní překladová technologie - A. Molchanov, OOO <PROMT>, konference "AINL", 2013 . Archivováno z originálu 8. dubna 2013.