Hybridní strojový překlad (HMT) je integrace různých přístupů strojového překladu z možných možností MT: [1]
Očekává se, že hybridní architektura spojí výhody těchto přístupů. [1] Strojový překlad dnes představují dvě hlavní technologie: Statistický strojový překlad (SMT) a Strojový překlad založený na pravidlech (RBMT). [2]
Tento přístup k hybridnímu strojovému překladu zahrnuje paralelní běh více systémů strojového překladu. Konečný výsledek se získá spojením výsledků všech subsystémů. Nejběžnějšími subsystémy používanými v těchto systémech jsou statistický překlad a překlad založený na pravidlech, ale byly prozkoumány i jiné kombinace. Například výzkumníci z Carnegie Mellon University dosáhli určitého úspěchu sloučením subsystémů založených na příkladech, přenosu, znalostí a statistického překladu do jediného systému strojového překladu.
Generování statistických pravidelTento přístup zahrnuje použití statistických dat k vytvoření lexikálních a syntaktických pravidel. Vstup je poté zpracován pomocí těchto pravidel, jako by to byl překladač založený na pravidlech. Tento přístup se snaží vyhnout složitému a časově náročnému úkolu vytvořit soubor komplexních, podrobných lingvistických pravidel extrahováním těchto pravidel z výukového korpusu. Tento přístup stále trpí mnoha problémy běžného statistického strojového překladu, konkrétně tím, že přesnost překladu bude silně záviset na podobnosti vstupního textu s trénovacím korpusem. Výsledkem je, že tato metoda má největší úspěch v aplikacích specifických pro doménu a má stejné problémy s přizpůsobením domény jako mnoho systémů statistického strojového překladu.
MultipassTento přístup zahrnuje sekvenční zpracování vstupu vícekrát. Nejběžnější technikou používanou v systémech víceprůchodového strojového překladu je vstupní předběžné zpracování pomocí systému strojového překladu založeného na pravidlech. Výstup preprocesoru založeného na pravidlech je předán statistickému systému strojového překladu, který vytváří konečný výsledek. Tato technika se používá k omezení množství informací, které statistický systém potřebuje vzít v úvahu, což značně snižuje potřebný výpočetní výkon. Odstraňuje také potřebu systému založeného na pravidlech, který by byl kompletním překladovým systémem pro jazyk, což výrazně snižuje množství lidského úsilí a práce potřebné k vybudování systému.
Na základě jistotyTento přístup se liší od ostatních hybridních přístupů tím, že se ve většině případů používá pouze jedna technologie překladu. Pro každou přeloženou větu je vygenerováno skóre spolehlivosti, na základě kterého se můžete rozhodnout, zda vyzkoušíte sekundární technologii překladu, nebo budete pokračovat v práci s původním překladem. Omniscien Technologies je jednou společností, která používá tento přístup, přičemž NMT je hlavní technologií, ale pokud je skóre spolehlivosti pod prahovou hodnotou nebo je délka věty velmi krátká (např. 1 nebo 2 slova), vrací se zpět k SMT. SMT se také používá, když se běžné chybové vzorce, jako je více opakovaných slov, objevují v sekvenci, jako je tomu často u NMT, když je zmatený mechanismus pozornosti.
Technologie hybridního překladu zahrnuje použití statistických metod k automatickému vytváření databází slovní zásoby založené na paralelních korpusech, generování několika možných překladů jak na lexikální úrovni, tak na úrovni syntaktické struktury věty cílového jazyka, aplikaci posteditací v automatickém režimu a vybrat nejlepší (nejpravděpodobnější) překlad možného na základě jazykového modelu postaveného na konkrétním korpusu cílového jazyka. [2]
Hybridní (SMT + RBMT) Systém se liší: (bod 2.4.3 [4] )
Statistická MT se snaží využívat lingvistická data, zatímco systémy s „klasickým“ přístupem založeným na pravidlech aplikují statistické metody. [2] Doplnění některých „průřezových“ pravidel, tedy vytváření hybridních systémů, je poněkud[ kolik? ] zlepšuje kvalitu překladů, zvláště když množství vstupních dat použitých při konstrukci indexových souborů pro ukládání jazykových informací strojového překladače na bázi N-gramů je nedostatečné. [deset]
Kombinace RBMT a statistického strojového překladu:
Fáze hybridní technologie SMT a RBMT: [2]
V hybridním strojovém překladu je systém RBMT doplněn o dvě komponenty [14] : statistický posteditační modul a modul jazykového modelu. Statistické následné úpravy vám umožňují hladký RB překlad, přibližující jej přirozenému jazyku, při zachování jasné struktury syntetizovaného textu. Jazykové modely se používají k hodnocení plynulosti a gramatické správnosti překladů generovaných hybridním systémem.
Typická architektura HMT: [14]
Kombinace zdánlivě neslučitelných překladatelských metod, konkrétně klasické technologie strojového překladu Rule-Based Machine Translation (Rule-Based MT) a Statistical Machine Translation (Statistical MT), může být implementována v hybridní překladatelské technologii. [15] Zásadní rozdíl nového řešení spočívá v tom, že místo jedné možnosti překladu program generuje mnoho překladů, jejichž počet v jedné větě může v závislosti na nejednoznačnosti slov, konstrukcí a výsledcích statistického zpracování dosáhnout pár stovek. Pravděpodobnostní model jazyka dále umožňuje vybrat nejpravděpodobnější z navrhovaných možností.
Typický algoritmus HMT: [2]
Co přináší technologie hybridního překladu?
Výhody RBMT: [16]
Uloženo:
Nevýhody RBMT:
Nevýhody se vyrovnávají použitím paralelních korpusových a statistických metod.
Výhody SMT: [17]
Nevýhody SMT:
strojovému překladu | Přístupy ke|
---|---|
|
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |