Statistický strojový překlad

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 18. června 2021; kontroly vyžadují 2 úpravy .

Statistický strojový překlad ( SMT ) je typ strojového překladu, kde je překlad generován na základě statistických modelů, jejichž parametry jsou odvozeny z analýzy dvojjazyčných textových korpusů (textových korpusů).

Statistický strojový překlad je v kontrastu se systémy strojového překladu založeného na pravidlech (RBMT) a na příkladech založených na MT (EBMT).

První nápady na statistický strojový překlad publikoval Warren Weaver v roce 1949. "Druhá vlna" - počátek 90. let, IBM . "Třetí vlna" - Google, Microsoft, Language Weaver, Yandex ...

Vývojáři systémů strojového překladu zavádějí některá „průřezová“ pravidla pro zlepšení kvality, čímž přeměňují čistě statistické systémy na hybridní strojový překlad . Přidání některých pravidel, tedy vytváření hybridních systémů, poněkud zlepšuje kvalitu překladů, zvláště když množství vstupních dat použitých pro sestavení indexu strojového překladače je nedostatečné.

Základy

Výhody SMT

Rychlé nastavení
Snadné přidávání nových směrů překladu
Hladkost překladu

Nevýhody SMT

"nedostatek" paralelních případů
Četné gramatické chyby
Nestabilita překladu

Jazykové modely

Systémy statistického překladu jako jazykový model používají především různé modifikace n-gramového modelu, který říká, že „ gramatickost “ výběru dalšího slova při tvorbě textu je určena pouze tím, jaká (n-1) slova jsou před ním [ 1] .

n-gramů.
- — Výhody: — vysoká kvalita překladu frází, které zcela zapadají do n-gramového modelu.
- — Nevýhody: — vysoce kvalitní překlad je možný pouze u frází, které zcela zapadají do n-gramového modelu.

Statistické modely překladu

podle (překlad založený na slově - WBT) [2]
Překlad založený na frázi (PBT) [3] [4]
Překlad založený na syntaxi (SBT) [5]
hierarchickým překladem založeným na frázi (HPBT) [6]

Viz také

Zdroje

↑ Statistický systém strojového překladu (Distribuovaný statistický systém strojového překladu) | Ilya (w-495) Nikitin - Academia.edu . Získáno 19. března 2013. Archivováno z originálu 22. března 2013. (neurčitý)
↑ Archivovaná kopie (odkaz není dostupný) . Získáno 17. března 2013. Archivováno z originálu dne 3. listopadu 2013. (neurčitý)
↑ Zdroj . Získáno 17. března 2013. Archivováno z originálu dne 3. listopadu 2013. (neurčitý)
↑ Zdroj . Získáno 17. března 2013. Archivováno z originálu dne 26. května 2013. (neurčitý)
↑ Archivovaná kopie (odkaz není dostupný) . Získáno 17. března 2013. Archivováno z originálu 3. února 2013. (neurčitý)
↑ Archivovaná kopie (odkaz není dostupný) . Získáno 17. března 2013. Archivováno z originálu dne 26. května 2013. (neurčitý)

Přístupy ke strojovému překladu
Slovník založený Na základě pravidel Na základě transformace Statistický Na základě příkladů Interlingvální neurální Hybridní

zpracování přirozeného jazyka
Obecné definice	Korpus textů řečový korpus Zastavte slova pytel slov úplnost AI N-gram Bigramová šifra trigram
Analýza textu	Segmentace textu Částečné značení Analýza povrchu Složené textové zpracování Extrahování kolokací pramenící Lematizace Rozpoznávání pojmenované entity Koreferenční rozlišení Analýza sentimentu textu Extrakce konceptu rozebrat Řešení lexikální polysémie Výpis terminologie Extrakce informací Identifikace jazyka Definice případu
Odkazování	Vytahování vět Abstraktní generace Odkazování na více dokumentů Zjednodušení textu
Strojový překlad	Automatizovaný Hybridní Interlingual Na základě pravidel Na základě příkladů Slovník založený Na základě transformace neurální Statistický Synchronní
Identifikace a sběr dat	Rozpoznávání řeči syntéza řeči Optické rozpoznávání znaků Generování textu
Tematický model	Umístění Pachinko Latentní Dirichletovo umístění Latentní sémantická analýza
Peer review	Automatické hodnocení esejí Concordancer Prediktivní zadávání textu Kontrola gramatiky Kontrola pravopisu Syntax Guessing
Rozhraní přirozeného jazyka	virtuální asistentka Virtuální partner Systém otázek a odpovědí Hlasové rozhraní Interaktivní literatura