Statistický strojový překlad ( SMT ) je typ strojového překladu, kde je překlad generován na základě statistických modelů, jejichž parametry jsou odvozeny z analýzy dvojjazyčných textových korpusů (textových korpusů).
Statistický strojový překlad je v kontrastu se systémy strojového překladu založeného na pravidlech (RBMT) a na příkladech založených na MT (EBMT).
První nápady na statistický strojový překlad publikoval Warren Weaver v roce 1949. "Druhá vlna" - počátek 90. let, IBM . "Třetí vlna" - Google, Microsoft, Language Weaver, Yandex ...
Vývojáři systémů strojového překladu zavádějí některá „průřezová“ pravidla pro zlepšení kvality, čímž přeměňují čistě statistické systémy na hybridní strojový překlad . Přidání některých pravidel, tedy vytváření hybridních systémů, poněkud zlepšuje kvalitu překladů, zvláště když množství vstupních dat použitých pro sestavení indexu strojového překladače je nedostatečné.
Systémy statistického překladu jako jazykový model používají především různé modifikace n-gramového modelu, který říká, že „ gramatickost “ výběru dalšího slova při tvorbě textu je určena pouze tím, jaká (n-1) slova jsou před ním [ 1] .
strojovému překladu | Přístupy ke|
---|---|
|
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |