Google Neural Machine Translation (GNMT) je systém Neural Machine Translation (NMT) vyvinutý společností Google a představený v listopadu 2016, který využívá umělou neuronovou síť ke zlepšení plynulosti a přesnosti překladu v Google Translate . [1] [2] [3]
GNMT zlepšuje kvalitu překladu pomocí strojového překladu založeného na příkladech (EBMT), ve kterém se systém „učí z milionů příkladů“. [2] Navrhovaná architektura učení systému GNMT byla poprvé testována ve více než stovce jazyků podporovaných Překladačem Google. [2] Díky rozsáhlé struktuře typu end-to-end se systém postupem času učí vytvářet lepší a přirozenější překlady. [1] GNMT je schopen překládat celé věty, nikoli části. [1] Síť GNMT může provádět mezijazykový strojový překlad kódováním sémantiky věty namísto memorování překladů jednotlivých frází. [2] [4]
Projekt Google Brain vytvořili v roce 2011 v „tajné výzkumné laboratoři Google X“ [5] Jeff Dean , zaměstnanec společnosti Google, Greg Corrado, výzkumník společnosti Google, a Andrew Ng , profesor počítačových věd na Stanfordské univerzitě . [6] [7] [8] Eunova práce byla základem jednoho z největších technologických průlomů ve společnostech Google a Stanford. [5]
V září 2016 výzkumná skupina Google oznámila vývoj překladového systému GNMT a v listopadu začal Google Translate používat neuronový strojový překlad (NMT) namísto předchozích statistických metod (SMT) [1] [9] [10] [ 11] , který byl používán od října 2007 v našem vlastním uzavřeném SMT systému. [12] [13]
Systém NMT uvnitř Google Translate využívá velkou umělou neuronovou síť vhodnou pro hluboké učení . [1] [2] [3] Zkoumáním milionů příkladů zlepšuje GNMT kvalitu překladu pomocí širšího kontextu k odvození nejvhodnějšího překladu. Výsledek je pak přeskupen a přizpůsoben tak, aby odpovídal gramatice lidského jazyka. GNMT si nevytvořilo svůj vlastní vnitřní univerzální jazyk, ale spíše se snažilo najít společné rysy mezi mnoha jazyky, které by měly zajímat spíše psychology a lingvisty než počítačové vědce. [14] V roce 2016 byl v obou směrech zahrnut nový překladač pro devět jazyků: angličtina, francouzština, němčina, španělština, portugalština, čínština, japonština, korejština a turečtina. [15] V březnu 2017 byly přidány další tři jazyky: ruština, hindština a vietnamština. [16] Ve stejném měsíci byla přidána podpora pro hebrejštinu a arabštinu s pomocí komunity Google Translate. [17] Další podpora byla přidána na konci dubna 2017 pro devět indických jazyků, konkrétně hindštinu, bengálštinu, maráthštinu, gudžarátčinu, pandžábštinu, tamilštinu, telugštinu, malajálamštinu a kannadu. [osmnáct]
Níže je uveden seznam jazykových párů, které k překladu používají model Google Neural Machine Translation (NMT). Od července 2017 je pro všechny jazyky podporován pouze překlad do az angličtiny: [19]
jazykový pár | Jazykové kódy | |
---|---|---|
jeden | afrikánština <-> angličtina | af<->en |
2 | arabština <-> angličtina | ar<->en |
3 | bulharština <-> angličtina | bg<->en |
čtyři | Čínština (zjednodušená) <-> angličtina | zh-CN <->en |
5 | Čínština (tradiční) <-> angličtina | zh-TW<->en |
6 | chorvatština <-> angličtina | hr<->en |
7 | čeština <-> angličtina | cs<->en |
osm | dánština <-> angličtina | da<->en |
9 | holandština <-> angličtina | nl<->en |
deset | francouzština <-> angličtina | fr<->en |
jedenáct | Němčina <-> angličtina | de<->en |
12 | řečtina <-> angličtina | el<->en |
13 | hebrejština <-> angličtina | iw<->en |
čtrnáct | hindština <-> angličtina | hi<->en |
patnáct | islandština <-> angličtina | is<->en |
16 | indonéština <-> angličtina | id<->en |
17 | italština <-> angličtina | it<->en |
osmnáct | japonština <-> angličtina | ja<->en |
19 | korejština <-> angličtina | ko<->en |
dvacet | norština <-> angličtina | no<->en |
21 | polština <-> angličtina | pl<->en |
22 | portugalština <-> angličtina | pt<->en |
23 | rumunština <-> angličtina | ro<->en |
24 | ruština <-> angličtina | ru<->en |
25 | slovenština <-> angličtina | sk<->en |
26 | Španělština <-> Angličtina | es<->en |
27 | švédština <-> angličtina | sv<->en |
28 | thajština <-> angličtina | th<->en |
29 | turečtina <-> angličtina | tr<->en |
třicet | vietnamština <-> angličtina | vi<->en |
Systém GNMT je prý lepší než předchozí verze Google Translate v tom, že umí provádět „přímý překlad“, tzn. přímo překládat z jednoho jazyka do druhého (například z japonštiny do korejštiny). [2] Dříve překladač Google nejprve překládal ze zdrojového jazyka do angličtiny a poté z angličtiny do cílového jazyka namísto přímého překladu z jednoho jazyka do druhého. [čtyři]
strojovému překladu | Přístupy ke|
---|---|
|
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |