Vektorové znázornění slov

Vektorová reprezentace  je obecný název pro různé přístupy k modelování jazyka a trénování reprezentace ve zpracování přirozeného jazyka zaměřené na shodu slov (a případně frází) z nějakého slovníku vektorů z for , mnohem menšího počtu slov ve slovníku. Teoretickým základem pro vektorové reprezentace je distributivní sémantika .

Existuje několik metod pro vytvoření takového mapování. Používají tedy neuronové sítě [1] , metody redukce rozměrů aplikované na matice společného výskytu slov [2] a explicitní reprezentace se učí na kontextech slovních zmínek (explicitní reprezentace) [3] .

Předvedeno[ kým? ] , že vektorové reprezentace slov a frází mohou výrazně zlepšit kvalitu některých metod automatického zpracování přirozeného jazyka (například parsování [4] a analýza sentimentu [5] ).

Odkazy

  1. Mikolov, Tomáš; Sutskever, Ilya; Chen, Kai; Corrado, Greg & Dean, Jeffrey (2013), Distribuovaná reprezentace slov a frází a jejich složení, arΧiv : 1310.4546 [cs.CL]. 
  2. Lebret, Rémi & Collobert, Ronan (2013), Word Emdeddings prostřednictvím Hellinger PCA, arΧiv : 1312.5542 [cs.CL]. 
  3. Levy, Omer; Goldberg, Yoav. Lingvistické zákonitosti v řídkých a explicitních slovních reprezentacích  //  Sborník příspěvků z osmnácté konference o počítačovém učení přirozeného jazyka, Baltimore, Maryland, USA, červen. Asociace pro počítačovou lingvistiku. 2014: deník.
  4. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew. Parsování s kompozičními vektorovými gramatikami  (neurčité)  // Sborník z konference ACL. 2013.
  5. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Rekurzivní hluboké modely sémantické kompozice nad sentimentálním stromem  //  Konference o empirických metodách zpracování přirozeného jazyka: časopis.