Distribuční sémantika

Distributivní sémantika  je obor lingvistiky , který se zabývá výpočtem míry sémantické podobnosti mezi lingvistickými jednotkami na základě jejich distribuce (distribuce) ve velkých polích lingvistických dat ( textové korpusy ).

Každému slovu je přiřazen vlastní kontextový vektor . Množina vektorů tvoří slovní vektorový prostor .

Sémantická vzdálenost mezi pojmy vyjádřenými slovy přirozeného jazyka se obvykle vypočítá jako kosinusová vzdálenost mezi vektory slovního prostoru.

Historie

„ Distributivní analýza  je metoda jazykového výzkumu založená na studiu prostředí (distribuce, distribuce) jednotlivých jednotek v textu a nevyužívá informace o plném lexikálním či gramatickém významu těchto jednotek“ [1] .

V rámci této metody je na texty studovaného jazyka aplikován uspořádaný soubor univerzálních postupů, který umožňuje vyčlenit hlavní jednotky jazyka (fonémy, morfémy, slova, fráze), klasifikovat je a vytvořit mezi nimi vztahy kompatibility.

Klasifikace je založena na principu substituce: jazykové jednotky patří do stejné třídy, pokud se mohou objevit ve stejných kontextech.

Distributivní analýza byla navržena L. Bloomfieldem ve dvacátých letech 20. století. XX století a byl používán především ve fonologii a morfologii.

3. Harris a další představitelé deskriptivní lingvistiky rozvinuli tuto metodu ve svých dílech ve 30. a 50. letech 20. století. XX století.

Podobné myšlenky předložili zakladatelé strukturální lingvistiky F. de Saussure a L. Wittgenstein.

Myšlenku kontextových vektorů navrhl psycholingvista Charles Osgood jako součást své práce na reprezentaci významů slov [2] .

Kontexty, ve kterých se slova vyskytovala, fungovaly jako měření vícebitových vektorů.

Osgoodovy práce jako takové kontexty používaly antonymické dvojice přídavných jmen (například rychlý-pomalý ), které účastníci průzkumu hodnotili na sedmibodové škále.

Příklad kontextového prostoru funkcí popisující význam slov myš a krysa z Osgoodova díla:

Termín kontextový vektor zavedl S. Gallant k popisu významu slov a vyřešení lexikální dvojznačnosti [3] .

Gallantova práce používala různé atributy dané výzkumníkem, jako je osoba , muž , auto atd.

Příklad kontextového prostoru rysů popisující význam slova astronom z Gallantova díla:

Během posledních dvou desetiletí byla metoda distributivní analýzy široce aplikována na studium sémantiky.

Byla vyvinuta distributivně-sémantická technika a odpovídající software, které umožňují automaticky porovnávat kontexty, ve kterých se studované jazykové jednotky vyskytují, a vypočítat sémantické vzdálenosti mezi nimi [4] .

Distributivní hypotéza

Distributivní sémantika je založena na distributivní hypotéze : jazykové jednotky vyskytující se v podobných kontextech mají podobný význam [5] .

Psychologické experimenty potvrdily pravdivost této hypotézy. Například v jedné z prací [6] byli účastníci experimentu požádáni, aby vyjádřili svůj názor na synonymii dvojic slov, která jim byla předložena. Data z průzkumu byla následně porovnána s kontexty, ve kterých se studovaná slova vyskytovala. Experiment ukázal pozitivní korelaci mezi sémantickou blízkostí slov a podobností kontextů, ve kterých se vyskytují.

Matematický model

Vektorové prostory z lineární algebry se používají jako způsob reprezentace modelu . Informace o rozložení jazykových jednotek jsou prezentovány ve formě vícemístných vektorů, které tvoří verbální vektorový prostor. Vektory odpovídají lingvistickým jednotkám (slovům nebo frázím) a dimenze odpovídají kontextům. Souřadnice vektorů jsou čísla ukazující, kolikrát se dané slovo nebo fráze vyskytuje v daném kontextu.

Příklad slovního vektorového prostoru popisujícího distribuční charakteristiky slov čaj a káva , ve kterém je kontext sousední slovo:

Velikost kontextového okna je určena cíli studie [7] :

Sémantická blízkost mezi lingvistickými jednotkami se vypočítá jako vzdálenost mezi vektory. Ve výzkumu distributivní sémantiky se nejčastěji používá kosinusová míra , která se vypočítá podle vzorce:

kde a  jsou dva vektory, mezi nimiž se vypočítává vzdálenost.

Po takové analýze je možné identifikovat slova, která jsou významem nejblíže studovanému slovu.

Příklad slov nejbližších ke slovu kočka (seznam byl získán na základě dat webového korpusu ruského jazyka [8] , korpus byl zpracován systémem Sketch Engine [9] ):

V grafické podobě mohou být slova znázorněna jako body v rovině, zatímco body odpovídající slovům, která jsou si významově blízká, jsou umístěny blízko sebe. Příklad slovního prostoru popisujícího předmětovou oblast superpočítačů z práce Heinricha Schutze [10] :

Modely distributivní sémantiky

Existuje mnoho různých modelů distribuční sémantiky, které se liší následujícími způsoby:

Nejznámější jsou následující distribučně-sémantické modely:

Redukce rozměrů vektorových prostorů

Při použití distributivně-sémantických modelů v reálných aplikacích nastává problém, že dimenze vektorů je příliš velká, odpovídající obrovskému množství kontextů prezentovaných v textovém korpusu. Je potřeba aplikovat speciální metody, které dokážou zmenšit rozměr a řídkost vektorového prostoru a zároveň zachovat co nejvíce informací z původního vektorového prostoru. Výsledné komprimované vektorové reprezentace slov v anglické terminologii se nazývají vkládání slov .

Metody pro zmenšení rozměru vektorových prostorů:

Prediktivní modely distributivní sémantiky

Dalším způsobem, jak získat nízkorozměrné vektory, je strojové učení, zejména umělé neuronové sítě . Při trénování takových prediktivních modelů (angl. prediktivní modely) je cílovou reprezentací každého slova také komprimovaný vektor relativně malé velikosti (angl. embedding ), u kterého se při více průchodech trénovacím korpusem maximalizuje podobnost se sousedními vektory. a podobnost s vektory slova je minimalizována, jeho sousedy, kteří nejsou [12] . Na rozdíl od tradičních modelů počítání však v tomto přístupu neexistuje žádná fáze zmenšování rozměru vektoru, protože model je zpočátku inicializován vektory malého rozměru (řádově několik stovek komponent).

Takové prediktivní modely reprezentují sémantiku přirozeného jazyka přesněji než výpočetní modely, které nevyužívají strojové učení [13] .

Nejznámějšími představiteli tohoto přístupu jsou algoritmy Continuous Bag-of-Words (CBOW) a Continuous Skipgram , poprvé implementované v utilitě word2vec , představené v roce 2013 [14] . Příklad aplikace takových modelů na ruský jazyk je uveden na webové službě RusVectōrēs .

Aplikace

Distribuční sémantické modely našly uplatnění ve výzkumu a praktických implementacích souvisejících se sémantickými modely přirozeného jazyka.

Distribuční modely se používají k řešení následujících problémů [15] :

Programy

Existuje několik softwarových nástrojů pro výzkum distributivní sémantiky s otevřeným zdrojovým kódem:

Viz také

Poznámky

  1. Yartseva, 1990 .
  2. Osgood a kol., 1957 .
  3. Gallant, 1991 .
  4. Mitrofanova, 2008 .
  5. Sahlgren, 2008 .
  6. Rubenstein, Goodenough, 1965 .
  7. 1 2 Sharnin a kol., 2013 .
  8. Ruský webový korpus .
  9. Sketch Engine .
  10. Schutze, 1992 .
  11. Sahlgren, 2005 .
  12. Kutuzov a Andreev, 2015 .
  13. Baroni, Marco a Dinu, Georgiana a Kruszewski, něm. Nepočítat, předvídat! systematické srovnání počítání kontextu vs. context-predicting sémantic vectors // Sborník příspěvků z 52. výroční schůze Asociace pro počítačovou lingvistiku. - 2014. - č. 1 . - S. 238-247 .
  14. Mikolov, Tomas a Chen, Kai a Corrado, Greg a Dean, Jeffrey. Efektivní odhad slovních reprezentací ve vektorovém prostoru // arXiv preprint arXiv:1301.3781. — 2013.
  15. 1 2 Morozová et al., 2014 .
  16. Klyshinsky et al., 2013 .
  17. Sahlgren, Karlgren, 2005 .
  18. Pekař, 2004 .

Literatura