Latentní sémantická analýza

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. května 2014; kontroly vyžadují 34 úprav .

Latentní sémantická analýza (LSA ) je metoda zpracování informací v přirozeném jazyce , která analyzuje vztah mezi knihovnou dokumentů a termíny, které se v nich nacházejí, a odhaluje charakteristické faktory ( témata ) obsažené ve všech dokumentech a termínech.

Metoda latentní sémantické analýzy je založena na principech faktorové analýzy , zejména na identifikaci latentních souvislostí studovaných jevů či objektů. Při klasifikaci / shlukování dokumentů se tato metoda používá k extrakci kontextově závislých významů lexikálních položek pomocí statistického zpracování velkých textových korpusů [1] .

Historie

LSA byl patentován v roce 1988 [2] Scottem Deerwesterem , Susan Dumaisovou , Georgem Furnasem , Richardem Harshmanem , Thomasem Landauerem , Karen Lochbaumovou a Lynn Streeterovou . V oblasti vyhledávání informací se tento přístup nazývá latentní sémantické indexování (LSI) .

LSA bylo poprvé použito k automatickému indexování textů, identifikaci sémantické struktury textu a získávání pseudodokumentů [3] . Poté byla tato metoda poměrně úspěšně použita k reprezentaci znalostních bází [4] a budování kognitivních modelů [5] .

V posledních letech se metoda LSA často používá pro vyhledávání informací ( indexování dokumentů ), klasifikaci dokumentů [6] , modely porozumění [7] a další oblasti, kde je potřeba identifikovat hlavní faktory z řady informačních dat.

Popis práce LSA

LSA lze porovnat s jednoduchým typem neuronové sítě , která se skládá ze tří vrstev: první vrstva obsahuje sadu slov ( termínů ), druhá - určitá sada dokumentů odpovídajících určitým situacím a třetí, střední, skrytá vrstva je sada uzlů s různými váhovými koeficienty spojující první a druhou vrstvu.

LSA používá jako vstup matici term-to-document , která popisuje sadu dat použitou k trénování systému. Prvky této matice obsahují zpravidla váhy, které zohledňují četnost použití každého termínu v každém dokumentu a účast termínu ve všech dokumentech ( TF-IDF ). Nejběžnější verze LSA je založena na použití singulárního rozkladu hodnot (SVD ). Pomocí SVD rozkladu se jakákoli matice rozloží na sadu ortogonálních matic, jejichž lineární kombinace je poměrně přesnou aproximací původní matice.

Formálněji lze podle věty o singulární hodnotě [9] libovolnou skutečnou obdélníkovou matici rozložit na součin tří matic:

${\begin{matrix}A=USV^{T}\end{matrix}}$ ,

kde matice a jsou ortogonální a jedná se o diagonální matici, jejíž hodnoty na diagonále se nazývají singulární hodnoty matice . Písmeno T ve výrazu znamená transpozici matice. ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {S}}$ ${\textbf {A}}$ ${\textbf {V}}^{T}$

Takový rozklad má pozoruhodnou vlastnost: pokud v matici zůstanou pouze největší singulární hodnoty a v maticích zůstanou pouze sloupce odpovídající těmto hodnotám a pak součin výsledných matic bude nejlepší aproximace původní matice k matici pořadí : ${\textbf {S}}$ ${\textbf {k))$ ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {S}}$ ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {A}}$ ${\klobouk {\textbf {A}}}$ ${\textbf {k))$

${\begin{matrix}{\hat A}\approx A=USV^{T}\end{matrix}}$ ,

Hlavní myšlenkou latentní sémantické analýzy je, že pokud byla jako matice použita matice termů k dokumentům , pak matice obsahující pouze první lineárně nezávislé složky odráží hlavní strukturu různých závislostí přítomných v původní matici. Struktura závislosti je určena váhovými funkcemi členů. ${\textbf {A}}$ ${\klobouk {\textbf {A}}}$ ${\textbf {k))$ ${\textbf {A}}$

Každý termín a dokument je tedy reprezentován vektory ve společném prostoru dimenzí (tzv. prostoru hypotéz). Blízkost mezi jakoukoli kombinací termínů a/nebo dokumentů lze snadno vypočítat pomocí bodového součinu vektorů. ${\textbf {k))$

Volba zpravidla závisí na daném úkolu a je vybírána empiricky. Pokud je zvolená hodnota příliš velká, pak metoda ztrácí na síle a přibližuje se charakteristikám standardních vektorových metod. Příliš malá hodnota k neumožňuje zachytit rozdíly mezi podobnými termíny nebo dokumenty. ${\textbf {k))$ ${\textbf {k))$

Aplikace

Existují tři hlavní typy řešení problémů pomocí metody LSA:

srovnání dvou termínů mezi sebou;
porovnání dvou dokumentů mezi sebou;
srovnání termínu a dokumentu.

Výhody a nevýhody LSA

Výhody metody:

metoda je nejlepší pro odhalení skrytých závislostí v rámci sady dokumentů;
metodu lze aplikovat jak s tréninkem, tak bez tréninku (například pro shlukování );
jsou použity hodnoty proximitní matice založené na frekvenčních charakteristikách dokumentů a lexikálních jednotek;
polysémie a homonymie jsou částečně odstraněny .

nedostatky:

Značnou nevýhodou metody je výrazné snížení rychlosti výpočtu s nárůstem množství vstupních dat (například při SVD transformaci). Jak je uvedeno v [3] , rychlost výpočtu odpovídá objednávce , kde je součet počtu dokumentů a termínů a je dimenze prostoru faktorů. ${\textbf {N}}^{{2*k}}$ ${\textbf {N}}={\textbf {N}}_{{doc}}+{\textbf {N}}_{{term}}$ ${\textbf {k))$
Pravděpodobnostní model metody neodpovídá skutečnosti. Předpokládá se, že slova a dokumenty mají normální rozdělení , ačkoli Poissonovo rozdělení je blíže realitě . V tomto ohledu je pro praktické aplikace vhodnější pravděpodobnostní latentní sémantická analýza založená na multinomiální distribuci .

Poznámky

↑ Thomas Landauer , Peter W. Foltz a Darrell Laham. Úvod do latentní sémantické analýzy // Diskurzní procesy : deník. - 1998. - Sv. 25 . - str. 259-284 . - doi : 10.1080/01638539809545028 .
↑ Americký patent 4,839,853
↑ 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexování pomocí latentní sémantické analýzy // Journal of the American Society for Information Science : deník. - 1990. - Sv. 41 , č. 6 . - S. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Archivováno z originálu 17. července 2012.
↑ Thomas Landauer , Susan T. Dumais . Řešení Platónova problému: latentní sémantická analýza teorie získávání, indukce a reprezentace znalostí // JPsychological Review. : deník. - 1997. - Sv. 104 . - S. 211-240 . Archivováno z originálu 14. března 2012.
↑ B. Lemaire , G. Denhière . Kognitivní modely založené na latentní sémantické analýze (neurčité) // Výukový program poskytnutý na 5. mezinárodní konferenci o kognitivním modelování (ICCM'2003), Bamberg, Německo, 9. dubna 2003.. - 2003. (nedostupný odkaz)
↑ Nekrestyanov I. S. Tématicky orientované metody vyhledávání informací / Disertační práce pro stupeň Ph.D. St. Petersburg State University, 2000.
↑ Solovjov A. N. Modelování procesů porozumění řeči pomocí latentní sémantické analýzy / Disertační práce pro stupeň Ph.D. St. Petersburg State University, 2008.
↑ Archivovaná kopie . Získáno 1. září 2017. Archivováno z originálu 1. září 2017. (neurčitý)
↑ Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Odkazy

https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html – Čtení v latentní sémantické analýze pro kognitivní vědu a vzdělávání. — Sbírka článků a odkazů o LSA.
http://lsa.colorado.edu/ - stránka věnovaná modelování LSA.

zpracování přirozeného jazyka
Obecné definice	Korpus textů řečový korpus Zastavte slova pytel slov úplnost AI N-gram Bigramová šifra trigram
Analýza textu	Segmentace textu Částečné značení Analýza povrchu Složené textové zpracování Extrahování kolokací pramenící Lematizace Rozpoznávání pojmenované entity Koreferenční rozlišení Analýza sentimentu textu Extrakce konceptu rozebrat Řešení lexikální polysémie Výpis terminologie Extrakce informací Identifikace jazyka Definice případu
Odkazování	Vytahování vět Abstraktní generace Odkazování na více dokumentů Zjednodušení textu
Strojový překlad	Automatizovaný Hybridní Interlingual Na základě pravidel Na základě příkladů Slovník založený Na základě transformace neurální Statistický Synchronní
Identifikace a sběr dat	Rozpoznávání řeči syntéza řeči Optické rozpoznávání znaků Generování textu
Tematický model	Umístění Pachinko Latentní Dirichletovo umístění Latentní sémantická analýza
Peer review	Automatické hodnocení esejí Concordancer Prediktivní zadávání textu Kontrola gramatiky Kontrola pravopisu Syntax Guessing
Rozhraní přirozeného jazyka	virtuální asistentka Virtuální partner Systém otázek a odpovědí Hlasové rozhraní Interaktivní literatura