Latentní sémantická analýza

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. května 2014; kontroly vyžadují 34 úprav .

Latentní sémantická analýza (LSA ) je metoda zpracování informací v  přirozeném jazyce , která analyzuje vztah mezi knihovnou dokumentů a termíny, které se v nich nacházejí, a odhaluje charakteristické faktory ( témata ) obsažené ve všech dokumentech a termínech.

Metoda latentní sémantické analýzy je založena na principech faktorové analýzy , zejména na identifikaci latentních souvislostí studovaných jevů či objektů. Při klasifikaci / shlukování dokumentů se tato metoda používá k extrakci kontextově závislých významů lexikálních položek pomocí statistického zpracování velkých textových korpusů [1] .

Historie

LSA byl patentován v roce 1988 [2] Scottem Deerwesterem , Susan Dumaisovou , Georgem Furnasem , Richardem Harshmanem , Thomasem Landauerem , Karen Lochbaumovou a Lynn Streeterovou . V oblasti vyhledávání informací se tento přístup nazývá latentní sémantické indexování (LSI) .

LSA bylo poprvé použito k automatickému indexování textů, identifikaci sémantické struktury textu a získávání pseudodokumentů [3] . Poté byla tato metoda poměrně úspěšně použita k reprezentaci znalostních bází [4] a budování kognitivních modelů [5] .

V posledních letech se metoda LSA často používá pro vyhledávání informací ( indexování dokumentů ), klasifikaci dokumentů [6] , modely porozumění [7] a další oblasti, kde je potřeba identifikovat hlavní faktory z řady informačních dat.

Popis práce LSA

LSA lze porovnat s jednoduchým typem neuronové sítě , která se skládá ze tří vrstev: první vrstva obsahuje sadu slov ( termínů ), druhá - určitá sada dokumentů odpovídajících určitým situacím a třetí, střední, skrytá vrstva je sada uzlů s různými váhovými koeficienty spojující první a druhou vrstvu.

LSA používá jako vstup matici term-to-document , která popisuje sadu dat použitou k trénování systému. Prvky této matice obsahují zpravidla váhy, které zohledňují četnost použití každého termínu v každém dokumentu a účast termínu ve všech dokumentech ( TF-IDF ). Nejběžnější verze LSA je založena na použití singulárního rozkladu hodnot (SVD ). Pomocí SVD rozkladu se jakákoli matice rozloží na sadu ortogonálních matic, jejichž lineární kombinace je poměrně přesnou aproximací původní matice.

Formálněji lze podle věty o singulární hodnotě [9] libovolnou skutečnou obdélníkovou matici rozložit na součin tří matic:

,

kde matice a  jsou ortogonální a  jedná se o diagonální matici, jejíž hodnoty na diagonále se nazývají singulární hodnoty matice . Písmeno T ve výrazu znamená transpozici matice.

Takový rozklad má pozoruhodnou vlastnost: pokud v matici zůstanou pouze největší singulární hodnoty a v maticích zůstanou  pouze sloupce odpovídající těmto hodnotám a pak součin výsledných matic bude nejlepší aproximace původní matice k matici pořadí :

,

Hlavní myšlenkou latentní sémantické analýzy je, že pokud byla jako matice použita matice termů k dokumentům , pak matice obsahující pouze první lineárně nezávislé složky odráží hlavní strukturu různých závislostí přítomných v původní matici. Struktura závislosti je určena váhovými funkcemi členů.

Každý termín a dokument je tedy reprezentován vektory ve společném prostoru dimenzí (tzv. prostoru hypotéz). Blízkost mezi jakoukoli kombinací termínů a/nebo dokumentů lze snadno vypočítat pomocí bodového součinu vektorů.

Volba zpravidla závisí na daném úkolu a je vybírána empiricky. Pokud je zvolená hodnota příliš velká, pak metoda ztrácí na síle a přibližuje se charakteristikám standardních vektorových metod. Příliš malá hodnota k neumožňuje zachytit rozdíly mezi podobnými termíny nebo dokumenty.

Aplikace

Existují tři hlavní typy řešení problémů pomocí metody LSA:

Výhody a nevýhody LSA

Výhody metody:

nedostatky:

Poznámky

  1. Thomas Landauer , Peter W. Foltz a Darrell Laham. Úvod do latentní sémantické analýzy  //  Diskurzní procesy : deník. - 1998. - Sv. 25 . - str. 259-284 . - doi : 10.1080/01638539809545028 .
  2. Americký patent 4,839,853
  3. 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexování pomocí latentní sémantické analýzy  //  Journal of the American Society for Information Science : deník. - 1990. - Sv. 41 , č. 6 . - S. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Archivováno z originálu 17. července 2012.
  4. Thomas Landauer , Susan T. Dumais . Řešení Platónova problému: latentní sémantická analýza teorie získávání, indukce a reprezentace znalostí  //  JPsychological Review. : deník. - 1997. - Sv. 104 . - S. 211-240 . Archivováno z originálu 14. března 2012.
  5. B. Lemaire , G. Denhière . Kognitivní modely založené na latentní sémantické analýze  (neurčité)  // Výukový program poskytnutý na 5. mezinárodní konferenci o kognitivním modelování (ICCM'2003), Bamberg, Německo, 9. dubna 2003.. - 2003.  (nedostupný odkaz)
  6. Nekrestyanov I. S. Tématicky orientované metody vyhledávání informací / Disertační práce pro stupeň Ph.D. St. Petersburg State University, 2000.
  7. Solovjov A. N. Modelování procesů porozumění řeči pomocí latentní sémantické analýzy / Disertační práce pro stupeň Ph.D. St. Petersburg State University, 2008.
  8. Archivovaná kopie . Získáno 1. září 2017. Archivováno z originálu 1. září 2017.
  9. Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Odkazy