Latentní sémantická analýza (LSA ) je metoda zpracování informací v přirozeném jazyce , která analyzuje vztah mezi knihovnou dokumentů a termíny, které se v nich nacházejí, a odhaluje charakteristické faktory ( témata ) obsažené ve všech dokumentech a termínech.
Metoda latentní sémantické analýzy je založena na principech faktorové analýzy , zejména na identifikaci latentních souvislostí studovaných jevů či objektů. Při klasifikaci / shlukování dokumentů se tato metoda používá k extrakci kontextově závislých významů lexikálních položek pomocí statistického zpracování velkých textových korpusů [1] .
LSA byl patentován v roce 1988 [2] Scottem Deerwesterem , Susan Dumaisovou , Georgem Furnasem , Richardem Harshmanem , Thomasem Landauerem , Karen Lochbaumovou a Lynn Streeterovou . V oblasti vyhledávání informací se tento přístup nazývá latentní sémantické indexování (LSI) .
LSA bylo poprvé použito k automatickému indexování textů, identifikaci sémantické struktury textu a získávání pseudodokumentů [3] . Poté byla tato metoda poměrně úspěšně použita k reprezentaci znalostních bází [4] a budování kognitivních modelů [5] .
V posledních letech se metoda LSA často používá pro vyhledávání informací ( indexování dokumentů ), klasifikaci dokumentů [6] , modely porozumění [7] a další oblasti, kde je potřeba identifikovat hlavní faktory z řady informačních dat.
LSA lze porovnat s jednoduchým typem neuronové sítě , která se skládá ze tří vrstev: první vrstva obsahuje sadu slov ( termínů ), druhá - určitá sada dokumentů odpovídajících určitým situacím a třetí, střední, skrytá vrstva je sada uzlů s různými váhovými koeficienty spojující první a druhou vrstvu.
LSA používá jako vstup matici term-to-document , která popisuje sadu dat použitou k trénování systému. Prvky této matice obsahují zpravidla váhy, které zohledňují četnost použití každého termínu v každém dokumentu a účast termínu ve všech dokumentech ( TF-IDF ). Nejběžnější verze LSA je založena na použití singulárního rozkladu hodnot (SVD ). Pomocí SVD rozkladu se jakákoli matice rozloží na sadu ortogonálních matic, jejichž lineární kombinace je poměrně přesnou aproximací původní matice.
Formálněji lze podle věty o singulární hodnotě [9] libovolnou skutečnou obdélníkovou matici rozložit na součin tří matic:
,
kde matice a jsou ortogonální a jedná se o diagonální matici, jejíž hodnoty na diagonále se nazývají singulární hodnoty matice . Písmeno T ve výrazu znamená transpozici matice.
Takový rozklad má pozoruhodnou vlastnost: pokud v matici zůstanou pouze největší singulární hodnoty a v maticích zůstanou pouze sloupce odpovídající těmto hodnotám a pak součin výsledných matic bude nejlepší aproximace původní matice k matici pořadí :
,
Hlavní myšlenkou latentní sémantické analýzy je, že pokud byla jako matice použita matice termů k dokumentům , pak matice obsahující pouze první lineárně nezávislé složky odráží hlavní strukturu různých závislostí přítomných v původní matici. Struktura závislosti je určena váhovými funkcemi členů.
Každý termín a dokument je tedy reprezentován vektory ve společném prostoru dimenzí (tzv. prostoru hypotéz). Blízkost mezi jakoukoli kombinací termínů a/nebo dokumentů lze snadno vypočítat pomocí bodového součinu vektorů.
Volba zpravidla závisí na daném úkolu a je vybírána empiricky. Pokud je zvolená hodnota příliš velká, pak metoda ztrácí na síle a přibližuje se charakteristikám standardních vektorových metod. Příliš malá hodnota k neumožňuje zachytit rozdíly mezi podobnými termíny nebo dokumenty.
Existují tři hlavní typy řešení problémů pomocí metody LSA:
Výhody metody:
nedostatky:
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |