Pravděpodobnostní latentní sémantická analýza

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 26. června 2016; kontroly vyžadují 7 úprav .

Pravděpodobnostní latentní sémantická analýza (PLSA) , známá také jako pravděpodobnostní latentní sémantické indexování ( PLSI , zejména v oblasti vyhledávání informací), je statistická metoda pro analýzu korelace dvou typů dat . Tato metoda je dalším vývojem latentní sémantické analýzy . VLSA se používá v takových oblastech, jako je vyhledávání informací , zpracování přirozeného jazyka , strojové učení a související obory. Tato metoda byla poprvé publikována v roce 1999 Thomasem Hofmannem [1] .

Ve srovnání s konvenční latentní sémantickou analýzou , která je založena na lineární algebře a představuje způsob, jak snížit dimenzionalitu matice (obvykle pomocí singulárního rozkladu diagonální matice ), je pravděpodobnostní latentní sémantická analýza založena na smíšeném rozkladu, který zase vzniká ze skrytého modelu třídy. Tento přístup je zásadnější, protože má pevný základ v oblasti statistiky.

Varianty pLSA

Hierarchická rozšíření:
- Asymetrický: MASHA ("Multinomiální ASymetrická hierarchická analýza", "polynomiální asymetrická hierarchická analýza") [2]
- Symetrické: HPLSA ("Hierarchická pravděpodobnostní latentní sémantická analýza", "Hierarchická pravděpodobnostní latentní sémantická analýza"), [3]

Generativní modely: Navrženy tak, aby řešily běžně kritizovaný nedostatek pLSA, totiž že jde o nesprávný generativní model pro nové dokumenty.
- Skrytá distribuce Dirichlet – přidává distribuci Dirichlet jako předchozí distribuci témat napříč dokumenty

Data vyššího řádu: Ačkoli se ve vědecké literatuře o pLSA jen zřídka diskutuje, je přirozeně použitelná pro data vyššího řádu (tříúrovňová a vyšší), což znamená, že může modelovat kombinované chování tří nebo více proměnných. Ve výše uvedené symetrické formulaci se to provede jednoduchým přidáním podmíněného rozdělení pravděpodobnosti pro tyto další proměnné. Toto je pravděpodobnostní analogie nezáporné tenzorové faktorizace.

Poznámky

↑ Thomas Hofmann, Pravděpodobnostní latentní sémantické indexování archivováno 14. prosince 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
↑ Alexej Vinokourov a Mark Girolami, Pravděpodobnostní rámec pro hierarchickou organizaci a klasifikaci sbírek dokumentů , v Information Processing and Management , 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat a Francine Chen, Hierarchický model pro shlukování a kategorizaci dokumentů Archivováno 13. března 2006 na Wayback Machine , v „Pokroky v získávání informací – sborník 24. BCS-IRSG European Colloquium o výzkumu IR " (ECIR-02)", 2002

Pravděpodobnostní latentní sémantická analýza

Varianty pLSA

Poznámky

Viz také