Pravděpodobnostní latentní sémantická analýza

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 26. června 2016; kontroly vyžadují 7 úprav .

Pravděpodobnostní latentní sémantická analýza (PLSA) , známá také jako pravděpodobnostní latentní sémantické indexování ( PLSI , zejména v oblasti vyhledávání informací), je statistická metoda pro analýzu korelace dvou typů dat . Tato metoda je dalším vývojem latentní sémantické analýzy . VLSA se používá v takových oblastech, jako je vyhledávání informací , zpracování přirozeného jazyka , strojové učení a související obory. Tato metoda byla poprvé publikována v roce 1999 Thomasem Hofmannem [1] .

Ve srovnání s konvenční latentní sémantickou analýzou , která je založena na lineární algebře a představuje způsob, jak snížit dimenzionalitu matice (obvykle pomocí singulárního rozkladu diagonální matice ), je pravděpodobnostní latentní sémantická analýza založena na smíšeném rozkladu, který zase vzniká ze skrytého modelu třídy. Tento přístup je zásadnější, protože má pevný základ v oblasti statistiky.

Varianty pLSA

Poznámky

  1. Thomas Hofmann, Pravděpodobnostní latentní sémantické indexování archivováno 14. prosince 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexej Vinokourov a Mark Girolami, Pravděpodobnostní rámec pro hierarchickou organizaci a klasifikaci sbírek dokumentů , v Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat a Francine Chen, Hierarchický model pro shlukování a kategorizaci dokumentů Archivováno 13. března 2006 na Wayback Machine , v „Pokroky v získávání informací – sborník 24. BCS-IRSG European Colloquium o výzkumu IR " (ECIR-02)", 2002

Viz také