Latentní Dirichletovo umístění

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 15. července 2019; kontroly vyžadují 2 úpravy .

Latent Dirichletova alokace ( LDA , z angličtiny  Latent Dirichletova alokace ) je generativní model používaný ve strojovém učení a vyhledávání informací , který umožňuje vysvětlit výsledky pozorování pomocí implicitních skupin, což umožňuje identifikovat důvody podobnosti některých částí. dat. Pokud jsou například pozorování slova shromážděná v dokumentech, argumentuje se tím, že každý dokument je směsí malého počtu témat a že výskyt každého slova je spojen s jedním z témat dokumentu. LDA je jednou z metod tématického modelování a byla poprvé představena jako grafový model.za objev Davidem Bleyem, Andrewem Ngem a Michaelem Jordanem v roce 2003 [1] .

V LDA lze na každý dokument nahlížet jako na soubor různých témat. Tento přístup je podobný pravděpodobnostní latentní sémantické analýze (pLSA), s tím rozdílem, že v LDA se předpokládá, že distribuce témat má a priori Dirichletova distribuce . V praxi je výsledkem správnější soubor témat.

Model může mít například témata klasifikovaná jako „související s kočkami“ a „související se psem“, téma s pravděpodobností generování různých slov, jako je „mňau“, „mléko“ nebo „kotě“, která by mohla být klasifikována jako „ související se psy". ke kočkám", a slova, která nemají zvláštní význam (například služební slova ), budou mít v různých tématech přibližně stejnou pravděpodobnost.

Poznámky

  1. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I Latentní Dirichletova alokace  //  Journal of Machine Learning Research  : journal / Lafferty, John. - 2003. - Leden ( roč. 3 , č. 4-5 ). - P. str. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Archivováno z originálu 1. května 2012.

Odkazy