Latent Dirichletova alokace ( LDA , z angličtiny Latent Dirichletova alokace ) je generativní model používaný ve strojovém učení a vyhledávání informací , který umožňuje vysvětlit výsledky pozorování pomocí implicitních skupin, což umožňuje identifikovat důvody podobnosti některých částí. dat. Pokud jsou například pozorování slova shromážděná v dokumentech, argumentuje se tím, že každý dokument je směsí malého počtu témat a že výskyt každého slova je spojen s jedním z témat dokumentu. LDA je jednou z metod tématického modelování a byla poprvé představena jako grafový model.za objev Davidem Bleyem, Andrewem Ngem a Michaelem Jordanem v roce 2003 [1] .
V LDA lze na každý dokument nahlížet jako na soubor různých témat. Tento přístup je podobný pravděpodobnostní latentní sémantické analýze (pLSA), s tím rozdílem, že v LDA se předpokládá, že distribuce témat má a priori Dirichletova distribuce . V praxi je výsledkem správnější soubor témat.
Model může mít například témata klasifikovaná jako „související s kočkami“ a „související se psem“, téma s pravděpodobností generování různých slov, jako je „mňau“, „mléko“ nebo „kotě“, která by mohla být klasifikována jako „ související se psy". ke kočkám", a slova, která nemají zvláštní význam (například služební slova ), budou mít v různých tématech přibližně stejnou pravděpodobnost.
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |