EM algoritmus

EM-algorithm ( angl.  Expectation-maximization (EM) algorithm ) je algoritmus používaný v matematické statistice k nalezení odhadů maximální věrohodnosti pro parametry pravděpodobnostních modelů v případě, kdy model závisí na nějakých skrytých proměnných . Každá iterace algoritmu se skládá ze dvou kroků. V E-kroku (očekávání) se vypočítá očekávaná hodnota věrohodnostní funkce , zatímco latentní proměnné jsou považovány za pozorovatelné . V M-kroku (maximalizace) se vypočítá odhad maximální věrohodnosti, čímž se zvýší očekávaná pravděpodobnost počítaná v E-kroku. Tato hodnota se pak použije pro E-krok v další iteraci. Algoritmus se provádí až do konvergence.

K oddělení směsi Gaussiánů se často používá EM algoritmus .

Popis algoritmu

Nechť jsou  některé z hodnot pozorovaných proměnných a  jsou skryté proměnné. Společně tvoří kompletní datovou sadu. Obecně může existovat nějaká nápověda, která usnadní řešení problému, pokud je známa. Pokud například existuje směs distribucí , lze věrohodnostní funkci snadno vyjádřit pomocí parametrů jednotlivých distribucí směsi.

Předpokládejme, že  se jedná o hustotu pravděpodobnosti (ve spojitém případě) nebo pravděpodobnostní funkci (v diskrétním případě) úplného souboru dat s parametry : Tuto funkci lze chápat jako pravděpodobnost celého modelu, pokud ji považujeme za funkce parametrů . Všimněte si, že podmíněné rozdělení skryté komponenty při určitém pozorování a pevné sadě parametrů lze vyjádřit následovně:

,

pomocí rozšířeného Bayesova vzorce a vzorce celkové pravděpodobnosti . Potřebujeme tedy znát pouze rozložení pozorované složky pro pevný latent a pravděpodobnost latentních dat .

Algoritmus EM iterativně zlepšuje počáteční skóre výpočtem nových hodnot skóre a tak dále. V každém kroku se přechod do z provede následovně:

kde  je očekávaný logaritmus pravděpodobnosti. Jinými slovy, nemůžeme okamžitě vypočítat přesnou pravděpodobnost, ale ze známých dat ( ) můžeme najít posteriori odhad pravděpodobností pro různé hodnoty latentních proměnných . Pro každou sadu hodnot a parametrů můžeme vypočítat očekávání pravděpodobnostní funkce pro tuto sadu . Závisí na předchozí hodnotě , protože tato hodnota ovlivňuje pravděpodobnosti latentních proměnných .

se počítá následovně:

to znamená, že se jedná o podmíněné očekávání pod podmínkou .

Jinými slovy,  je hodnota, která maximalizuje (M) podmíněný průměr (E) logaritmické pravděpodobnosti pro dané hodnoty pozorovaných proměnných a předchozí hodnotu parametrů. Ve spojitém případě se hodnota vypočítá takto:

Alternativní popis

Za určitých okolností je vhodné uvažovat o EM algoritmu jako o dvou střídajících se maximalizačních krocích. [1] [2] Zvažte funkci:

kde q  je rozdělení pravděpodobnosti nepozorovaných proměnných Z ; p Z | X ( · | x ; θ ) je podmíněné rozdělení nepozorovaných proměnných pro pevné pozorovatelné x a parametry θ ; H  je entropie a D KL  je Kullback-Leiblerova vzdálenost .

Potom lze kroky EM algoritmu reprezentovat jako:

E (očekávání) krok : Zvolte q pro maximalizaci F : M (aximizační) krok : Zvolte θ pro maximalizaci F :

Příklady použití

Poznámky

  1. Radford; Neal; Hinton, Geoffrey . Pohled na EM algoritmus, který ospravedlňuje inkrementální, řídké a další varianty  //  Learning in Graphical Models : journal / Michael I. Jordan . - Cambridge, MA: MIT Press, 1999. - S. 355-368 . — ISBN 0262600323 .
  2. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. 8.5 Algoritmus EM // Prvky statistického učení  (neopr.) . - New York: Springer, 2001. - S. 236-243. — ISBN 0-387-95284-5 .

Odkazy