Markovův rozhodovací proces

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 27. března 2020; ověření vyžaduje 1 úpravu .

Markovův rozhodovací proces ( MDP) je specifikace sekvenčního rozhodovacího problému pro plně pozorovatelné prostředí s Markovovým přechodovým modelem a dalšími odměnami. Slovo Markov v názvu odráží naplnění vlastnosti Markov pro takové procesy. Takový proces slouží jako matematický základ pro modelování sekvenčního rozhodování v situacích, kdy jsou výsledky částečně náhodné a částečně pod kontrolou osoby s rozhodovací pravomocí. Dnes se tato specifikace používá v různých oblastech, včetně robotiky , automatizovaného řízení , ekonomiky a výroby .

Definice

Abychom mohli definovat Markovův rozhodovací proces, musíme definovat 4 - n-tice where $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$

$S$ konečná množina stavů,
$A$ konečná množina akcí (často reprezentovaná jako množiny přístupné ze stavu ), $Tak jako$ $s$
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ pravděpodobnost, že akce ve stavu v daném čase vyústí ve stav v daném okamžiku , $A$ $s$ $t$ $s'$ $t+1$
$R_{a}(s,s')$ odměna obdržená po přechodu do stavu ze stavu s pravděpodobností přechodu . $s'$ $s$ $P_{a}(s,s')$

Markovův rozhodovací proces

Definice

Viz také