Markovův rozhodovací proces

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 27. března 2020; ověření vyžaduje 1 úpravu .

Markovův  rozhodovací proces ( MDP) je specifikace sekvenčního rozhodovacího problému pro plně pozorovatelné prostředí s Markovovým přechodovým modelem a dalšími odměnami. Slovo Markov v názvu odráží naplnění vlastnosti Markov pro takové procesy. Takový proces slouží jako matematický základ pro modelování sekvenčního rozhodování v situacích, kdy jsou výsledky částečně náhodné a částečně pod kontrolou osoby s rozhodovací pravomocí. Dnes se tato specifikace používá v různých oblastech, včetně robotiky , automatizovaného řízení , ekonomiky a výroby .

Definice

Abychom mohli definovat Markovův rozhodovací proces, musíme definovat 4 - n-tice where

Viz také