Q-learning

Q -learning je metoda používaná v umělé inteligenci s přístupem založeným na agentech . Odkazuje na experimenty s učením se zesílením . Agent na základě obdržené odměny od okolí formuje užitkovou funkci Q, která mu následně dává možnost nevolit náhodně strategii chování, ale zohlednit zkušenosti z předchozí interakce s okolím. Jednou z výhod Q-learningu je, že je schopen porovnávat očekávanou užitečnost dostupných aktivit bez nutnosti modelování prostředí. Platí pro situace, které lze znázornit jako Markovův rozhodovací proces .

Algoritmus Q-learningu

  1. Inicializace :
    1. pro každé s a do Q[s, a] = RND // inicializuje užitkovou funkci Q z akce a v situaci s jako náhodnou pro jakýkoli vstup
  2. pozorovat :
    1. s' = s // Zapamatujte si předchozí stavy
    2. a' = a // Zapamatujte si předchozí akce
    3. s = FROM_SENSOR // Získání aktuálních stavů ze senzoru
    4. r = FROM_SENSOR // Získejte odměnu za předchozí akci
  3. Aktualizace (aktualizace nástroje):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Rozhodnutí :
    1. a = ARGMAX(Q, s)
    2. TO_AKTIVÁTOR = a
  5. Opakujte : PŘEJDĚTE NA 2

Notace

Funkce MAX(Q,s)

  1. max = minValue
  2. za každé a z AKCÍ(ů) udělat
    1. pokud Q[s, a] > max, pak max = Q[s, a]
  3. návratnost max

ARGMAX(Q,s)

  1. amax = první z AKCÍ
  2. pro každou akci AKCE
    1. pokud Q[s, a] > Q[s, amax], pak amax = a
  3. návratnost amax

Literatura

Viz také

Odkazy