Skip to content

马尔可夫决策过程

Markov decision process

定义:

  • S:状态
  • A(s):Action,sS
  • R(s,a):Reward
  • p(ss,a):State teansition probability,在状态 s,执行动作 a,到达状态 s 的概率。
  • p(rs,a):Reward probability,在状态 s,执行动作 a,得到奖励 r 的概率。
  • π(as):Policy,在状态 s,执行动作 a,采取该策略的概率。

Markov property

p(st+1st,at,,s0,a0)=p(st+1st,at)p(rt+1st,at,s0,a0)=p(rt+1st,at)