Skip to content

蒙特卡洛方法

蒙特卡罗估计是指依靠重复随机抽样来解决近似问题的一大类技术。凡是需要做大量的采样实验,最后用实验的结果近似的方法,都可以称为蒙特卡洛估计的方法。

在之前介绍的策略迭代算法中,计算:

qπk(s,a)=rp(rs,a)r+γsp(ss,a)vπk(s)

时,p(rs,a)p(ss,a) 都是模型给定的,但如果没有给出概率模型(状态转移概率矩阵 P)呢?

回到 qπk(s,a) 最初的定义:

qπk(s,a)=E[GtSt=s,At=a]

定义折扣回报 g(s,a) 为随机变量 Gt 的一个采样,我们有 N 个采样,有:

qπk(s,a)=E[GtSt=s,At=a]1Ni=1ig(i)(s,a)

基于蒙特卡洛的强化学习

MC ε-greedy (MC Epsilon-Greedy 算法)

ε-greedy policy:

π(as)={1ε|A(s)|(|A(s)|1)for the greedy actionε|A(s)|

其中,ε[0,1]|A(s)|s 对应的动作数量。

πk+1(s)=argmaxπΠεaπ(as)qπk(s,a)

其中,Πε 是所有 ε-greedy policy 的集合,此时:

πk+1(as)={1ε|A(s)|(|A(s)|1)a=akε|A(s)|aak