主题
蒙特卡罗估计是指依靠重复随机抽样来解决近似问题的一大类技术。凡是需要做大量的采样实验,最后用实验的结果近似的方法,都可以称为蒙特卡洛估计的方法。
在之前介绍的策略迭代算法中,计算:
时,p(r∣s,a)、p(s′∣s,a) 都是模型给定的,但如果没有给出概率模型(状态转移概率矩阵 P)呢?
回到 qπk(s,a) 最初的定义:
定义折扣回报 g(s,a) 为随机变量 Gt 的一个采样,我们有 N 个采样,有:
ε-greedy policy:
其中,ε∈[0,1],|A(s)| 是 s 对应的动作数量。
其中,Πε 是所有 ε-greedy policy 的集合,此时: