蒙特卡洛方法

蒙特卡罗估计是指依靠重复随机抽样来解决近似问题的一大类技术。凡是需要做大量的采样实验，最后用实验的结果近似的方法，都可以称为蒙特卡洛估计的方法。

在之前介绍的策略迭代算法中，计算：

q_{π_{k}} (s, a) = \sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π_{k}} (s^{'})

时， $p (r ∣ s, a)$ 、 $p (s^{'} ∣ s, a)$ 都是模型给定的，但如果没有给出概率模型（状态转移概率矩阵 $P$ ）呢？

回到 $q_{π_{k}} (s, a)$ 最初的定义：

q_{π_{k}} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a]

定义折扣回报 $g (s, a)$ 为随机变量 $G_{t}$ 的一个采样，我们有 $N$ 个采样，有：

q_{π_{k}} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a] \approx \frac{1}{N} \sum_{i = 1}^{i} g^{(i)} (s, a)

基于蒙特卡洛的强化学习

$ε$ -greedy policy：

π (a ∣ s) = {\begin{cases} 1 - \frac{ε}{| A (s) |} (| A (s) | - 1) & for the greedy action \\ \frac{ε}{| A (s) |} \end{cases}

其中， $ε \in [0, 1]$ ， $| A (s) |$ 是 $s$ 对应的动作数量。

π_{k + 1} (s) = \underset{π \in Π_{ε}}{argmax} \sum_{a} π (a ∣ s) q_{π_{k}} (s, a)

其中， $Π_{ε}$ 是所有 $ε$ -greedy policy 的集合，此时：

π_{k + 1} (a ∣ s) = {\begin{cases} 1 - \frac{ε}{| A (s) |} (| A (s) | - 1) & a = a_{k}^{*} \\ \frac{ε}{| A (s) |} & a \neq a_{k}^{*} \end{cases}