截断策略迭代算法

Truncated policy iteration algorithm

值迭代算法（value iteration algorithm）

算法的矩阵形式如下：

v_{k + 1} = max_{π} (r_{π} + γ P_{π} v_{k})

策略更新（policy update，PU）
给定 $v_{k}$ ，求解 $π$ 可以得到：
$π_{k + 1} = {argmax}_{π} (r_{π} + γ P_{π} v_{k})$
价值更新（value update，VU）
代入第一个式子，有：
$v_{k + 1} = r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{k}$

算法的元素形式如下：

策略更新：
$π_{k + 1} = \underset{π}{argmax} \sum_{a} π (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{k} (s^{'})], \forall s \in S$
对应的最优策略为：
$π_{k + 1} (a ∣ s) = {\begin{cases} 1 & a = a_{k}^{*} (s) \\ 0 & a \neq a_{k}^{*} (s) \end{cases}$ $a_{k}^{*} (s) = {argmax}_{a} q_{k}^{*} (s, a)$
注意： $v^{*}$ 唯一，但最优策略不一定唯一。
价值更新：
$v_{k + 1} (s) = \sum_{a} π_{k + 1} (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{k} (s^{'})], \forall s \in S$
代入 $π_{k + 1}$ ：
$v_{k + 1} (s) = max_{a} q_{k} (a, s)$

策略迭代算法（policy iteration algorithm）

给定随机初始策略 $π_{0}$ ：

策略评估（policy evaluation，PE）

v_{π_{k}} = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}

求解

在贝尔曼公式中介绍了其求解：

直接求解：

v_{π} = {(I - γ P_{π})}^{- 1} r_{π}

采用迭代法：

v_{k + 1} = r_{π} + γ P_{π} v_{k}

有：

v_{k} \to v_{π} = {(I - γ P_{π})}^{- 1} r_{π}, k \to \infty

策略改进（policy improvement，PI）

π_{k + 1} = {argmax}_{π} (r_{π} + γ P_{π} v_{π_{k}})

算法的元素形式如下：

策略评估
$v_{π_{k}}^{(j + 1)} = \sum_{a} π_{k} (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π_{k}}^{(j)} (s^{'})], \forall s \in S$
策略改进
$π_{k + 1} (s) = \underset{π}{argmax} \sum_{a} π (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π_{k}} (s^{'})], \forall s \in S$
对应的最优策略为：
$π_{k + 1} (a ∣ s) = {\begin{cases} 1 & a = a_{k}^{*} (s) \\ 0 & a \neq a_{k}^{*} (s) \end{cases}$ $a_{k}^{*} (s) = {argmax}_{a} q_{π_{k}}^{*} (s, a)$

值迭代与策略迭代的区别：

过程比较：

步骤	值迭代算法	策略迭代算法	说明
Policy	$π_{0}$	-	策略迭代给出初始策略
Value	$v_{π_{0}} = r_{π_{0}} + γ P_{π_{0}} v_{π_{0}}$	$v_{0} = v_{π_{0}}$	值迭代给出初始值 $v_{0}$ ，策略迭代的 $v_{π_{0}}$ 需要求解
Policy	$π_{1} = {argmax}_{π} (r_{π} + γ P_{π} v_{π_{0}})$	$π_{1} = {argmax}_{π} (r_{π} + γ P_{π} v_{0})$	相同
Value	$v_{π_{1}} = r_{π_{1}} + γ P_{π_{1}} v_{π_{1}}$	$v_{π_{1}} = r_{π_{1}} + γ P_{π_{1}} v_{0}$	策略迭代每一步得到 $v$ 是真实的
Policy	$π_{2} = {argmax}_{π} (r_{π} + γ P_{π} v_{π_{1}})$	$π_{2} = {argmax}_{π} (r_{π} + γ P_{π} v_{1})$
$\dots$	$\dots$	$\dots$	$\dots$

截断策略迭代算法

在计算 $v_{π_{k}}$ 时，值迭代算法只用计算一次就可以得到结果，而策略迭代算法需要计算无穷次，在实际中并不存在，那么自然能想到只计算 $j$ 次，使用 $v_{π_{k}}^{(j)}$ 作为值代入下一步的策略计算，从第 $j$ 步到第 $\infty$ 步都被截断了，由此得到截断策略迭代算法。

截断策略迭代算法是值迭代算法与策略迭代算法的一般形式，当 $j = 1$ 时为值迭代算法，当 $j = \infty$ 时为策略迭代算法。

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

截断策略迭代算法

Truncated policy iteration algorithm

值迭代算法（value iteration algorithm）

策略迭代算法（policy iteration algorithm）

值迭代与策略迭代的区别：

截断策略迭代算法

截断策略迭代算法 ​

Truncated policy iteration algorithm ​

值迭代算法（value iteration algorithm） ​

策略迭代算法（policy iteration algorithm） ​

值迭代与策略迭代的区别： ​

截断策略迭代算法 ​

截断策略迭代算法

Truncated policy iteration algorithm

值迭代算法（value iteration algorithm）

策略迭代算法（policy iteration algorithm）

值迭代与策略迭代的区别：

截断策略迭代算法