截断策略迭代算法
Truncated policy iteration algorithm
值迭代算法(value iteration algorithm)
算法的矩阵形式如下:
策略更新(policy update,PU)
给定
,求解 可以得到: 价值更新(value update,VU)
代入第一个式子,有:
算法的元素形式如下:
策略更新:
对应的最优策略为:
注意:
唯一,但最优策略不一定唯一。 价值更新:
代入
:
策略迭代算法(policy iteration algorithm)
给定随机初始策略
- 策略评估(policy evaluation,PE)
- 策略改进(policy improvement,PI)
算法的元素形式如下:
策略评估
策略改进
对应的最优策略为:
值迭代与策略迭代的区别:
过程比较:
步骤 | 值迭代算法 | 策略迭代算法 | 说明 |
---|---|---|---|
Policy | - | 策略迭代给出初始策略 | |
Value | 值迭代给出初始值 | ||
Policy | 相同 | ||
Value | 策略迭代每一步得到 | ||
Policy | |||
截断策略迭代算法
在计算
截断策略迭代算法是值迭代算法与策略迭代算法的一般形式,当