贝尔曼最优公式
Bellman Optimality Equation
动机
对于策略
当该策略不够好时,如何优化它?
答案:利用动作价值(action-value)
目前的策略可以表示为:
我们发现,
即:
最优策略
定义策略
那么最优策略可以定义为:
贝尔曼最优公式
贝尔曼最优公式定义如下:
或者:
或者:
其中有两个未知量:
求解
step 1
TIP
考虑到两个变量
显然等式右边
进一步的,此时等式变为:
即:
考虑贝尔曼最优公式右侧:
如果给定一个初始值
TIP
假设已知
的解
假设
解为:
考虑到:
当
时达到最优。
step 2
对于贝尔曼最优公式:
由于上一步中
贝尔曼最优公式可以变为:
当:
由于对于
即
step 3
假设:
有:
此时
即:
步骤总结
初始化:
设定初始值
(如全 0 或随机值),设定收敛阈值 迭代:
对于每次迭代:
收敛判断:
当
时停止,获得 获得最优策略:
全局最优
Q:为什么是全局最优?
A:
压缩映射
根据
压缩映射定理
,贝尔曼最优方程存在唯一解(不动点),当折扣因子 时,值迭代过程必然收敛到 。 递推结构
每个状态的最优值
的计算不仅考虑当前动作的即时奖励 ,还通过转移概率 显示关联了后续状态的最优值 。 值迭代过程中,最优值信息从终止状态(或高奖励状态)逆向传播到所有可能的前驱状态,最终覆盖整个状态空间。
Q:为什么要研究这个公式?
A:贝尔曼最优公式的解对应了最优状态值
和最优策略