贝尔曼公式
Bellman Equation
状态价值函数
考虑到单步策略:
其中:
从
沿轨迹的折扣回报为:
显然
定义状态价值函数(state-value function):
该函数能告诉我们当前的局势好不好。
举例:
推导
则:
有:
得到贝尔曼公式:
TIP
同样以上面的图片为例,对于策略
得到:
同样以上面的图片为例,对于策略
得到:
贝尔曼公式
定义:
有:
对于状态
写成矩阵形式:
其中:
,
例子
以上面的图片为例,对于策略
求解
直接求解:
采用迭代法:
有:
动作价值函数
定义动作价值函数(action-value function):
有:
对应贝尔曼公式:
即:
例子
以上面的图片为例,对于策略
容易得出:
那么:
有: