贝尔曼最优公式

Bellman Optimality Equation

动机

state-value

对于策略 $π_{2}$ ， $γ = 0.9$ ，有：

\begin{array}{l} q_{π} (s_{1}, a_{1}) = - 1 + γ v_{π} (s_{1}) = 6.2 \\ q_{π} (s_{1}, a_{2}) = - 1 + γ v_{π} (s_{2}) = 8 \\ q_{π} (s_{1}, a_{3}) = 0 + γ v_{π} (s_{3}) = 9 \\ q_{π} (s_{1}, a_{4}) = - 1 + γ v_{π} (s_{1}) = 6.2 \\ q_{π} (s_{1}, a_{5}) = 0 + γ v_{π} (s_{1}) = 7.2 \end{array}

当该策略不够好时，如何优化它？

答案：利用动作价值（action-value）

目前的策略可以表示为：

π (a ∣ s_{1}) = {\begin{cases} 1 & a = a_{2} \\ 0 & a \neq a_{2} \end{cases}

我们发现， $q_{π} (s_{1}, a_{3})$ 的值最大，那么新的策略在 $s_{1}$ 时会选择执行动作 $a_{3}$ 替换掉原先的 $a_{2}$

即：

π_{new} (a ∣ s_{1}) = {\begin{cases} 1 & a = a^{*} \\ 0 & a \neq a^{*} \end{cases}

a^{*} = {argmax}_{a} q_{π} (s_{1}, a) = a_{3}

最优策略

定义策略 $π_{1}$ 比策略 $π_{2}$ 更优：

v_{π_{1}} (s) \geq v_{π_{2}} (s) for all s \in S

那么最优策略可以定义为：

π^{*}, v_{π^{*}} (s) \geq v_{π} (s)

贝尔曼最优公式

贝尔曼最优公式定义如下：

v (s) = max_{π} \sum_{a} π (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v (s^{'})], \forall s \in S

或者：

v (s) = max_{π} \sum_{a} π (a ∣ s) q (s, a), \forall s \in S

或者：

v = max_{π} (r_{π} + γ P_{π} v)

其中有两个未知量： $v$ 和 $π$

求解

step 1

TIP

考虑到两个变量 $x, a \in R$ ，假设它们满足：

x = max_{a} (2 x - 1 - a^{2})

显然等式右边 $\underset{a}{m a x} (2 x - 1 - a^{2})$ 当且仅当 $a = 0$ 时取得最大，此时等式右边为 $2 x - 1$ 。

进一步的，此时等式变为： $x = 2 x - 1$ ，容易解得： $x = 1$

即： $x = 1, a = 0$ 为此方程的解。

考虑贝尔曼最优公式右侧：

max_{π} \sum_{a} π (a ∣ s) q (s, a)

如果给定一个初始值 $v_{0}$ ，则 $v (s)^{'}$ 变成已知量，即 $q (s, a)$ 已知。接下来需要确定 $π (a ∣ s)$ 。

TIP

假设已知 $q_{1}, q_{2}, q_{3} \in R$ ，求

max_{c_{1}, c_{2}, c_{3}} c_{1} q_{1} + c_{2} q_{2} + c_{3} q_{3}

的解 $c_{1}^{*}, c_{2}^{*}, c_{3}^{*}$ ，其中 $c_{1} + c_{2} + c_{3} = 1, c_{1}, c_{2}, c_{3} \geq 0$ 。

假设 $q_{3} \geq q_{1}, q_{2}$ ，显然有：

q_{3} = (c_{1} + c_{2} + c_{3} = 1) q_{3} = c_{1} q_{3} + c_{2} q_{3} + c_{3} q_{3} \geq c_{1} q_{1} + c_{2} q_{2} + c_{3} q_{3}

解为： $c_{3}^{*} = 1, c_{1}^{*} = c_{2}^{*} = 0$

考虑到： $\sum_{a} π (a ∣ s) = 1$ ，有：

max_{π} \sum_{a} π (a ∣ s) q (s, a) = max_{a \in A (s)} q (s, a)

当

π (a ∣ s) = {\begin{cases} 1 & a = a^{*} \\ 0 & a \neq a^{*} \end{cases}

a^{*} = {argmax}_{a} q (s, a)

时达到最优。

step 2

对于贝尔曼最优公式：

v = max_{π} (r_{π} + γ P_{π} v)

由于上一步中 $π$ 已经确定下来，可以令：

f (v) = max_{π} (r_{π} + γ P_{π} v)

贝尔曼最优公式可以变为：

f (v) = v

当：

[f (v)]_{s} = max_{π} \sum_{a} π (a ∣ s) q (s, a), s \in S

由于对于 $\forall v_{1}, v_{2} \in R^{| S |}$ ：

‖ f (v_{1}) - f (v_{2}) ‖ \leq γ ‖ v_{1} - v_{2} ‖

即 $f (v) = v$ 满足压缩映射，根据压缩映射定理（Contractive Mapping Theorem），一定存在且仅存在一个不动点（解） $v^{*}$ ，满足：

v_{k + 1} = f (v_{k}) = max_{π} (r_{π} + γ P_{π} v_{k})

k \to \infty, v_{k} \to v^{*}

step 3

$v^{*}$ 是贝尔曼最优公式的解，且满足：

v^{*} = max_{π} (r_{π} + γ P_{π} v^{*})

假设：

π^{*} = {argmax}_{π} (r_{π} + γ P_{π} v^{*})

有：

v^{*} = r_{π^{*}} + γ P_{π^{*}} v^{*}

此时 $π^{*}$ 为最优策略。

即：

π^{*} (a ∣ s) = {\begin{cases} 1 & a = a^{*} \\ 0 & a \neq a^{*} \end{cases}

a^{*} = {argmax}_{a} q^{*} (s, a)

q^{*} = \sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v^{*} (s^{'})

步骤总结

初始化：
设定初始值 $v_{0} (s)$ （如全 0 或随机值），设定收敛阈值 $ϵ$
迭代：
对于每次迭代：
$v_{k + 1} = max_{π} (r_{π} + γ P_{π} v_{k})$
收敛判断：
当 $‖ v_{k + 1} - v_{k} ‖ < ϵ$ 时停止，获得 $v^{*}$
获得最优策略：
$π^{*} (a ∣ s) = {\begin{cases} 1 & a = a^{*} \\ 0 & a \neq a^{*} \end{cases}$ $a^{*} = {argmax}_{a} q^{*} (s, a)$ $q^{*} = \sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v^{*} (s^{'})$

全局最优

Q：为什么是全局最优？

A：

压缩映射
根据压缩映射定理，贝尔曼最优方程存在唯一解（不动点） $v^{*}$ ，当折扣因子 $γ < 1$ 时，值迭代过程必然收敛到 $v^{*}$ 。
递推结构
每个状态的最优值 $v^{*} (s)$ 的计算不仅考虑当前动作的即时奖励 $r (s)$ ，还通过转移概率 $p (s^{'} ∣ s, a)$ 显示关联了后续状态的最优值 $v^{*} (s^{'})$ 。
值迭代过程中，最优值信息从终止状态（或高奖励状态）逆向传播到所有可能的前驱状态，最终覆盖整个状态空间。

Q：为什么要研究这个公式？

A：贝尔曼最优公式的解对应了最优状态值和最优策略

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

贝尔曼最优公式

Bellman Optimality Equation

动机

最优策略

贝尔曼最优公式

求解

step 1

step 2

step 3

步骤总结

贝尔曼最优公式 ​

Bellman Optimality Equation ​

动机 ​

最优策略 ​

贝尔曼最优公式 ​

求解 ​

step 1 ​

step 2 ​

step 3 ​

步骤总结 ​

贝尔曼最优公式

Bellman Optimality Equation

动机

最优策略

贝尔曼最优公式

求解

step 1

step 2

step 3

步骤总结