贝尔曼公式

Bellman Equation

状态价值函数

考虑到单步策略：

S_{t} \overset{A_{t}}{\to} S_{t + 1}, R_{t + 1}

其中： $S_{t}, S_{t + 1} \in S$ ， $A_{t} \in A (S_{t})$ ， $R_{t + 1} \in R (S_{t}, A_{t})$ ，均为随机变量

从 $t$ 时刻开始，我们可以得到一个状态-动作-回报轨迹：

S_{t} \overset{A_{t}}{\to} S_{t + 1}, R_{t + 1} \overset{A_{t + 1}}{\to} S_{t + 2}, R_{t + 2} \overset{A_{t + 2}}{\to} S_{t + 3}, R_{t + 3} \dots

沿轨迹的折扣回报为：

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots

显然 $G_{t}$ 也是一个随机变量。

定义状态价值函数（state-value function）：

v_{π} (s) = E [G_{t} ∣ S_{t} = s]

该函数能告诉我们当前的局势好不好。

举例：

state-value

v_{π_{1}} (s_{1}) = 0 + γ 1 + γ^{2} 1 + \dots = \frac{γ}{1 - γ}

v_{π_{2}} (s_{1}) = - 1 + γ 1 + γ^{2} 1 + \dots = - 1 + \frac{γ}{1 - γ}

v_{π_{3}} (s_{1}) = 0.5 (- 1 + \frac{γ}{1 - γ}) + 0.5 (\frac{γ}{1 - γ}) = - 0.5 (\frac{γ}{1 - γ})

推导

$G_{t}$ 可以写为：

\begin{aligned} G_{t} = & R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots \\ = & R_{t + 1} + γ G_{t + 1} \end{aligned}

则：

\begin{aligned} v_{π} (s) = & E [G_{t} ∣ S_{t} = s] \\ = & E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s] \end{aligned}

有：

\begin{aligned} E [R_{t + 1} ∣ S_{t} = s] = & \sum_{a} π (a ∣ s) E [R_{t + 1} ∣ S_{t} = s, A_{t} = a] \\ = & \sum_{a} π (a ∣ s) \sum_{r} p (r ∣ s, a) r \end{aligned}

\begin{aligned} E [G_{t + 1} ∣ S_{t} = s] = & \sum_{s^{'}} E [G_{t + 1} ∣ S_{t} = s, S_{t + 1} = s^{'}] p (s^{'} ∣ s) \\ = & \sum_{s^{'}} E [G_{t + 1} ∣ S_{t + 1} = s^{'}] p (s^{'} ∣ s) \\ = & \sum_{s^{'}} v_{π} (s^{'}) p (s^{'} ∣ s) \\ = & \sum_{s^{'}} v_{π} (s^{'}) \sum_{a} p (s^{'} ∣ s, a) π (a ∣ s) \\ = & \sum_{a} π (a ∣ s) \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'}) \end{aligned}

得到贝尔曼公式：

\begin{aligned} v_{π} (s) & = E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s] \\ = \underset{mean of immediate rewards}{\underset{⏟}{\sum_{a} π (a ∣ s) \sum_{r} p (r ∣ s, a) r}} + \underset{mean of future rewards}{\underset{⏟}{γ \sum_{a} π (a ∣ s) \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'})}} \\ = \sum_{a} π (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'})], \forall s \in S \end{aligned}

TIP

同样以上面的图片为例，对于策略 $π_{1}$ ：

\begin{array}{r} v_{π} (s_{1}) = 0 + γ v_{π} (s_{3}) \\ v_{π} (s_{2}) = 1 + γ v_{π} (s_{4}) \\ v_{π} (s_{3}) = 1 + γ v_{π} (s_{4}) \\ v_{π} (s_{4}) = 1 + γ v_{π} (s_{4}) \end{array}

得到：

v_{π} (s_{4}) = v_{π} (s_{3}) = v_{π} (s_{2}) = \frac{1}{1 - γ}

v_{π} (s_{1}) = \frac{γ}{1 - γ}

同样以上面的图片为例，对于策略 $π_{3}$ ：

\begin{aligned} v_{π} (s_{1}) = 0.5 [0 + γ v_{π} (s_{3})] + 0.5 [- 1 + γ v_{π} (s_{2})] \\ v_{π} (s_{2}) = 1 + γ v_{π} (s_{4}) \\ v_{π} (s_{3}) = 1 + γ v_{π} (s_{4}) \\ v_{π} (s_{4}) = 1 + γ v_{π} (s_{4}) \end{aligned}

得到：

v_{π} (s_{4}) = v_{π} (s_{3}) = v_{π} (s_{2}) = \frac{1}{1 - γ}

v_{π} (s_{1}) = - 0.5 + \frac{γ}{1 - γ}

贝尔曼公式

定义：

r_{π} (s) ≜ \sum_{a} π (a ∣ s) \sum_{r} p (r ∣ s, a) r

p_{π} (s^{'} ∣ s) ≜ \sum_{a} π (a ∣ s) p (s^{'} ∣ s, a)

有：

v_{π} (s) = r_{π} (s) + γ \sum_{s^{'}} p_{π} (s^{'} ∣ s) v_{π} (s^{'})

对于状态 $s_{i}$ :

v_{π} (s_{i}) = r_{π} (s_{i}) + γ \sum_{s_{j}} p_{π} (s_{j} ∣ s_{i}) v_{π} (s_{j})

写成矩阵形式：

v_{π} = r_{π} + γ P_{π} v_{π}

其中：

$v_{π} = [v_{π} (s_{1}), \dots, v_{π} (s_{n})]^{⊤} \in R^{n}$
$r_{π} = [r_{π} (s_{1}), \dots, r_{π} (s_{n})]^{⊤} \in R^{n}$
$P_{π} \in R^{n \times n}$ ， $[P_{π}]_{i j} = p_{π} (s_{j} ∣ s_{i})$

例子

\underset{v_{π}}{\underset{⏟}{[\begin{array}{l} v_{π} (s_{1}) \\ v_{π} (s_{2}) \\ v_{π} (s_{3}) \\ v_{π} (s_{4}) \end{array}]}} = \underset{r_{π}}{\underset{⏟}{[\begin{array}{l} r_{π} (s_{1}) \\ r_{π} (s_{2}) \\ r_{π} (s_{3}) \\ r_{π} (s_{4}) \end{array}]}} + γ \underset{P_{π}}{\underset{⏟}{[\begin{array}{llll} p_{π} (s_{1} ∣ s_{1}) & p_{π} (s_{2} ∣ s_{1}) & p_{π} (s_{3} ∣ s_{1}) & p_{π} (s_{4} ∣ s_{1}) \\ p_{π} (s_{1} ∣ s_{2}) & p_{π} (s_{2} ∣ s_{2}) & p_{π} (s_{3} ∣ s_{2}) & p_{π} (s_{4} ∣ s_{2}) \\ p_{π} (s_{1} ∣ s_{3}) & p_{π} (s_{2} ∣ s_{3}) & p_{π} (s_{3} ∣ s_{3}) & p_{π} (s_{4} ∣ s_{3}) \\ p_{π} (s_{1} ∣ s_{4}) & p_{π} (s_{2} ∣ s_{4}) & p_{π} (s_{3} ∣ s_{4}) & p_{π} (s_{4} ∣ s_{4}) \end{array}]}} \underset{v_{π}}{\underset{⏟}{[\begin{array}{l} v_{π} (s_{1}) \\ v_{π} (s_{2}) \\ v_{π} (s_{3}) \\ v_{π} (s_{4}) \end{array}]}}

以上面的图片为例，对于策略 $π_{1}$ ：

[\begin{array}{l} v_{π} (s_{1}) \\ v_{π} (s_{2}) \\ v_{π} (s_{3}) \\ v_{π} (s_{4}) \end{array}] = [\begin{array}{l} 0 \\ 1 \\ 1 \\ 1 \end{array}] + γ [\begin{array}{llll} 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \end{array}] [\begin{array}{l} v_{π} (s_{1}) \\ v_{π} (s_{2}) \\ v_{π} (s_{3}) \\ v_{π} (s_{4}) \end{array}]

求解

直接求解：

v_{π} = {(I - γ P_{π})}^{- 1} r_{π}

采用迭代法：

v_{k + 1} = r_{π} + γ P_{π} v_{k}

有：

v_{k} \to v_{π} = {(I - γ P_{π})}^{- 1} r_{π}, k \to \infty

动作价值函数

定义动作价值函数（action-value function）：

q_{π} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a]

有：

v_{π} (s) = \sum_{a} π (a ∣ s) q_{π} (s, a)

对应贝尔曼公式：

v_{π} (s) = \sum_{a} π (a ∣ s) \underset{q_{π} (s, a)}{\underset{⏟}{[\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'})]}}

即：

q_{π} (s, a) = \sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'})

例子

以上面的图片为例，对于策略 $π_{2}$ ：

容易得出：

q_{π} (s_{1}, a_{2}) = - 1 + γ v_{π} (s_{2})

那么：

q_{π} (s_{1}, a_{1}), q_{π} (s_{1}, a_{3}), q_{π} (s_{1}, a_{4}), q_{π} (s_{1}, a_{5}) = ?

有：

\begin{array}{r} q_{π} (s_{1}, a_{1}) = - 1 + γ v_{π} (s_{1}) \\ q_{π} (s_{1}, a_{3}) = 0 + γ v_{π} (s_{3}) \\ q_{π} (s_{1}, a_{4}) = - 1 + γ v_{π} (s_{1}) \\ q_{π} (s_{1}, a_{5}) = 0 + γ v_{π} (s_{1}) \end{array}

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

贝尔曼公式

Bellman Equation

状态价值函数

推导

贝尔曼公式

求解

动作价值函数

贝尔曼公式 ​

Bellman Equation ​

状态价值函数 ​

推导 ​

贝尔曼公式 ​

求解 ​

动作价值函数 ​

贝尔曼公式

Bellman Equation

状态价值函数

推导

贝尔曼公式

求解

动作价值函数