LSTM 长短期记忆网络

Long Short-Term Memory

RNN 想把所有的信息记住，不管是有用的信息还是无用的信息。

LSTM 通过引入记忆单元和门控机制来控制信息的流动，从而有效地捕捉长期依赖关系。LSTM 的核心思想是通过三个门（输入门、遗忘门、输出门）来决定哪些信息需要保留，哪些信息需要丢弃。

略去每层都有的 $o_{t}$ ，RNN 的结构可以简化为：

RNN

LSTM 对隐藏结构进行了改进：

LSTM

结构

LSTM

记忆细胞

LSTM

遗忘门

LSTM

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在 LSTM 中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。

f_{t} = σ (W_{f} h_{t - 1} + U_{f} x_{t} + b_{f})

其中， $σ$ 为sigmoid激活函数

输入门

LSTM

输入门（input gate）负责处理当前序列位置的输入。

i_{t} = σ (W_{i} h_{t - 1} + U_{i} x_{t} + b_{i})

{\tilde{C}}_{t} = \tanh (W_{c} h_{t - 1} + U_{c} x_{t} + b_{c})

这里： ${\tilde{C}}_{t}$ 被称为候选记忆元（candidate memory cell）

状态更新

LSTM

C_{t} = C_{t - 1} ⊙ f_{t} + i_{t} ⊙ {\tilde{C}}_{t}

其中， $⊙$ 为 Hadamard 积。

输出门

LSTM

o_{t} = σ (W_{o} h_{t - 1} + U_{o} x_{t} + b_{o})

h_{t} = o_{t} ⊙ \tanh (C_{t})

当输出门接近 0 时，只保留记忆元内的所有信息，而不需要更新隐状态。

TIP

遗忘门决定了我要抛弃哪些旧知识

输入门决定了我要记住哪些新知识

输出门决定了我要用到哪些知识

前向传播

更新遗忘门输出：
$f^{(t)} = σ (W_{f} h^{(t - 1)} + U_{f} x^{(t)} + b_{f})$
更新输入门两部分输出：
$i^{(t)} = σ (W_{i} h^{(t - 1)} + U_{i} x^{(t)} + b_{i})$ ${\tilde{C}}^{(t)} = \tanh (W_{c} h^{(t - 1)} + U_{c} x^{(t)} + b_{c})$
更新细胞状态：
$C^{(t)} = C^{(t - 1)} ⊙ f^{(t)} + i^{(t)} ⊙ {\tilde{C}}^{(t)}$
更新输出门输出：
$o^{(t)} = σ (W_{o} h^{(t - 1)} + U_{o} x^{(t)} + b_{o})$ $h^{(t)} = o^{(t)} ⊙ \tanh (C^{(t)})$
更新当前序列索引预测输出：

{\hat{y}}^{(t)} = σ (V h^{(t)} + c)

反向传播

推导

假设损失函数为交叉熵损失，定义：

δ_{h}^{(t)} = \frac{\partial L}{\partial h^{(t)}}

δ_{C}^{(t)} = \frac{\partial L}{\partial C^{(t)}}

对于最后的序列索引位置 $τ$ ：

δ_{h}^{(τ)} = \frac{\partial L^{(τ)}}{\partial h^{(τ)}} = \frac{\partial L^{(τ)}}{\partial {\hat{y}}^{(τ)}} \frac{\partial {\hat{y}}^{(τ)}}{\partial h^{(τ)}} = V^{⊤} ({\hat{y}}^{(τ)} - y^{(τ)})

δ_{C}^{(τ)} = \frac{\partial L^{(τ)}}{\partial C^{(τ)}} = δ_{h}^{(τ)} ⊙ o^{(τ)} ⊙ (1 - \tanh^{2} (C^{(τ)}))

交叉熵损失

L^{(t)} = - y^{(t)} \log {\hat{y}}^{(t)} - (1 - y^{(t)}) \log (1 - {\hat{y}}^{(t)})

\frac{\partial L^{(t)}}{\partial {\hat{y}}^{(t)}} = \frac{{\hat{y}}^{(t)} - y^{(t)}}{{\hat{y}}^{(t)} (1 - {\hat{y}}^{(t)})}

对于：

{\hat{y}}^{(t)} = σ (z^{(t)})

z^{(t)} = V h^{(t)} + c

有：

\frac{\partial {\hat{y}}^{(t)}}{\partial z^{(t)}} = {\hat{y}}^{(t)} (1 - {\hat{y}}^{(t)})

\frac{\partial z^{(t)}}{\partial h^{(t)}} = V^{⊤}

对于 $t$ 时刻 $δ_{h}^{(t)}$ 的计算 :

直接梯度
$δ_{h}^{(t, d i r e c t)} = V^{⊤} ({\hat{y}}^{(t)} - y^{(t)})$
间接梯度（来自时间步 $t + 1$ ）：
- 通过输出门： $δ_{h}^{(t, o)} = W_{o}^{⊤} [δ_{h}^{(t + 1)} ⊙ \tanh (C^{(t + 1)}) ⊙ o^{(t + 1)} ⊙ (1 - o^{(t + 1)})]$
- 通过遗忘门： $δ_{h}^{(t, f)} = W_{f}^{⊤} [δ_{C}^{(t + 1)} ⊙ C^{(t)} ⊙ f^{(t + 1)} ⊙ (1 - f^{(t + 1)})]$
- 通过输入门： $δ_{h}^{(t, i)} = W_{i}^{⊤} [δ_{C}^{(t + 1)} ⊙ {\tilde{C}}^{(t + 1)} ⊙ i^{(t + 1)} ⊙ (1 - i^{(t + 1)})]$
- 通过候选细胞状态： $δ_{h}^{(t, \tilde{C})} = W_{c}^{⊤} [δ_{C}^{(t + 1)} ⊙ i^{(t + 1)} ⊙ (1 - ({\tilde{C}}^{(t + 1)})^{2})]$

对于 $δ_{C}^{(t)}$ :

δ_{C}^{(t)} = δ_{C}^{(t + 1)} ⊙ f^{(t + 1)} + δ_{h}^{(t)} ⊙ o^{(t)} ⊙ (1 - \tanh^{2} (C^{(t)}))

下面计算：

\frac{\partial L}{\partial W_{f}} = \sum_{t = 1}^{τ} \frac{\partial L}{\partial f^{(t)}} \frac{\partial f^{(t)}}{\partial W_{f}}

有：

\frac{\partial L}{\partial f^{(t)}} = \frac{\partial L}{\partial C^{(t)}} \frac{\partial C^{(t)}}{\partial f^{(t)}} = δ_{C}^{(t)} \frac{\partial C^{(t)}}{\partial f^{(t)}} = δ_{C}^{(t)} ⊙ C^{(t - 1)}

进一步的，令：

z_{f}^{(t)} = W_{f} h^{(t - 1)} + U_{f} x^{(t)} + b_{f}

有：

\frac{\partial f^{(t)}}{\partial W_{f}} = \frac{\partial f^{(t)}}{\partial z_{f}^{(t)}} \cdot \frac{\partial z_{f}^{(t)}}{\partial W_{f}}

而：

\frac{\partial f^{(t)}}{\partial z_{f}^{(t)}} = σ (z_{f}^{(t)}) ⊙ (1 - σ (z_{f}^{(t)})) = f^{(t)} ⊙ (1 - f^{(t)})

\frac{\partial z_{f}^{(t)}}{\partial W_{f}} = h^{(t - 1)}

$f^{(t)}$ 的求导

f^{(t)} = σ (z) = \frac{1}{1 + e^{- z}}

\frac{d σ (z)}{d z} = - 1 \cdot (1 + e^{- z})^{- 2} \cdot (- e^{- z}) = σ (z) ⊙ (1 - σ (z))

可以得出时间 $t$ 对 $W_{f}$ 的梯度贡献为：

{\frac{\partial L}{\partial W_{f}} |}_{t} = [δ_{C}^{(t)} ⊙ C^{(t - 1)} ⊙ f^{(t)} ⊙ (1 - f^{(t)})] \cdot (h^{(t - 1)})^{⊤}

总梯度为：

\frac{\partial L}{\partial W_{f}} = \sum_{t = 1}^{τ} [δ_{C}^{(t)} ⊙ C^{(t - 1)} ⊙ f^{(t)} ⊙ (1 - f^{(t)})] \cdot (h^{(t - 1)})^{⊤}

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

LSTM 长短期记忆网络

Long Short-Term Memory

结构

记忆细胞

遗忘门

输入门

状态更新

输出门

前向传播

反向传播

推导

LSTM 长短期记忆网络 ​

Long Short-Term Memory ​

结构 ​

记忆细胞 ​

遗忘门 ​

输入门 ​

状态更新 ​

输出门 ​

前向传播 ​

反向传播 ​

推导 ​

LSTM 长短期记忆网络

Long Short-Term Memory

结构

记忆细胞

遗忘门

输入门

状态更新

输出门

前向传播

反向传播

推导