RNN 循环神经网络

Recurrent Neural Network

是一种用于处理序列数据的神经网络架构。与传统神经网络不同，RNN 具有记忆功能，能够捕捉序列中的时间依赖关系。

RNN 的核心在于循环结构，这里以最简单的 Elman RNN 为例说明。对于一个序列输入 ${x_{1}, x_{2}, . . ., x_{T}}$ ，在每个时间步 $t$ ，RNN 会学习到一个隐藏状态 $h_{t}$ 。

h_{t} = f (W_{h} h_{t - 1} + U x_{t} + b)

其中：

$h_{t}$ 是当前时刻的隐藏状态
$h_{t - 1}$ 是前一时刻的隐藏状态，由 $x_{t}$ 和 $h_{t - 1}$ 共同决定
$x_{t}$ 是当前时刻的输入
$W_{h}$ 和 $U$ 是权重矩阵
$b$ 是偏置项
$f$ 是激活函数（通常为 tanh）

结构

RNN

$o_{t}$ 是时刻的输出，例如我们希望预测一个句子的下一个单词，则输出希望是我们字典中所有词的概率组成的向量 $o_{t} = s o f t m a x (V_{h_{t}})$

TIP

传统的神经网络在每一层采用不同的参数，而 RNN 在所有步中采用共同的参数 $(U, V, W)$ ，这表示我们在每一步执行相同的任务，仅仅是输入不同而已。这样会缩减需要学习的参数数量

RNN 的优缺点

优点

处理序列数据：RNN 能够处理任意长度的序列数据
记忆能力：RNN 能够记住之前的信息，从而捕捉时间依赖关系

缺点

梯度消失/爆炸问题：RNN 在训练过程中容易出现梯度消失或爆炸的问题，导致难以训练长序列
计算效率低：RNN 的计算是逐步进行的，无法并行化处理

前向传播

隐藏状态：（ $f$ 通常为 tanh）
$h_{t} = f (W_{h} h_{t - 1} + U x_{t} + b)$
输出：
$o_{t} = V h_{t} + c$
预测输出：（ $σ$ 通常为 softmax）
${\hat{y}}_{t} = σ (o_{t})$

反向传播

推导

对任意 $t$ 时刻：

\begin{matrix} \frac{\partial L_{t}}{\partial U} = \frac{\partial L_{t}}{\partial o_{t}} \cdot \frac{\partial o_{t}}{\partial h_{t}} \cdot \frac{\partial h_{t}}{\partial U} \\ = \frac{\partial L_{t}}{\partial o_{t}} \cdot \frac{\partial o_{t}}{\partial h_{t}} \cdot \frac{\partial h_{t}}{\partial h_{t - 1}} \cdot \frac{\partial h_{t - 1}}{\partial U} \\ = \dots \\ = \sum_{k = 1}^{t} \frac{\partial L_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial h_{t}} (\prod_{j = k - 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}}) \frac{\partial h_{k}}{\partial U} \end{matrix}

假设损失函数为交叉熵损失:

\frac{\partial L_{t}}{\partial o_{t}} = {\hat{y}}_{t} - y_{t}

交叉熵损失

L_{t} = - \sum_{i} y_{t, i} \log {\hat{y}}_{t, i}

{\hat{y}}_{t, i} = \frac{e^{o_{t, i}}}{\sum_{j} e^{o_{t, i}}}

\frac{\partial {\hat{y}}_{t, i}}{\partial o_{t, k}} = {\hat{y}}_{t, i} (δ_{i k} - {\hat{y}}_{t, k})

其中， $δ_{i k}$ 为 kronecker delta 函数

δ_{i j} = {\begin{cases} 1 & 如果 i = j \\ 0 & 如果 i \neq j \end{cases}

有：

\begin{matrix} \frac{\partial L_{t}}{\partial o_{t, k}} = - \sum_{i} y_{t, i} \frac{\partial \log {\hat{y}}_{t, i}}{\partial o_{t, k}} \\ = - \sum_{i} y_{t, i} \frac{1}{{\hat{y}}_{t, i}} \cdot {\hat{y}}_{t, i} (δ_{i k} - {\hat{y}}_{t, k}) \\ = - \sum_{i} y_{t, i} (δ_{i k} - {\hat{y}}_{t, k}) \end{matrix}

由于 $\sum_{i} y_{t, i} = 1$ ：

\frac{\partial L_{t}}{\partial o_{t, k}} = - (y_{t, k} - {\hat{y}}_{t, k} \sum_{i} y_{t, i}) = y_{t, k} - y_{t, k}

所以：

\frac{\partial L_{t}}{\partial o_{t}} = {\hat{y}}_{t} - y_{t}

设： $a_{k} = W_{h} h_{k - 1} + U x_{k} + b$

\frac{\partial L_{t}}{\partial a_{t}} = \frac{\partial L_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial a_{t}} = \frac{\partial L_{t}}{\partial h_{t}} ⊙ f^{'} (a_{t})

例子

若 $h (t) = \tanh (a_{t})$

假设：

\frac{\partial L_{t}}{\partial h_{t}} = [\begin{matrix} δ_{1} \\ δ_{2} \end{matrix}]

a_{t} = [\begin{matrix} a_{1} \\ a_{2} \end{matrix}]

则：

\frac{\partial L_{t}}{\partial a_{t}} = [\begin{matrix} δ_{1} (1 - \tanh^{2} (a_{1})) \\ δ_{2} (1 - \tanh^{2} (a_{2})) \end{matrix}]

\frac{\partial a_{t}}{\partial U} = {x_{t}}^{⊤}

定义序列索引 $t$ 位置的隐藏状态的梯度为：

δ_{t} = \frac{\partial L_{t}}{\partial h_{t}}

定义最后的序列索引位置为 $τ$ ：

δ_{τ} = \frac{\partial L}{\partial h_{τ}} = V^{⊤} (\frac{\partial L_{t}}{\partial o_{t}}) = V^{⊤} ({\hat{y}}_{τ} - y_{τ})

时间 $t$ 对 $U$ 的梯度贡献为：

{\frac{\partial L}{\partial U} |}_{t} = δ_{t} ⊙ f^{'} (a_{t}) \cdot x_{t}^{⊤}

$U$ 的总梯度为：

\frac{\partial L}{\partial U} = \sum_{t = 1}^{τ} δ_{t} ⊙ f^{'} (a_{t}) \cdot x_{t}^{⊤}

同样的， $W$ 的总梯度为：

\frac{\partial L}{\partial W} = \sum_{t = 1}^{τ} δ_{t} ⊙ f^{'} (a_{t}) \cdot h_{t - 1}^{⊤}

$V$ 的总梯度为：

\frac{\partial L}{\partial V} = \sum_{t = 1}^{τ} ({\hat{y}}_{t} - y_{t}) h_{t}^{⊤}

$b$ 的总梯度为：

\frac{\partial L}{\partial b} = \sum_{t = 1}^{τ} δ_{t} ⊙ f^{'} (a_{t})

例子

若 $h (t) = \tanh (a_{t})$

\frac{\partial h_{t}}{\partial a_{t}} = d i a g (1 - h_{t}^{2})

\frac{\partial L_{t}}{\partial a_{t}} = δ_{t} \cdot d i a g (1 - h_{t}^{2})

\frac{\partial L}{\partial U} = \sum_{t = 1}^{τ} δ_{t} \cdot d i a g (1 - h_{t}^{2}) \cdot x_{t}^{⊤}

(\frac{\partial L}{\partial U} = \sum_{t = 1}^{τ} δ_{t} ⊙ (1 - h_{t}^{2}) \cdot x_{t}^{⊤})

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

RNN 循环神经网络

Recurrent Neural Network

结构

RNN 的优缺点

优点

缺点

前向传播

反向传播

推导

RNN 循环神经网络 ​

Recurrent Neural Network ​

结构 ​

RNN 的优缺点 ​

优点 ​

缺点 ​

前向传播 ​

反向传播 ​

推导 ​

RNN 循环神经网络

Recurrent Neural Network

结构

RNN 的优缺点

优点

缺点

前向传播

反向传播

推导