Transformer

RNN 的主要问题：

梯度消失/爆炸：长距离依赖难以学习
顺序计算：无法并行处理序列
信息瓶颈：最后时刻隐藏状态需承载全部信息

Transformer 的改进：

并行计算：同时处理整个序列
自注意力机制：直接建立任意位置间的联系
位置编码：显式注入位置信息

结构

Transformer

图：Transformer 单元

Transformer

图：Transformer 的详细结构

输入
- 编码器输入
- 解码器输入
输出
- 线性层
- Softmax 层
编码器
- 由 N 个编码器层堆叠而成
- 每个编码器层由两个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
解码器
- 由 N 个解码器层堆叠而成
- 每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个带掩码的-多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层（编码器到解码器）和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

核心组件

自注意力机制（Self-Attention）

定义：

符号	维度	含义
$X$	$n \times d$	输入矩阵（n=序列长度，d=特征维度）
$Q$	$n \times d_{k}$	Query 矩阵（查询向量）
$K$	$n \times d_{k}$	Key 矩阵（键向量）
$V$	$n \times d_{v}$	Value 矩阵（值向量）
$W^{Q}, W^{K}, W^{V}$	$d \times d_{k} / d_{v}$	可学习参数矩阵

Attention (Q, K, V) = Softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

推导过程

将输入转换为 Query、Key、Value：

Q = X W^{Q}, K = X W^{K}, V = X W^{V}

计算注意力分数：

Scores = \frac{Q K^{T}}{\sqrt{d_{k}}}

生成注意力权重矩阵：

A = Softmax (Scores)

得到最终注意力输出：

Output = A V

带掩码自注意力层（Masked Multi-head attention）

编码时，对于 $t$ 时刻的预测，我们知道 $x_{1}, x_{2}, \dots, x_{t}, x_{t + 1}, \dots, x_{T}$ 全部的信息。

解码时，对于 $t$ 时刻的预测，我们仅知道 $x_{1}, x_{2}, \dots, x_{t - 1}$ 的信息。看不到后续的信息，因此需要将后续的信息遮掩起来。

Attention (Q, K, V) = Softmax (\frac{Q K^{T} ⊙ M}{\sqrt{d_{k}}}) V

多头注意力（Multi-Head Attention）

Transformer

MultiHead (Q, K, V) = Concat ({head}_{1}, \dots, {head}_{h}) W^{O}

其中：

{head}_{i} = Attention (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V})

位置编码（Positional Encoding）

与 RNN 和 LSTM 等顺序算法不同，Transformer 没有内置机制来捕获句子中单词的相对位置，所以在 Transformer 的 encoder 和 decoder 的输入层中，使用了 Positional Encoding，使得最终的输入满足：

i n p u t = i n p u t_e m b e d d i n g + p o s i t i o n a l_e n c o d i n g

原始正弦编码公式：

P E_{(p o s, 2 i)} = \sin (\frac{p o s}{10000^{2 i / d}})

P E_{(p o s, 2 i + 1)} = \cos (\frac{p o s}{10000^{2 i / d}})

前馈网络（Feed Forward Network）

包括两个线性变换+ReLU 激活：

FFN (x) = ReLU (x W_{1} + b_{1}) W_{2} + b_{2}

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

Transformer

结构

核心组件

自注意力机制（Self-Attention）

推导过程

带掩码自注意力层（Masked Multi-head attention）

多头注意力（Multi-Head Attention）

位置编码（Positional Encoding）

前馈网络（Feed Forward Network）

Transformer ​

结构 ​

核心组件 ​

自注意力机制（Self-Attention） ​

推导过程 ​

带掩码自注意力层（Masked Multi-head attention） ​

多头注意力（Multi-Head Attention） ​

位置编码（Positional Encoding） ​

前馈网络（Feed Forward Network） ​

Transformer

结构

核心组件

自注意力机制（Self-Attention）

推导过程

带掩码自注意力层（Masked Multi-head attention）

多头注意力（Multi-Head Attention）

位置编码（Positional Encoding）

前馈网络（Feed Forward Network）