CNN 卷积神经网络

Convolutional Neural Network [1989]

CNN 的结构可以分为 5 层：

输入层 Input Layer
卷积层 Convolutional Layer 提取图像的底层特征
池化层 Pooling Layer 防止过拟合，将数据维度减少
全连接层 Fully Connected Layer
输出层 Output Layer

输入层

卷积层

卷积运算公式：

Z (i, j) = \sum_{m} \sum_{n} X (i + m, j + n) \cdot W (m, n)

符号说明

输入矩阵： $X \in R^{H \times W}$ 表示二维输入特征图（如图像矩阵）

卷积核： $W \in R^{k_{h} \times k_{w}}$ 表示二维滤波器（filter），通常满足 $k_{h} ≪ H$ 且 $k_{w} ≪ W$

输出矩阵： $Z (i, j)$ 表示输出特征图在位置 $(i, j)$ 处的激活值

索引范围： $m \in {0, 1, . . ., k_{h - 1}}$ , $n \in {0, 1, . . ., k_{w - 1}}$

对于输入尺寸为 $H_{i n} \times W_{i n}$ 的特征图，当使用卷积核尺寸为 $k \times k$ 且步长为 $s t r i d e$ 时，输出尺寸为：

H_{o u t} = ⌊ \frac{H_{i n} - k}{s t r i d e} ⌋ + 1

W_{o u t} = ⌊ \frac{W_{i n} - k}{s t r i d e} ⌋ + 1

示例

输入矩阵：

X = [\begin{matrix} 0 & 1 & 1 & 2 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 0 & 1 \\ 0 & 2 & 0 & 1 \end{matrix}]

TIP

每次计算的时候，边缘只被计算一次，而中间被多次计算，那么得到的特征图也会丢失边缘特征，最终会导致特征提取不准确，那为了解决这个问题，我们可以在原始的输入图像的二维矩阵周围再拓展一圈或者几圈，在这里我们扩展一圈。

这种通过拓展解决特征丢失的方法又被称为 Padding

卷积核为：

W = [\begin{matrix} - 1 & - 1 & 0 \\ - 1 & 0 & 1 \\ - 1 & - 1 & 0 \end{matrix}]

以左上角第一个有效位置为例：

\begin{aligned} Z (0, 0) & = (0 \times - 1) + (0 \times - 1) + (0 \times 0) \\ + (0 \times - 1) + (0 \times 0) + (1 \times 1) \\ + (0 \times - 1) + (0 \times - 1) + (1 \times 0) \\ = 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0 + 0 = 1 \end{aligned}

kernel_1

全部计算过程如下（步长 = 1）：

alt text

池化层

图：池化层

全连接层

前向传播

定义：

符号	全称	意义	示例
$K$	Kernel Size	卷积核/池化窗口的边长	3×3 卷积核时 $K = 3$
$C$	Channels	输入数据的通道数	RGB 图像 $C = 3$
$D$	Depth	卷积层输出通道数（滤波器数量）	64 个滤波器时 $D = 64$
$H$	Height	输入特征图的高度	输入图像高度为 256 时 $H = 256$
$W$	Width	输入特征图的宽度	输入图像宽度为 256 时 $W = 256$
$S$	Stride	卷积操作的步长	通常设为 1

卷积层

输入特征图 $X \in R^{H \times W \times C}$ ，卷积核 $W \in R^{K \times K \times C \times D}$ ，偏置 $b \in R^{D}$ ，则输出 $Z \in R^{H^{'} \times W^{'} \times D}$ ：

Z_{i, j, d} = \sum_{c = 1}^{C} \sum_{u = 1}^{K} \sum_{v = 1}^{K} X_{i + u - 1, j + v - 1, c} W_{u, v, c, d} + b_{d}

激活输出：

A = σ (Z)

其中 $σ$ 为激活函数，一般为 ReLU

池化层 (Max Pooling)

A_{i, j, c} = max_{u, v \in [0, K)} X_{i + u - 1, j + v - 1, c}

全连接层

与普通神经网络相同：

a_{l} = σ (z) = σ (W a_{l - 1} + b)

反向传播

全连接层

\frac{\partial L}{\partial z} = \frac{\partial L}{\partial a} ⊙ f^{'} (z)

\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} a^{T}, \frac{\partial L}{\partial b} = \sum \frac{\partial L}{\partial z}

池化层 (Max Pooling)

\frac{\partial L}{\partial X_{i, j, c}} = {\begin{cases} \frac{\partial L}{\partial A_{k, l, c}} & 最大值位置 \\ 0 & 其他位置 \end{cases}

卷积层

权重梯度：

\frac{\partial L}{\partial W_{u, v, c, d}} = \sum_{i = 1}^{H^{'}} \sum_{j = 1}^{W^{'}} X_{i + u - 1, j + v - 1, c} \cdot \frac{\partial L}{\partial Z_{i, j, d}}

偏置梯度：

\frac{\partial L}{\partial b_{d}} = \sum_{i = 1}^{H^{'}} \sum_{j = 1}^{W^{'}} \frac{\partial L}{\partial Z_{i, j, d}}

输入梯度：

\frac{\partial L}{\partial X_{i, j, c}} = \sum_{d = 1}^{D} \sum_{u = 1}^{K} \sum_{v = 1}^{K} W_{u, v, c, d} \cdot \frac{\partial L}{\partial Z_{i - u + 1, j - v + 1, d}}

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

CNN 卷积神经网络

Convolutional Neural Network [1989]

输入层

卷积层

池化层

全连接层

前向传播

卷积层

池化层 (Max Pooling)

全连接层

反向传播

全连接层

池化层 (Max Pooling)

卷积层

CNN 卷积神经网络 ​

Convolutional Neural Network [1989] ​

输入层 ​

卷积层 ​

池化层 ​

全连接层 ​

前向传播 ​

卷积层 ​

池化层 (Max Pooling) ​

全连接层 ​

反向传播 ​

全连接层 ​

池化层 (Max Pooling) ​

卷积层 ​

CNN 卷积神经网络

Convolutional Neural Network [1989]

输入层

卷积层

池化层

全连接层

前向传播

卷积层

池化层 (Max Pooling)

全连接层

反向传播

全连接层

池化层 (Max Pooling)

卷积层