CNN 卷积神经网络

Convolutional Neural Network

CNN 的结构可以分为 5 层：

输入层 Input Layer
卷积层 Convolutional Layer 提取图像的底层特征
池化层 Max Pooling Layer 防止过拟合，将数据维度减少
全连接层 Fully Connected Layer
输出层 Output Layer

输入层

卷积层

卷积运算公式：

S (i, j) = \sum_{m} \sum_{n} X (i + m, j + n) \cdot K (m, n)

符号说明

输入矩阵： $X \in R^{H \times W}$ 表示二维输入特征图（如图像矩阵）

卷积核： $K \in R^{k_{h} \times k_{w}}$ 表示二维滤波器（filter），通常满足 $k_{h} ≪ H$ 且 $k_{w} ≪ W$

输出矩阵： $S (i, j)$ 表示输出特征图在位置 $(i, j)$ 处的激活值

索引范围： $m \in {0, 1, . . ., k_{h - 1}}$ , $n \in {0, 1, . . ., k_{w - 1}}$

对于输入尺寸为 $H_{i n} \times W_{i n}$ 的特征图，当使用卷积核尺寸为 $k \times k$ 且步长为 $s t e p$ 时，输出尺寸为：

H_{o u t} = ⌊ \frac{H_{i n} - k}{s t e p} ⌋ + 1

W_{o u t} = ⌊ \frac{W_{i n} - k}{s t e p} ⌋ + 1

示例

输入矩阵：

X = [\begin{matrix} 0 & 1 & 1 & 2 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 0 & 1 \\ 0 & 2 & 0 & 1 \end{matrix}]

TIP

每次计算的时候，边缘只被计算一次，而中间被多次计算，那么得到的特征图也会丢失边缘特征，最终会导致特征提取不准确，那为了解决这个问题，我们可以在原始的输入图像的二维矩阵周围再拓展一圈或者几圈，在这里我们扩展一圈。

这种通过拓展解决特征丢失的方法又被称为 Padding

卷积核为：

K = [\begin{matrix} - 1 & - 1 & 0 \\ - 1 & 0 & 1 \\ - 1 & - 1 & 0 \end{matrix}]

以左上角第一个有效位置为例：

\begin{aligned} S (0, 0) & = (0 \times - 1) + (0 \times - 1) + (0 \times 0) \\ + (0 \times - 1) + (0 \times 0) + (1 \times 1) \\ + (0 \times - 1) + (0 \times - 1) + (1 \times 0) \\ = 0 + 0 + 0 + 0 + 0 + 1 + 0 + 0 + 0 = 1 \end{aligned}

kernel_1

全部计算过程如下（ $s t e p = 1$ ）：

alt text

池化层

图：池化层

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🐬 mysql

🧪 jest

CNN 卷积神经网络

Convolutional Neural Network

输入层

卷积层

池化层

全连接层

CNN 卷积神经网络 ​

Convolutional Neural Network ​

输入层 ​

卷积层 ​

池化层 ​

全连接层 ​

CNN 卷积神经网络

Convolutional Neural Network

输入层

卷积层

池化层

全连接层