AlexNet
[2012]
由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 于 2012 年提出,并在 ImageNet 大规模视觉识别挑战赛(ILSVRC-2012)中以显著优势夺冠,错误率(15.3%)远低于第二名(26.2%)。这一突破标志着深度学习在计算机视觉领域的崛起。
特点
- 首次在 CNN 中使用 ReLU 替代 Sigmoid,解决梯度消失问题,训练速度提升约 6 倍。
- 在 ReLU 后引入局部响应归一化(LRN)
- 使用 Dropout 随机忽略一部分神经元,以避免模型过拟合
- 使用双 GPU 训练
- 全部使用最大池化层,避免了平均池化层的模糊化的效果
- 重叠池化
结构
层名称 | 类型 | 配置 | 输出尺寸 | 参数量 |
---|---|---|---|---|
input | 输入层 | 227×227×3 | 227×227×3 | 0 |
conv1 | 卷积层 | 11×11×96, stride=4 | 55×55×96 | 34,944 |
ReLU | - | - | - | - |
LRN | - | - | - | - |
pool1 | 最大池化 | 3×3, stride=2 | 27×27×96 | 0 |
conv2 | 卷积层 | 5×5×256, padding=2 | 27×27×256 | 614,656 |
ReLU | - | - | - | - |
LRN | - | - | - | - |
pool2 | 最大池化 | 3×3, stride=2 | 13×13×256 | 0 |
conv3 | 卷积层 | 3×3×384, padding=1 | 13×13×384 | 885,120 |
ReLU | - | - | - | - |
conv4 | 卷积层 | 3×3×384, padding=1 | 13×13×384 | 1,327,488 |
ReLU | - | - | - | - |
conv5 | 卷积层 | 3×3×256, padding=1 | 13×13×256 | 884,992 |
ReLU | - | - | - | - |
pool5 | 最大池化 | 3×3, stride=2 | 6×6×256 | 0 |
fc6 | 全连接层 | 4096 neurons | 4096 | 37,752,832 |
ReLU | - | - | - | - |
Dropout | - | - | - | - |
fc7 | 全连接层 | 4096 neurons | 4096 | 16,781,312 |
ReLU | - | - | - | - |
Dropout | - | - | - | - |
fc8 | 全连接层 | 1000 neurons (ImageNet classes) | 1000 | 4,097,000 |
softmax | 分类层 | - | 1000 | - |
总参数量:60,964,224(232Mb)
局部响应归一化
Local Response Normalization
动机来自生物学上的一个概念:侧抑制(Lateral inhibitio),指的是被激活的神经元抑制相邻神经元。
参数 | 典型值 | 作用 |
---|---|---|
5 | 归一化窗口的深度半径,控制相邻通道数量 | |
0.0001 | 缩放因子,决定归一化强度 | |
0.75 | 指数参数,控制归一化曲线的陡峭度 | |
2 | 偏移量,防止分母为零 |