深入解析 ResNet：实现与原理-编程知识

深入解析 ResNet：实现与原理

news/2024/11/20 16:40:55/文章来源:https://www.cnblogs.com/crazypigf/p/18558694

ResNet（Residual Network，残差网络）是深度学习领域中的重要突破之一，由 Kaiming He 等人在 2015 年提出。其核心思想是通过引入残差连接（skip connections）来缓解深层网络中的梯度消失问题，使得网络可以更高效地训练，同时显著提升了深度网络的性能。

本文以一个 ResNet 的简单实现为例，详细解析其工作原理、代码结构和设计思想，并介绍 ResNet 的发展背景和改进版本。

背景与动机

随着网络深度的增加，传统深层神经网络面临以下问题：

梯度消失与梯度爆炸： 在网络传播过程中，梯度逐层衰减或爆炸，使得深层网络难以有效训练。
退化问题： 增加网络深度并不一定带来更高的准确率，反而可能导致训练误差增大。

为了应对这些挑战，ResNet 提出了残差学习框架，通过学习输入与输出之间的残差来简化优化过程。

残差块 (Residual Block)

设计思想

在 ResNet 中，一个基本的单元是残差块。假设希望拟合一个目标映射H(x)，ResNet 将其重新表述为：

\[H(x) = F(x) + x \]

其中：

F(x) 是要学习的残差函数。
x 是输入，直接通过快捷连接（shortcut connection）传递到输出。

这种设计可以让网络更容易优化，因为相比直接学习 H(x)，学习 F(x)通常更容易。

代码实现

以下是一个标准的残差块实现：

class ResBlock(nn.Module):def __init__(self, in_channels, out_channels, stride=1):super().__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1)self.bn1 = nn.BatchNorm2d(out_channels)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)self.bn2 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.downsample = None# 当输入和输出维度不匹配时，添加一个卷积层以调整维度if in_channels != out_channels or stride != 1:self.downsample = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride)self.downsample_bn = nn.BatchNorm2d(out_channels)def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)if self.downsample is not None:residual = self.downsample(x)residual = self.downsample_bn(residual)out += residualout = self.relu(out)return out

核心部分解析：

卷积操作：
- 使用两个3 \(\times\) 3的卷积核，提取特征。
- 通过批归一化 (BatchNorm) 稳定训练。
残差连接：
- 当输入和输出通道数一致时，直接加和。
- 若通道数或尺寸不同，则通过1 \(\times\) 1卷积调整形状。
激活函数：
- 使用 ReLU 函数，增加非线性。

ResNet 网络结构

ResNet 由多个残差块堆叠而成，不同版本的 ResNet 使用的块数和通道数不同。以下是一个简化的 ResNet 实现：

class ResNet(nn.Module):def __init__(self, num_classes=10):super().__init__()# 输入图像尺寸为 28 x 28self.block1 = ResBlock(3, 64)# 输出 28 x 28self.block2 = ResBlock(64, 128, stride=2)# 输出 14 x 14self.block3 = ResBlock(128, 256, stride=2)# 输出 7 x 7self.block4 = ResBlock(256, 512, stride=2)# 输出 4 x 4self.block5 = ResBlock(512, 1024, stride=2)# 输出 2 x 2self.block6 = ResBlock(1024, 2048, stride=2)# 输出 1 x 1self.fc = nn.Linear(2048, num_classes)def forward(self, x):x = self.block1(x)x = self.block2(x)x = self.block3(x)x = self.block4(x)x = self.block5(x)x = self.block6(x)x = x.view(x.size(0), -1)x = self.fc(x)return x