【机器学习】卷积神经网络----GoogLeNet网络（pytorch）-编程知识

代码是一个使用PyTorch实现的GoogLeNet模型，该模型是一个深度卷积神经网络（CNN）用于图像分类任务。

1. 定义基本卷积模块

BasicConv2d 类是一个基本的卷积块，包含一个卷积层、批归一化层和ReLU激活函数。
该类用于构建Inception模块中的各分支。

# 导入torch库，torch是一个基于Python的科学计算框架，主要用于深度学习
import torch
# 导入torch.nn库，torch.nn是一个神经网络模块，提供了各种层和激活函数等
import torch.nn as nn
# 导入torchinfo库，torchinfo是一个用于打印模型结构和参数信息的库
from torchinfo import summary# 定义一个基本的卷积层类，继承自nn.Module
class BasicConv2d(nn.Module):# 定义初始化方法，接收输入通道数，输出通道数，以及其他可变参数def __init__(self, inplanes, out_channels, **kwargs):# 调用父类的初始化方法super(BasicConv2d, self).__init__()# 定义一个卷积模块，包含三个子层：卷积层，批归一化层，和ReLU激活层self.conv = nn.Sequential(# 定义一个卷积层，接收输入通道数，输出通道数，以及其他可变参数，不使用偏置项nn.Conv2d(inplanes, out_channels, bias=False, **kwargs),# 定义一个批归一化层，接收输出通道数nn.BatchNorm2d(out_channels),# 定义一个ReLU激活层，使用原地操作nn.ReLU(inplace=True))# 定义前向传播方法，接收输入张量xdef forward(self, x):# 将x通过卷积模块，得到输出张量x = self.conv(x)# 返回输出张量return x

2. 定义Inception层

Inception 类定义了Inception模块，包含四个分支：1x1卷积、1x1卷积后接3x3卷积、1x1卷积后接5x5卷积、最大池化后接1x1卷积。
每个分支使用 BasicConv2d 构建。
模块的输出是四个分支的拼接。

# 定义一个Inception模块类，继承自nn.Module
class Inception(nn.Module):# 定义初始化方法，接收输入通道数，以及各个分支的输出通道数def __init__(self, inplanes, ch1x1, ch3x3reduce, ch3x3, ch5x5reduce, ch5x5, pool_proj):# 调用父类的初始化方法super(Inception, self).__init__()# 定义第一个分支，使用一个1x1的卷积层self.branch1 = BasicConv2d(inplanes, ch1x1, kernel_size=1)# 定义第二个分支，使用一个1x1的卷积层，后接一个3x3的卷积层，使用1的填充self.branch2 = nn.Sequential(BasicConv2d(inplanes, ch3x3reduce, kernel_size=1),BasicConv2d(ch3x3reduce, ch3x3, kernel_size=3, padding=1))# 定义第三个分支，使用一个1x1的卷积层，后接一个5x5的卷积层，使用2的填充self.branch3 = nn.Sequential(BasicConv2d(inplanes, ch5x5reduce, kernel_size=1),BasicConv2d(ch5x5reduce, ch5x5, kernel_size=5, padding=2))# 定义第四个分支，使用一个3x3的最大池化层，后接一个1x1的卷积层，使用1的填充self.branch4 = nn.Sequential(nn.MaxPool2d(kernel_size=3, stride=1, padding=1),BasicConv2d(inplanes, pool_proj, kernel_size=1))# 定义前向传播方法，接收输入张量xdef forward(self, x):# 将x分别通过四个分支，得到四个输出张量branchh1 = self.branch1(x)branchh2 = self.branch2(x)branchh3 = self.branch3(x)branchh4 = self.branch4(x)# 将四个输出张量放入一个列表中output = [branchh1, branchh2, branchh3, branchh4]# 沿着通道维度，将列表中的张量拼接起来，得到最终的输出张量return torch.cat(output, 1)

3. 定义一个辅助分类器类

AuxClf 类定义了辅助分类器，用于提供额外的梯度信息。
包含特征提取部分和分类器部分。
特征提取部分包含平均池化和1x1卷积。
分类器部分包含两个全连接层。

# 定义一个辅助分类器类，继承自nn.Module
class AuxClf(nn.Module):# 定义初始化方法，接收输入通道数，分类数，以及其他可变参数def __init__(self, inplanes, num_classes, **kwargs):# 调用父类的初始化方法super(AuxClf, self).__init__()# 定义一个特征提取模块，包含两个子层：平均池化层，和卷积层self.feature_ = nn.Sequential(# 定义一个平均池化层，使用5x5的核，3的步长nn.AvgPool2d(kernel_size=5, stride=3),# 定义一个卷积层，使用1x1的核，输出通道数为128BasicConv2d(inplanes, 128, kernel_size=1))# 定义一个分类模块，包含四个子层：线性层，ReLU激活层，Dropout层，和线性层self.clf_ = nn.Sequential(# 定义一个线性层，输入维度为4*4*128，输出维度为1024nn.Linear(4*4*128, 1024),# 定义一个ReLU激活层，使用原地操作nn.ReLU(inplace=True),# 定义一个Dropout层，使用0.7的丢弃率nn.Dropout(0.7),# 定义一个线性层，输入维度为1024，输出维度为分类数nn.Linear(1024, num_classes))# 定义前向传播方法，接收输入张量xdef forward(self, x):# 将x通过特征提取模块，得到输出张量x = self.feature_(x)# 将输出张量展平为一维向量，维度为4*4*128x = x.view(-1, 4*4*128) # 将展平后的向量通过分类模块，得到输出向量x = self.clf_(x)# 返回输出向量return x

4. 定义一个GoogLeNet类

GoogLeNet 类是整个GoogLeNet模型的定义。
包含多个阶段，每个阶段包含不同的卷积和Inception模块。
有全局平均池化、Dropout和全连接层组成的分类器。
有两个辅助分类器 (AuxClf) 提供额外的梯度信息。
在 forward 方法中定义了模型的前向传播过程。

# 定义一个GoogLeNet类，继承自nn.Module
class GoogLeNet(nn.Module):# 定义初始化方法，接受一个参数num_classes，表示分类的类别数，默认为1000def __init__(self, num_classes: int = 1000):# 调用父类的初始化方法super(GoogLeNet, self).__init__()# 定义第一个卷积层，输入通道为3，输出通道为64，卷积核大小为7，步长为2，边缘填充为3self.conv1 = BasicConv2d(3, 64, kernel_size=7, stride=2, padding=3)  # 输出112x112x64# 定义第一个最大池化层，池化核大小为3，步长为2，使用向上取整的方式处理边缘self.maxpool1 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)  # (112 - 3) / 2 + 1 = 55.5，向上取整，输出56x56x64# 定义第二个卷积层，输入通道为64，输出通道为64，卷积核大小为1，步长为1self.conv2 = BasicConv2d(64, 64, kernel_size=1, stride=1)# 定义第三个卷积层，输入通道为64，输出通道为192，卷积核大小为3，步长为1，边缘填充为1self.conv3 = BasicConv2d(64, 192, kernel_size=3, stride=1, padding=1)  # 输出56x56x192# 定义第二个最大池化层，池化核大小为3，步长为2，使用向上取整的方式处理边缘self.maxpool2 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)  # 输出28x28x192# 定义第一个Inception模块，输入通道为192，输出通道为64,96,128,16,32,32self.inception3a = Inception(192,64,96, 128, 16, 32, 32)  # 输出28x28x256# 定义第二个Inception模块，输入通道为256，输出通道为128,128,192,32,96,64self.inception3b = Inception(256, 128, 128, 192, 32, 96, 64)  # 输出28x28x480# 定义第三个最大池化层，池化核大小为3，步长为2，使用向上取整的方式处理边缘self.maxpool3 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)  # 输出14x14x480# 定义第三个Inception模块，输入通道为480，输出通道为192,96,208,16,48,64self.inception4a = Inception(480, 192, 96, 208, 16, 48, 64)  # 输出14x14x512# 定义第四个Inception模块，输入通道为512，输出通道为160,112,224,24,64,64self.inception4b = Inception(512, 160, 112, 224, 24, 64, 64)  # 输出14x14x512# 定义第五个Inception模块，输入通道为512，输出通道为128,128,256,24,64,64self.inception4c = Inception(512, 128, 128, 256, 24, 64, 64)  # 输出14x14x512# 定义第六个Inception模块，输入通道为512，输出通道为112,144,288,32,64,64self.inception4d = Inception(512, 112, 144, 288, 32, 64, 64)  # 输出14x14x528# 定义第七个Inception模块，输入通道为528，输出通道为256,160,320,32,128,128self.inception4e = Inception(528, 256, 160, 320, 32, 128, 128)  # 输出14x14x832# 定义第四个最大池化层，池化核大小为3，步长为2，使用向上取整的方式处理边缘self.maxpool4 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)  # 输出7x7x832# 定义第八个Inception模块，输入通道为832，输出通道为256,160,320,32,128,128self.inception5a = Inception(832, 256, 160, 320, 32, 128, 128)  # 输出7x7x832# 定义第九个Inception模块，输入通道为832，输出通道为384,192,384,48,128,128self.inception5b = Inception(832, 384, 192, 384, 48, 128, 128)  # 输出7x7x1024# 定义自适应平均池化层，输出大小为1x1self.avgpool = nn.AdaptiveAvgPool2d((1, 1))  # 输出1x1x1024# 定义一个0.4的随机失活层self.dropout = nn.Dropout(0.4)# 定义一个全连接层，输入维度为1024，输出维度为num_classesself.fc = nn.Linear(1024, num_classes)# 定义第一个辅助分类器，输入通道为512，输出通道为num_classesself.aux1 = AuxClf(512, num_classes)# 定义第二个辅助分类器，输入通道为528，输出通道为num_classesself.aux2 = AuxClf(528, num_classes)# 定义前向传播方法，接受一个参数x，表示输入的数据def forward(self, x):  # 前向传播函数x = self.maxpool1(self.conv1(x))  # 第一层卷积和池化x = self.maxpool2(self.conv3(self.conv2(x)))  # 第二层和第三层卷积，然后池化x = self.maxpool3(self.inception3b(self.inception3a(x)))  # 两个Inception模块，然后池化x = self.inception4a(x)  # 第三个Inception模块aux1 = self.aux1(x)  # 第一个辅助分类器的输出x = self.inception4b(x)  # 第四个Inception模块x = self.inception4c(x)  # 第五个Inception模块x = self.inception4d(x)  # 第六个Inception模块aux2 = self.aux2(x)  # 第二个辅助分类器的输出x = self.maxpool4(self.inception4e(x))  # 第七个Inception模块，然后池化x = self.inception5b(self.inception5a(x))  # 最后两个Inception模块x = self.avgpool(x)  # 平均池化x = torch.flatten(x, 1)  # 展平x = self.dropout(x)  # Dropoutx = self.fc(x)  # 全连接层return x, aux1, aux2  # 返回主分类器和两个辅助分类器的输出

5. 主函数

主函数创建了一个模拟输入数据，并实例化了 GoogLeNet 模型。
调用模型进行前向传播，并输出主分类器以及两个辅助分类器的输出形状。
使用 torchinfo.summary 打印模型的详细信息。

# 如果是主程序
if __name__ == '__main__':# 创建一个全1的张量，形状为20x3x224x224，表示有20个样本，每个样本有3个通道，高和宽都是224data = torch.ones(20, 3, 224, 224)# 创建一个GoogLeNet实例net = GoogLeNet()# 将数据输入到模型中，得到模型的输出和两个辅助分类器的输出x, aux1, aux2 = net(data)# 遍历三个输出，打印它们的形状for i in [x, aux1, aux2]:print(i.shape)# 使用torchinfo库的summary函数，打印模型的参数统计，输入形状为20x3x224x224，设备为cpusummary(net, (20, 3, 224, 224), device='cpu')

总体而言，该代码实现了一个完整的GoogLeNet模型，用于图像分类任务，并包括了辅助分类器以提高训练效果。

输出结果：模型的输出和两个辅助分类器的输出、模型的参数统计

torch.Size([20, 1000])
torch.Size([20, 1000])
torch.Size([20, 1000])
===============================================================================================
Layer (type:depth-idx)                        Output Shape              Param #
===============================================================================================
GoogLeNet                                     [20, 1000]                --
├─BasicConv2d: 1-1                            [20, 64, 112, 112]        --
│    └─Sequential: 2-1                        [20, 64, 112, 112]        --
│    │    └─Conv2d: 3-1                       [20, 64, 112, 112]        9,408
│    │    └─BatchNorm2d: 3-2                  [20, 64, 112, 112]        128
│    │    └─ReLU: 3-3                         [20, 64, 112, 112]        --
├─MaxPool2d: 1-2                              [20, 64, 56, 56]          --
├─BasicConv2d: 1-3                            [20, 64, 56, 56]          --
│    └─Sequential: 2-2                        [20, 64, 56, 56]          --
│    │    └─Conv2d: 3-4                       [20, 64, 56, 56]          4,096
│    │    └─BatchNorm2d: 3-5                  [20, 64, 56, 56]          128
│    │    └─ReLU: 3-6                         [20, 64, 56, 56]          --
├─BasicConv2d: 1-4                            [20, 192, 56, 56]         --
│    └─Sequential: 2-3                        [20, 192, 56, 56]         --
│    │    └─Conv2d: 3-7                       [20, 192, 56, 56]         110,592
│    │    └─BatchNorm2d: 3-8                  [20, 192, 56, 56]         384
│    │    └─ReLU: 3-9                         [20, 192, 56, 56]         --
├─MaxPool2d: 1-5                              [20, 192, 28, 28]         --
├─Inception: 1-6                              [20, 256, 28, 28]         --
│    └─BasicConv2d: 2-4                       [20, 64, 28, 28]          --
│    │    └─Sequential: 3-10                  [20, 64, 28, 28]          12,416
│    └─Sequential: 2-5                        [20, 128, 28, 28]         --
│    │    └─BasicConv2d: 3-11                 [20, 96, 28, 28]          18,624
│    │    └─BasicConv2d: 3-12                 [20, 128, 28, 28]         110,848
│    └─Sequential: 2-6                        [20, 32, 28, 28]          --
│    │    └─BasicConv2d: 3-13                 [20, 16, 28, 28]          3,104
│    │    └─BasicConv2d: 3-14                 [20, 32, 28, 28]          12,864
│    └─Sequential: 2-7                        [20, 32, 28, 28]          --
│    │    └─MaxPool2d: 3-15                   [20, 192, 28, 28]         --
│    │    └─BasicConv2d: 3-16                 [20, 32, 28, 28]          6,208
├─Inception: 1-7                              [20, 480, 28, 28]         --
│    └─BasicConv2d: 2-8                       [20, 128, 28, 28]         --
│    │    └─Sequential: 3-17                  [20, 128, 28, 28]         33,024
│    └─Sequential: 2-9                        [20, 192, 28, 28]         --
│    │    └─BasicConv2d: 3-18                 [20, 128, 28, 28]         33,024
│    │    └─BasicConv2d: 3-19                 [20, 192, 28, 28]         221,568
│    └─Sequential: 2-10                       [20, 96, 28, 28]          --
│    │    └─BasicConv2d: 3-20                 [20, 32, 28, 28]          8,256
│    │    └─BasicConv2d: 3-21                 [20, 96, 28, 28]          76,992
│    └─Sequential: 2-11                       [20, 64, 28, 28]          --
│    │    └─MaxPool2d: 3-22                   [20, 256, 28, 28]         --
│    │    └─BasicConv2d: 3-23                 [20, 64, 28, 28]          16,512
├─MaxPool2d: 1-8                              [20, 480, 14, 14]         --
├─Inception: 1-9                              [20, 512, 14, 14]         --
│    └─BasicConv2d: 2-12                      [20, 192, 14, 14]         --
│    │    └─Sequential: 3-24                  [20, 192, 14, 14]         92,544
│    └─Sequential: 2-13                       [20, 208, 14, 14]         --
│    │    └─BasicConv2d: 3-25                 [20, 96, 14, 14]          46,272
│    │    └─BasicConv2d: 3-26                 [20, 208, 14, 14]         180,128
│    └─Sequential: 2-14                       [20, 48, 14, 14]          --
│    │    └─BasicConv2d: 3-27                 [20, 16, 14, 14]          7,712
│    │    └─BasicConv2d: 3-28                 [20, 48, 14, 14]          19,296
│    └─Sequential: 2-15                       [20, 64, 14, 14]          --
│    │    └─MaxPool2d: 3-29                   [20, 480, 14, 14]         --
│    │    └─BasicConv2d: 3-30                 [20, 64, 14, 14]          30,848
├─AuxClf: 1-10                                [20, 1000]                --
│    └─Sequential: 2-16                       [20, 128, 4, 4]           --
│    │    └─AvgPool2d: 3-31                   [20, 512, 4, 4]           --
│    │    └─BasicConv2d: 3-32                 [20, 128, 4, 4]           65,792
│    └─Sequential: 2-17                       [20, 1000]                --
│    │    └─Linear: 3-33                      [20, 1024]                2,098,176
│    │    └─ReLU: 3-34                        [20, 1024]                --
│    │    └─Dropout: 3-35                     [20, 1024]                --
│    │    └─Linear: 3-36                      [20, 1000]                1,025,000
├─Inception: 1-11                             [20, 512, 14, 14]         --
│    └─BasicConv2d: 2-18                      [20, 160, 14, 14]         --
│    │    └─Sequential: 3-37                  [20, 160, 14, 14]         82,240
│    └─Sequential: 2-19                       [20, 224, 14, 14]         --
│    │    └─BasicConv2d: 3-38                 [20, 112, 14, 14]         57,568
│    │    └─BasicConv2d: 3-39                 [20, 224, 14, 14]         226,240
│    └─Sequential: 2-20                       [20, 64, 14, 14]          --
│    │    └─BasicConv2d: 3-40                 [20, 24, 14, 14]          12,336
│    │    └─BasicConv2d: 3-41                 [20, 64, 14, 14]          38,528
│    └─Sequential: 2-21                       [20, 64, 14, 14]          --
│    │    └─MaxPool2d: 3-42                   [20, 512, 14, 14]         --
│    │    └─BasicConv2d: 3-43                 [20, 64, 14, 14]          32,896
├─Inception: 1-12                             [20, 512, 14, 14]         --
│    └─BasicConv2d: 2-22                      [20, 128, 14, 14]         --
│    │    └─Sequential: 3-44                  [20, 128, 14, 14]         65,792
│    └─Sequential: 2-23                       [20, 256, 14, 14]         --
│    │    └─BasicConv2d: 3-45                 [20, 128, 14, 14]         65,792
│    │    └─BasicConv2d: 3-46                 [20, 256, 14, 14]         295,424
│    └─Sequential: 2-24                       [20, 64, 14, 14]          --
│    │    └─BasicConv2d: 3-47                 [20, 24, 14, 14]          12,336
│    │    └─BasicConv2d: 3-48                 [20, 64, 14, 14]          38,528
│    └─Sequential: 2-25                       [20, 64, 14, 14]          --
│    │    └─MaxPool2d: 3-49                   [20, 512, 14, 14]         --
│    │    └─BasicConv2d: 3-50                 [20, 64, 14, 14]          32,896
├─Inception: 1-13                             [20, 528, 14, 14]         --
│    └─BasicConv2d: 2-26                      [20, 112, 14, 14]         --
│    │    └─Sequential: 3-51                  [20, 112, 14, 14]         57,568
│    └─Sequential: 2-27                       [20, 288, 14, 14]         --
│    │    └─BasicConv2d: 3-52                 [20, 144, 14, 14]         74,016
│    │    └─BasicConv2d: 3-53                 [20, 288, 14, 14]         373,824
│    └─Sequential: 2-28                       [20, 64, 14, 14]          --
│    │    └─BasicConv2d: 3-54                 [20, 32, 14, 14]          16,448
│    │    └─BasicConv2d: 3-55                 [20, 64, 14, 14]          51,328
│    └─Sequential: 2-29                       [20, 64, 14, 14]          --
│    │    └─MaxPool2d: 3-56                   [20, 512, 14, 14]         --
│    │    └─BasicConv2d: 3-57                 [20, 64, 14, 14]          32,896
├─AuxClf: 1-14                                [20, 1000]                --
│    └─Sequential: 2-30                       [20, 128, 4, 4]           --
│    │    └─AvgPool2d: 3-58                   [20, 528, 4, 4]           --
│    │    └─BasicConv2d: 3-59                 [20, 128, 4, 4]           67,840
│    └─Sequential: 2-31                       [20, 1000]                --
│    │    └─Linear: 3-60                      [20, 1024]                2,098,176
│    │    └─ReLU: 3-61                        [20, 1024]                --
│    │    └─Dropout: 3-62                     [20, 1024]                --
│    │    └─Linear: 3-63                      [20, 1000]                1,025,000
├─Inception: 1-15                             [20, 832, 14, 14]         --
│    └─BasicConv2d: 2-32                      [20, 256, 14, 14]         --
│    │    └─Sequential: 3-64                  [20, 256, 14, 14]         135,680
│    └─Sequential: 2-33                       [20, 320, 14, 14]         --
│    │    └─BasicConv2d: 3-65                 [20, 160, 14, 14]         84,800
│    │    └─BasicConv2d: 3-66                 [20, 320, 14, 14]         461,440
│    └─Sequential: 2-34                       [20, 128, 14, 14]         --
│    └─BasicConv2d: 2-36                      [20, 256, 7, 7]           --
│    │    └─Sequential: 3-71                  [20, 256, 7, 7]           213,504
│    └─Sequential: 2-37                       [20, 320, 7, 7]           --
│    │    └─BasicConv2d: 3-72                 [20, 160, 7, 7]           133,440
│    │    └─BasicConv2d: 3-73                 [20, 320, 7, 7]           461,440
│    └─Sequential: 2-38                       [20, 128, 7, 7]           --
│    │    └─BasicConv2d: 3-74                 [20, 32, 7, 7]            26,688
│    │    └─BasicConv2d: 3-75                 [20, 128, 7, 7]           102,656
│    └─Sequential: 2-39                       [20, 128, 7, 7]           --
│    │    └─MaxPool2d: 3-76                   [20, 832, 7, 7]           --
│    │    └─BasicConv2d: 3-77                 [20, 128, 7, 7]           106,752
├─Inception: 1-18                             [20, 1024, 7, 7]          --
│    └─BasicConv2d: 2-40                      [20, 384, 7, 7]           --
│    │    └─Sequential: 3-78                  [20, 384, 7, 7]           320,256
│    └─Sequential: 2-41                       [20, 384, 7, 7]           --
│    │    └─BasicConv2d: 3-79                 [20, 192, 7, 7]           160,128
│    │    └─BasicConv2d: 3-80                 [20, 384, 7, 7]           664,320
│    └─Sequential: 2-42                       [20, 128, 7, 7]           --
│    │    └─BasicConv2d: 3-81                 [20, 48, 7, 7]            40,032
│    │    └─BasicConv2d: 3-82                 [20, 128, 7, 7]           153,856
│    └─Sequential: 2-43                       [20, 128, 7, 7]           --
│    │    └─MaxPool2d: 3-83                   [20, 832, 7, 7]           --
│    │    └─BasicConv2d: 3-84                 [20, 128, 7, 7]           106,752
├─AdaptiveAvgPool2d: 1-19                     [20, 1024, 1, 1]          --
├─Dropout: 1-20                               [20, 1024]                --
├─Linear: 1-21                                [20, 1000]                1,025,000
===============================================================================================
Total params: 13,385,816
Trainable params: 13,385,816
Non-trainable params: 0
Total mult-adds (G): 31.82
===============================================================================================Input size (MB): 12.04
Forward/backward pass size (MB): 1034.49
Params size (MB): 53.54
Estimated Total Size (MB): 1100.08
===============================================================================================