D2L学习笔记-现代卷积神经网络

  1. 1. 深度卷积神经网络(AlexNet)
  2. 2. 使用块的网络(VGG)
  3. 3. 网络中的网络(NiN)
  4. 4. 含并行连结的网络(GoogLeNet)
  5. 5. 批量规范化(BN)
  6. 6. 残差网络(ResNet)
  7. 7. 稠密连接网络(DenseNet)

李沐动手学深度学习(PyTorch)课程学习笔记第六章:现代卷积神经网络。

1. 深度卷积神经网络(AlexNet)

AlexNet 和 LeNet 的设计理念非常相似,但也存在显著差异:

  • AlexNet 比相对较小的 LeNet5 要深得多。AlexNet 由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
  • AlexNet 使用 ReLU 而不是 Sigmoid 作为其激活函数。

此外,AlexNet 将 Sigmoid 激活函数改为更简单的 ReLU 激活函数。一方面,ReLU 激活函数的计算更简单,它不需要如 Sigmoid 激活函数那般复杂的求幂运算。另一方面,当使用不同的参数初始化方法时,ReLU 激活函数使训练模型更加容易。当 Sigmoid 激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。相反,ReLU 激活函数在正区间的梯度总是1。因此,如果模型参数没有正确初始化,Sigmoid 函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。

尽管原文中 AlexNet 是在 ImageNet 上进行训练的,但本文在这里使用的是 Fashion-MNIST 数据集。因为即使在现代 GPU 上,训练 ImageNet 模型,同时使其收敛可能需要数小时或数天的时间。将 AlexNet 直接应用于 Fashion-MNIST 的一个问题是 Fashion-MNIST 图像的分辨率(28×28像素)低于 ImageNet 图像。为了解决这个问题,我们将它们增加到224×224像素(通常来讲这不是一个明智的做法,但在这里这样做是为了有效使用 AlexNet 架构)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
import torch
from torch import nn
import torchvision
from torch.utils import data
from torchvision import transforms
from util.functions import train_classifier

net = nn.Sequential(
# 这里使用11*11的更大窗口来捕捉对象,同时步幅为4,以减少输出的高度和宽度,此外输出通道的数目远大于LeNet
nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(), # (96, 54, 54)
nn.MaxPool2d(kernel_size=3, stride=2), # (96, 26, 26)
# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数
nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(), # (256, 26, 26)
nn.MaxPool2d(kernel_size=3, stride=2), # (256, 12, 12)
# 使用三个连续的卷积层和较小的卷积窗口,除了最后的卷积层,输出通道的数量进一步增加
# 在前两个卷积层之后,汇聚层不用于减少输入的高度和宽度
nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(), # (384, 12, 12)
nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(), # (384, 12, 12)
nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(), # (256, 12, 12)
nn.MaxPool2d(kernel_size=3, stride=2), # (256, 5, 5)
nn.Flatten(),
# 这里全连接层的输出数量是LeNet中的好几倍,因此使用Dropout层来减轻过拟合
nn.Linear(6400, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
# 最后是输出层,由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000
nn.Linear(4096, 10))

batch_size = 128
trans = transforms.Compose([transforms.Resize((224, 224)), transforms.ToTensor()])
mnist_train = torchvision.datasets.FashionMNIST(root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(root="../data", train=False, transform=trans, download=True)
train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True, num_workers=0)
test_iter = data.DataLoader(mnist_test, batch_size, shuffle=True, num_workers=0)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
lr, num_epochs = 0.01, 50

train_classifier(net, train_iter, test_iter, num_epochs, lr, device, '../logs/AlexNet_train_log')

2. 使用块的网络(VGG)

虽然 AlexNet 证明深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。

经典卷积神经网络的基本组成部分是下面的这个序列:

  • 带填充以保持分辨率的卷积层。
  • 非线性激活函数,如 ReLU。
  • 汇聚层,如最大汇聚层。

而一个 VGG 块与之类似,由一系列卷积层组成,后面再加上用于空间下采样的最大汇聚层。

VGG 使用可重复使用的卷积块来构建深度卷积神经网络,不同的卷积块个数和超参数可以得到不同复杂度的变种。

下面的代码中,我们定义了一个名为 vgg_block 的函数来实现一个 VGG 块,该函数有三个参数,分别对应于卷积层的数量 num_convs、输入通道的数量 in_channels 和输出通道的数量 out_channels

1
2
3
4
5
6
7
8
def vgg_block(num_convs, in_channels, out_channels):
layers = []
for _ in range(num_convs):
layers.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))
layers.append(nn.ReLU())
in_channels = out_channels
layers.append(nn.MaxPool2d(kernel_size=2, stride=2))
return nn.Sequential(*layers)

原始 VGG 网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。第一个模块有64个输出通道,每个后续模块将输出通道数量翻倍,直到达到512。由于该网络使用8个卷积层和3个全连接层,因此它通常被称为 VGG-11。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
def vgg(conv_arch):
conv_blks = []
in_channels = 1
# 卷积层部分
for (num_convs, out_channels) in conv_arch:
conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
in_channels = out_channels

return nn.Sequential(
*conv_blks, nn.Flatten(),
# 全连接层部分
nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),
nn.Linear(4096, 10))

conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))
net = vgg(conv_arch)

由于 VGG-11 比 AlexNet 计算量更大,因此我们构建了一个通道数较少的网络,足够用于训练 Fashion-MNIST 数据集:

1
2
conv_arch = ((1, 16), (1, 32), (2, 64), (2, 128), (2, 128))
net = vgg(conv_arch)

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 0.02, 15,训练过程与第一节内容一样,因此不再放出代码。

PS:如果显存不够可以减小 batch_size,从128改为64或32。

3. 网络中的网络(NiN)

回想一下,卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度。另外,全连接层的输入和输出通常是分别对应于样本和特征的二维张量。NiN 的想法是在每个像素位置(针对每个高度和宽度)应用一个全连接层。如果我们将权重连接到每个空间位置,我们可以将其视为1×1卷积层(如第五章第四节 PS 中所述),或作为在每个像素位置上独立作用的全连接层。从另一个角度看,即将空间维度中的每个像素视为单个样本,将通道维度视为不同特征(feature)。

NiN 块以一个普通卷积层开始,后面是两个1×1的卷积层。这两个1×1卷积层充当带有 ReLU 激活函数的逐像素全连接层,对每个像素增加了非线性特性:

1
2
3
4
5
def nin_block(in_channels, out_channels, kernel_size, strides, padding):
return nn.Sequential(
nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding), nn.ReLU(),
nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())

NiN 和 AlexNet 之间的一个显著区别是 NiN 完全取消了全连接层。相反,NiN 使用一个 NiN 块,其输出通道数等于标签类别的数量。最后放一个全局平均汇聚层(global average pooling layer),生成一个对数几率(logits)。NiN 设计的一个优点是,它显著减少了模型所需参数的数量。然而,在实践中,这种设计有时会增加训练模型的时间。

1
2
3
4
5
6
7
8
9
10
11
net = nn.Sequential(
nin_block(1, 96, kernel_size=11, strides=4, padding=0),
nn.MaxPool2d(3, stride=2),
nin_block(96, 256, kernel_size=5, strides=1, padding=2),
nn.MaxPool2d(3, stride=2),
nin_block(256, 384, kernel_size=3, strides=1, padding=1),
nn.MaxPool2d(3, stride=2),
nn.Dropout(0.5),
nin_block(384, 10, kernel_size=3, strides=1, padding=1), # 标签类别数是10
nn.AdaptiveAvgPool2d((1, 1)), # 将四维的输出转成二维的输出,其形状为(批量大小,10)
nn.Flatten())

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 0.1, 15,训练过程与第一节内容一样,因此不再放出代码。

4. 含并行连结的网络(GoogLeNet)

在 GoogLeNet 中,基本的卷积块被称为 Inception 块(Inception block)。Inception 块由四条并行路径组成。前三条路径使用窗口大小为1×1、3×3和5×5的卷积层,从不同空间大小中提取信息。中间的两条路径在输入上执行1×1卷积,以减少通道数,从而降低模型的复杂性。第四条路径使用3×3最大汇聚层,然后使用1×1卷积层来改变通道数。这四条路径都使用合适的填充来使输入与输出的高和宽一致,最后我们将每条线路的输出在通道维度上连结,并构成 Inception 块的输出。在 Inception 块中,通常调整的超参数是每层输出通道数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
class Inception(nn.Module):
# c1-c4是每条路径的输出通道数
def __init__(self, in_channels, c1, c2, c3, c4, **kwargs):
super(Inception, self).__init__(**kwargs)
# 线路1,单1x1卷积层
self.p1_1 = nn.Conv2d(in_channels, c1, kernel_size=1)
# 线路2,1x1卷积层后接3x3卷积层
self.p2_1 = nn.Conv2d(in_channels, c2[0], kernel_size=1)
self.p2_2 = nn.Conv2d(c2[0], c2[1], kernel_size=3, padding=1)
# 线路3,1x1卷积层后接5x5卷积层
self.p3_1 = nn.Conv2d(in_channels, c3[0], kernel_size=1)
self.p3_2 = nn.Conv2d(c3[0], c3[1], kernel_size=5, padding=2)
# 线路4,3x3最大汇聚层后接1x1卷积层
self.p4_1 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
self.p4_2 = nn.Conv2d(in_channels, c4, kernel_size=1)

def forward(self, x):
p1 = F.relu(self.p1_1(x))
p2 = F.relu(self.p2_2(F.relu(self.p2_1(x))))
p3 = F.relu(self.p3_2(F.relu(self.p3_1(x))))
p4 = F.relu(self.p4_2(self.p4_1(x)))
# 在通道维度(第一维)上连结输出
return torch.cat((p1, p2, p3, p4), dim=1)

GoogLeNet 一共使用9个 Inception 块和全局平均汇聚层的堆叠来生成其估计值。Inception 块之间的最大汇聚层可降低维度。第一个模块类似于 AlexNet 和 LeNet,Inception 块的组合从 VGG 继承,全局平均汇聚层避免了在最后使用全连接层。

现在,我们逐一实现 GoogLeNet 的每个模块。第一个模块使用64个通道、7×7卷积层:

1
2
3
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第二个模块使用两个卷积层:第一个卷积层是64个通道、1×1卷积层;第二个卷积层使用将通道数量增加三倍的3×3卷积层。这对应于 Inception 块中的第二条路径:

1
2
3
4
5
b2 = nn.Sequential(nn.Conv2d(64, 64, kernel_size=1),
nn.ReLU(),
nn.Conv2d(64, 192, kernel_size=3, padding=1),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第三个模块串联两个完整的 Inception 块。第一个 Inception 块的输出通道数为 64 + 128 + 32 + 32 = 256,四个路径之间的输出通道数量比为 2 : 4 : 1 : 1,第二个和第三个路径首先将输入通道的数量分别减少到96和16,然后连接第二个卷积层。第二个 Inception 块的输出通道数增加到 128 + 192 + 96 + 64 = 480,四个路径之间的输出通道数量比为 4 : 6 : 3 : 2,第二条和第三条路径首先将输入通道的数量分别减少到128和32:

1
2
3
b3 = nn.Sequential(Inception(192, 64, (96, 128), (16, 32), 32),
Inception(256, 128, (128, 192), (32, 96), 64),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第四模块更加复杂,它串联了5个 Inception 块,其输出通道数分别是 192 + 208 + 48 + 64 = 512160 + 224 + 64 + 64 = 512128 + 256 + 64 + 64 = 512112 + 288 + 64 + 64 = 528256 + 320 + 128 + 128 = 832

1
2
3
4
5
6
b4 = nn.Sequential(Inception(480, 192, (96, 208), (16, 48), 64),
Inception(512, 160, (112, 224), (24, 64), 64),
Inception(512, 128, (128, 256), (24, 64), 64),
Inception(512, 112, (144, 288), (32, 64), 64),
Inception(528, 256, (160, 320), (32, 128), 128),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第五模块包含输出通道数为 256 + 320 + 128 + 128 = 832384 + 384 + 128 + 128 = 1024 的两个 Inception 块。需要注意的是,第五模块的后面紧跟输出层,该模块同 NiN 一样使用全局平均汇聚层,将每个通道的高和宽变成1。最后我们将输出变成二维数组,再接上一个输出个数为标签类别数的全连接层:

1
2
3
4
5
6
b5 = nn.Sequential(Inception(832, 256, (160, 320), (32, 128), 128),
Inception(832, 384, (192, 384), (48, 128), 128),
nn.AdaptiveAvgPool2d((1, 1)),
nn.Flatten())

net = nn.Sequential(b1, b2, b3, b4, b5, nn.Linear(1024, 10))

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 0.1, 15,训练过程与第一节内容一样,因此不再放出代码。

5. 批量规范化(BN)

批量规范化(Batch Normalization)是一种流行且有效的技术,可持续加速深层网络的收敛速度。

使用真实数据时,我们的第一步是标准化输入特征,使其平均值为0,方差为1。直观地说,这种标准化可以很好地与我们的优化器配合使用,因为它可以将参数的量级进行统一。

第二,对于典型的多层感知机或卷积神经网络。当我们训练时,中间层中的变量(例如,多层感知机中的仿射变换输出)可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数随着训练更新的变幻莫测。批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。直观地说,我们可能会猜想,如果一个层的可变值是另一层的100倍,这可能需要对学习率进行补偿调整。

第三,更深层的网络很复杂,容易过拟合。这意味着正则化变得更加重要。

批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。接下来,我们应用比例系数和比例偏移。正是由于这个基于批量统计的标准化,才有了批量规范化的名称。

请注意,如果我们尝试使用大小为1的小批量应用批量规范化,我们将无法学到任何东西。这是因为在减去均值之后,每个隐藏单元将为0。所以,只有使用足够大的小批量,批量规范化这种方法才是有效且稳定的。请注意,在应用批量规范化时,批量大小的选择可能比没有批量规范化时更重要。

通常,我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。同样,对于卷积层,我们可以在卷积层之后和非线性激活函数之前应用批量规范化。

下面,我们从头开始实现一个具有张量的批量规范化层:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
# 通过is_grad_enabled来判断当前模式是训练模式还是预测模式
if not torch.is_grad_enabled():
# 如果是在预测模式下,直接使用传入的移动平均所得的均值和方差
X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
else:
# 假设只考虑全连接和二维卷积
assert len(X.shape) in (2, 4)
if len(X.shape) == 2:
# 使用全连接层的情况,计算特征维上的均值和方差
mean = X.mean(dim=0)
var = ((X - mean) ** 2).mean(dim=0)
else:
# 使用二维卷积层的情况,计算通道维上(axis=1)的均值和方差。
# 这里我们需要保持X的形状以便后面可以做广播运算
mean = X.mean(dim=(0, 2, 3), keepdim=True)
var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
# 训练模式下,用当前的均值和方差做标准化
X_hat = (X - mean) / torch.sqrt(var + eps)
# 更新移动平均的均值和方差
moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
moving_var = momentum * moving_var + (1.0 - momentum) * var
Y = gamma * X_hat + beta # 缩放和移位
return Y, moving_mean.data, moving_var.data

我们现在可以创建一个正确的 BatchNorm 层。这个层将保持适当的参数:拉伸 gamma 和偏移 beta,这两个参数将在训练过程中更新。此外,我们的层将保存均值和方差的移动平均值,以便在模型预测期间随后使用。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
class BatchNorm(nn.Module):
# num_features:全连接层的输出数量或卷积层的输出通道数
# num_dims:2表示全连接层,4表示卷积层
def __init__(self, num_features, num_dims):
super().__init__()
if num_dims == 2:
shape = (1, num_features)
else:
shape = (1, num_features, 1, 1)
# 参与求梯度和迭代的拉伸和偏移参数,分别初始化成1和0
self.gamma = nn.Parameter(torch.ones(shape))
self.beta = nn.Parameter(torch.zeros(shape))
# 非模型参数的变量初始化为0和1
self.moving_mean = torch.zeros(shape)
self.moving_var = torch.ones(shape)

def forward(self, X):
# 如果X不在内存上,将moving_mean和moving_var,复制到X所在显存上
if self.moving_mean.device != X.device:
self.moving_mean = self.moving_mean.to(X.device)
self.moving_var = self.moving_var.to(X.device)
# 保存更新过的moving_mean和moving_var
Y, self.moving_mean, self.moving_var = batch_norm(X, self.gamma,
self.beta, self.moving_mean, self.moving_var, eps=1e-5, momentum=0.9)
return Y

为了更好理解如何应用 BatchNorm,下面我们将其应用于 LeNet 模型:

1
2
3
4
5
6
7
8
net = nn.Sequential(
nn.Conv2d(1, 6, kernel_size=5, padding=2), BatchNorm(6, num_dims=4), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2),
nn.Conv2d(6, 16, kernel_size=5), BatchNorm(16, num_dims=4), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),
nn.Linear(16 * 5 * 5, 120), BatchNorm(120, num_dims=2), nn.Sigmoid(),
nn.Linear(120, 84), BatchNorm(84, num_dims=2), nn.Sigmoid(),
nn.Linear(84, 10))

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 1, 15,由于网络模型类似 LeNet,因此无需对输入图像进行 Resize 操作,训练过程与第一节内容一样,因此不再放出代码。

6. 残差网络(ResNet)

只有当较复杂的函数类包含较小的函数类时,我们才能确保提高它们的性能。对于深度神经网络,如果我们能将新添加的层训练成恒等映射(identity function):f(x) = x,新模型和原模型将同样有效。同时,由于新模型可能得出更优的解来拟合训练数据集,因此添加层似乎更容易降低训练误差。

残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。

ResNet 沿用了 VGG 完整的卷积层设计。残差块里首先有2个有相同输出通道数的卷积层。每个卷积层后接一个批量规范化层和 ReLU 激活函数。然后我们通过跨层数据通路,跳过这2个卷积运算,将输入直接加在最后的 ReLU 激活函数前。这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。如果想改变通道数,就需要引入一个额外的1×1卷积层来将输入变换成需要的形状后再做相加运算。残差块的实现如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
class Residual(nn.Module):
def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1):
super().__init__()
self.conv1 = nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1, stride=strides)
self.conv2 = nn.Conv2d(num_channels, num_channels, kernel_size=3, padding=1)
if use_1x1conv:
self.conv3 = nn.Conv2d(input_channels, num_channels, kernel_size=1, stride=strides)
else:
self.conv3 = None
self.bn1 = nn.BatchNorm2d(num_channels)
self.bn2 = nn.BatchNorm2d(num_channels)

def forward(self, X):
Y = F.relu(self.bn1(self.conv1(X)))
Y = self.bn2(self.conv2(Y))
if self.conv3:
X = self.conv3(X)
Y += X
return F.relu(Y)

此代码生成两种类型的网络:一种是当 use_1x1conv = False 时,应用 ReLU 非线性函数之前,将输入添加到输出。另一种是当 use_1x1conv = True 时,添加通过1×1卷积调整通道和分辨率。

ResNet 的前两层跟之前介绍的 GoogLeNet 中的一样:在输出通道数为64、步幅为2的7×7卷积层后,接步幅为2的3×3最大汇聚层。不同之处在于 ResNet 每个卷积层后增加了批量规范化层。

1
2
3
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

GoogLeNet 在后面接了4个由 Inception 块组成的模块。ResNet 则使用4个由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大汇聚层,所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。

下面我们来实现这个模块。注意,我们对第一个模块做了特别处理:

1
2
3
4
5
6
7
8
def resnet_block(input_channels, num_channels, num_residuals, first_block=False):
blk = []
for i in range(num_residuals):
if i == 0 and not first_block:
blk.append(Residual(input_channels, num_channels, use_1x1conv=True, strides=2))
else:
blk.append(Residual(num_channels, num_channels))
return blk

接着在 ResNet 加入所有残差块,这里每个模块使用2个残差块:

1
2
3
4
b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))

最后,与 GoogLeNet 一样,在 ResNet 中加入全局平均汇聚层,以及全连接层输出:

1
2
3
net = nn.Sequential(b1, b2, b3, b4, b5,
nn.AdaptiveAvgPool2d((1, 1)),
nn.Flatten(), nn.Linear(512, 10))

每个模块有4个卷积层(不包括恒等映射的卷积层)。加上第一个7×7卷积层和最后一个全连接层,共有18层。因此,这种模型通常被称为 ResNet-18。通过配置不同的通道数和模块里的残差块数可以得到不同的 ResNet 模型,例如更深的含152层的 ResNet-152。

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 0.02, 15,由于 ResNet 性能很强,对于 FashionMNIST 数据集很容易就过拟合了,因此可以将输入图像 Resize 为 (96, 96),训练过程与第一节内容一样,因此不再放出代码。

ResNet 其它版本的模型结构可以参考:

7. 稠密连接网络(DenseNet)

ResNet 和 DenseNet 的关键区别在于,DenseNet 输出是连接(用 [.] 表示)而不是如 ResNet 的简单相加。

稠密网络主要由2部分构成:稠密块(dense block)和过渡层(transition layer)。前者定义如何连接输入和输出,而后者则控制通道数量,使其不会太复杂。

DenseNet 使用了 ResNet 改良版的“批量规范化、激活和卷积”架构。我们首先实现一下这个架构:

1
2
3
4
5
6
7
import torch
from torch import nn

def conv_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))

一个稠密块由多个卷积块组成,每个卷积块使用相同数量的输出通道。然而,在前向传播中,我们将每个卷积块的输入和输出在通道维上连结:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
class DenseBlock(nn.Module):
def __init__(self, num_convs, input_channels, num_channels):
super(DenseBlock, self).__init__()
layer = []
for i in range(num_convs):
layer.append(conv_block(num_channels * i + input_channels, num_channels))
self.net = nn.Sequential(*layer)

def forward(self, X):
for blk in self.net:
Y = blk(X)
# 连接通道维度上每个块的输入和输出
X = torch.cat((X, Y), dim=1)
return X

例如我们构建一个 DenseBlock(2, 3, 10),那么两层卷积层分别为 conv_block(3, 10)conv_block(13, 10)。第一层卷积输出的通道维是10,与输入 X 在通道维上连结后通道维是13,因此第二层卷积输入的通道维是13,第二层卷积输出的通道维是10,与输入 X 在通道维上连结后通道维是23:

1
2
3
4
blk = DenseBlock(2, 3, 10)
X = torch.randn(4, 3, 8, 8)
Y = blk(X)
print(Y.shape) # torch.Size([4, 23, 8, 8])

由于每个稠密块都会带来通道数的增加,使用过多则会过于复杂化模型。而过渡层可以用来控制模型复杂度。它通过1×1卷积层来减小通道数,并使用步幅为2的平均汇聚层减半高和宽,从而进一步降低模型复杂度:

1
2
3
4
5
def transition_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=1),
nn.AvgPool2d(kernel_size=2, stride=2))

对上一个例子中稠密块的输出使用通道数为10的过渡层。此时输出的通道数减为10,高和宽均减半:

1
2
blk = transition_block(23, 10)
print(blk(Y).shape) # torch.Size([4, 10, 4, 4])

我们来构造 DenseNet 模型。DenseNet 首先使用同 ResNet 一样的单卷积层和最大汇聚层:

1
2
3
4
b1 = nn.Sequential(
nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

接下来,类似于 ResNet 使用的4个残差块,DenseNet 使用的是4个稠密块。与 ResNet 类似,我们可以设置每个稠密块使用多少个卷积层。这里我们设成4,从而与之前的 ResNet-18 保持一致。稠密块里的卷积层通道数(即增长率)设为32,所以每个稠密块将增加128个通道。

在每个模块之间,ResNet 通过步幅为2的残差块减小高和宽,DenseNet 则使用过渡层来减半高和宽,并减半通道数:

1
2
3
4
5
6
7
8
9
10
11
12
# num_channels为当前的通道数
num_channels, growth_rate = 64, 32
num_convs_in_dense_blocks = [4, 4, 4, 4]
blks = []
for i, num_convs in enumerate(num_convs_in_dense_blocks):
blks.append(DenseBlock(num_convs, num_channels, growth_rate))
# 上一个稠密块的输出通道数
num_channels += num_convs * growth_rate
# 在稠密块之间添加一个转换层,使通道数量减半
if i != len(num_convs_in_dense_blocks) - 1:
blks.append(transition_block(num_channels, num_channels // 2))
num_channels = num_channels // 2

与 ResNet 类似,最后接上全局汇聚层和全连接层来输出结果:

1
2
3
4
5
6
net = nn.Sequential(
b1, *blks,
nn.BatchNorm2d(num_channels), nn.ReLU(),
nn.AdaptiveAvgPool2d((1, 1)),
nn.Flatten(),
nn.Linear(num_channels, 10))

最后我们读取数据集并进行训练,超参数设置:lr, num_epochs = 0.1, 15,将输入图像 Resize 为 (96, 96),训练过程与第一节内容一样,因此不再放出代码。

下一章:计算机视觉