卷积神经网络基础（CNN)

Yasmin ·

更新时间:2024-09-21

· 505 次阅读

文章目录卷积神经网络基础二维互相关运算二维卷积层互相关运算与卷积运算特征图和感受野填充和步幅填充步幅多输入通道和多输出通道多输入通道多输出通道1x1卷积层卷积层与全连接层的比较卷积层的pytorch实现池化层二维池化层池化层的pytorch实现 卷积神经网络基础 二维互相关运算

虽然卷积层得名于卷积（convolution）运算，但我们通常在卷积层中使用更加直观的互相关（cross-correlation）运算。在二维卷积层中，一个二维输入数组和一个二维核（kernel）数组通过互相关运算输出一个二维数组。
我们用一个具体例子来解释二维互相关运算的含义。如图5.1所示，输入是一个高和宽均为3的二维数组。我们将该数组的形状记为3×33 \times 33×3或（3，3）。核数组的高和宽分别为2。该数组在卷积计算中又称卷积核或过滤器（filter）。卷积核窗口（又称卷积窗口）的形状取决于卷积核的高和宽，即2×22 \times 22×2。图5.1中的阴影部分为第一个输出元素及其计算所使用的输入和核数组元素：0×0+1×1+3×2+4×3=190\times0+1\times1+3\times2+4\times3=190×0+1×1+3×2+4×3=19。

图5.1 二维互相关运算

在二维互相关运算中，卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当卷积窗口滑动到某一位置时，窗口中的输入子数组与核数组按元素相乘并求和，得到输出数组中相应位置的元素。图5.1中的输出数组高和宽分别为2，其中的4个元素由二维互相关运算得出：

0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43. 0\times0+1\times1+3\times2+4\times3=19,\\ 1\times0+2\times1+4\times2+5\times3=25,\\ 3\times0+4\times1+6\times2+7\times3=37,\\ 4\times0+5\times1+7\times2+8\times3=43.\\ 0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.

# 二维互相关运算核心示例
import torch 
import torch.nn as nn
def corr2d(X, K):
    H, W = X.shape
    h, w = K.shape
    Y = torch.zeros(H - h + 1, W - w + 1)
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
    return Y

二维卷积层

二维卷积层将输入和卷积核做互相关运算，并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。

# 二维卷积层的pytorch示例
class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super(Conv2D, self).__init__()
        self.weight = nn.Parameter(torch.randn(kernel_size))
        self.bias = nn.Parameter(torch.randn(1))
    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

互相关运算与卷积运算

实际上，卷积运算与互相关运算类似。为了得到卷积运算的输出，我们只需将核数组左右翻转并上下翻转，再与输入数组做互相关运算。可见，卷积运算和互相关运算虽然类似，但如果它们使用相同的核数组，对于同一个输入，输出往往并不相同。

那么，你也许会好奇卷积层为何能使用互相关运算替代卷积运算。其实，在深度学习中核数组都是学出来的：卷积层无论使用互相关运算或卷积运算都不影响模型预测时的输出。为了解释这一点，假设卷积层使用互相关运算学出图5.1中的核数组。设其他条件不变，使用卷积运算学出的核数组即图5.1中的核数组按上下、左右翻转。也就是说，输入与学出的已翻转的核数组再做卷积运算时，依然得到图5.1中的输出。为了与大多数深度学习文献一致，如无特别说明，本书中提到的卷积运算均指互相关运算。

特征图和感受野

二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。影响元素xxx的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做xxx的感受野（receptive field）。以图5.1为例，输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图5.1中形状为2×22 \times 22×2的输出记为YYY，并考虑一个更深的卷积神经网络：将YYY与另一个形状为2×22 \times 22×2的核数组做互相关运算，输出单个元素zzz。那么，zzz在YYY上的感受野包括YYY的全部四个元素，在输入上的感受野包括其中全部9个元素。可见，我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔，从而捕捉输入上更大尺寸的特征。

我们常使用“元素”一词来描述数组或矩阵中的成员。在神经网络的术语中，这些元素也可称为“单元”。当含义明确时，本书不对这两个术语做严格区分。

填充和步幅

我们使用高和宽为3的输入与高和宽为2的卷积核得到高和宽为2的输出。一般来说，假设输入形状是nh×nwn_h\times n_wnh×nw，卷积核窗口形状是kh×kwk_h\times k_wkh×kw，那么输出形状将会是

(nh−kh+1)×(nw−kw+1).(n_h-k_h+1) \times (n_w-k_w+1).(nh−kh+1)×(nw−kw+1).

所以卷积层的输出形状由输入形状和卷积核窗口形状决定。本节我们将介绍卷积层的两个超参数，即填充和步幅。它们可以对给定形状的输入和卷积核改变输出形状。

填充

填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素），图2里我们在原输入高和宽的两侧分别添加了值为0的元素。

一般来说，如果在高的两侧一共填充php_hph行，在宽的两侧一共填充pwp_wpw列，那么输出形状将会是

(nh−kh+ph+1)×(nw−kw+pw+1),(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1),(nh−kh+ph+1)×(nw−kw+pw+1),

也就是说，输出的高和宽会分别增加php_hph和pwp_wpw。

在很多情况下，我们会设置ph=kh−1p_h=k_h-1ph=kh−1和pw=kw−1p_w=k_w-1pw=kw−1来使输入和输出具有相同的高和宽。这样会方便在构造网络时推测每个层的输出形状。假设这里khk_hkh是奇数，我们会在高的两侧分别填充ph/2p_h/2ph/2行。如果khk_hkh是偶数，一种可能是在输入的顶端一侧填充⌈ph/2⌉\lceil p_h/2\rceil⌈ph/2⌉行，而在底端一侧填充⌊ph/2⌋\lfloor p_h/2\rfloor⌊ph/2⌋行。在宽的两侧填充同理。

卷积神经网络经常使用奇数高宽的卷积核，如1、3、5和7，所以两端上的填充个数相等。对任意的二维数组X，设它的第i行第j列的元素为X[i,j]。当两端上的填充个数相等，并使输入和输出具有相同的高和宽时，我们就知道输出Y[i,j]是由输入以X[i,j]为中心的窗口同卷积核进行互相关计算得到的。

步幅

卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。我们将每次滑动的行数和列数称为步幅（stride）。

目前我们看到的例子里，在高和宽两个方向上步幅均为1。我们也可以使用更大步幅。图5.3展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。可以看到，输出第一列第二个元素时，卷积窗口向下滑动了3行，而在输出第一行第二个元素时卷积窗口向右滑动了2列。当卷积窗口在输入上再向右滑动2列时，由于输入元素无法填满窗口，无结果输出。图5.3中的阴影部分为输出元素及其计算所使用的输入和核数组元素：0×0+0×1+1×2+2×3=80\times0+0\times1+1\times2+2\times3=80×0+0×1+1×2+2×3=8、0×0+6×1+0×2+0×3=60\times0+6\times1+0\times2+0\times3=60×0+6×1+0×2+0×3=6。

高和宽上步幅分别为3和2的二维互相关运算

一般来说，当高上步幅为shs_hsh，宽上步幅为sws_wsw时，输出形状为

⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋.\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor.⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋.

如果设置ph=kh−1p_h=k_h-1ph=kh−1和pw=kw−1p_w=k_w-1pw=kw−1，那么输出形状将简化为⌊(nh+sh−1)/sh⌋×⌊(nw+sw−1)/sw⌋\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor⌊(nh+sh−1)/sh⌋×⌊(nw+sw−1)/sw⌋。更进一步，如果输入的高和宽能分别被高和宽上的步幅整除，那么输出形状将是(nh/sh)×(nw/sw)(n_h/s_h) \times (n_w/s_w)(nh/sh)×(nw/sw)。

多输入通道和多输出通道

输入和输出都是二维数组，但真实数据的维度经常更高。例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。假设彩色图像的高和宽分别是hhh和www（像素），那么它可以表示为一个3×h×w3\times h\times w3×h×w的多维数组。我们将大小为3的这一维称为通道（channel）维。本节我们将介绍含多个输入通道或多个输出通道的卷积核。

多输入通道

当输入数据含多个通道时，我们需要构造一个输入通道数与输入数据的通道数相同的卷积核，从而能够与含多通道的输入数据做互相关运算。假设输入数据的通道数为cic_ici，那么卷积核的输入通道数同样为cic_ici。设卷积核窗口形状为kh×kwk_h\times k_wkh×kw。当ci=1c_i=1ci=1时，我们知道卷积核只包含一个形状为kh×kwk_h\times k_wkh×kw的二维数组。当ci>1c_i > 1ci>1时，我们将会为每个输入通道各分配一个形状为kh×kwk_h\times k_wkh×kw的核数组。把这cic_ici个数组在输入通道维上连结，即得到一个形状为ci×kh×kwc_i\times k_h\times k_wci×kh×kw的卷积核。由于输入和卷积核各有cic_ici个通道，我们可以在各个通道上对输入的二维数组和卷积核的二维核数组做互相关运算，再将这cic_ici个互相关运算的二维输出按通道相加，得到一个二维数组。这就是含多个通道的输入数据与多输入通道的卷积核做二维互相关运算的输出。

图5.4展示了含2个输入通道的二维互相关计算的例子。在每个通道上，二维输入数组与二维核数组做互相关运算，再按通道相加即得到输出。图5.4中阴影部分为第一个输出元素及其计算所使用的输入和核数组元素：(1×1+2×2+4×3+5×4)+(0×0+1×1+3×2+4×3)=56(1\times1+2\times2+4\times3+5\times4)+(0\times0+1\times1+3\times2+4\times3)=56(1×1+2×2+4×3+5×4)+(0×0+1×1+3×2+4×3)=56。

图5.4 含2个输入通道的互相关计算 多输出通道

当输入通道有多个时，因为我们对各个通道的结果做了累加，所以不论输入通道数是多少，输出通道数总是为1。设卷积核输入通道数和输出通道数分别为cic_ici和coc_oco，高和宽分别为khk_hkh和kwk_wkw。如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为ci×kh×kwc_i\times k_h\times k_wci×kh×kw的核数组。将它们在输出通道维上连结，卷积核的形状即co×ci×kh×kwc_o\times c_i\times k_h\times k_wco×ci×kh×kw。在做互相关运算时，每个输出通道上的结果由卷积核在该输出通道上的核数组与整个输入数组计算而来。

1x1卷积层

卷积窗口形状为1×11\times 11×1（kh=kw=1k_h=k_w=1kh=kw=1）的多通道卷积层。我们通常称之为1×11\times 11×1卷积层，并将其中的卷积运算称为1×11\times 11×1卷积。因为使用了最小窗口，1×11\times 11×1卷积失去了卷积层可以识别高和宽维度上相邻元素构成的模式的功能。实际上，1×11\times 11×1卷积的主要计算发生在通道维上。图5.5展示了使用输入通道数为3、输出通道数为2的1×11\times 11×1卷积核的互相关计算。值得注意的是，输入和输出具有相同的高和宽。输出中的每个元素来自输入中在高和宽上相同位置的元素在不同通道之间的按权重累加。假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么1×11\times 11×1卷积层的作用与全连接层等价。

1x1卷积核的互相关计算。输入和输出具有相同的高和宽 卷积层与全连接层的比较

二维卷积层经常用于处理图像，与此前的全连接层相比，它主要有两个优势：

一是全连接层把图像展平成一个向量，在输入图像上相邻的元素可能因为展平操作不再相邻，网络难以捕捉局部信息。而卷积层的设计，天然地具有提取局部信息的能力。

二是卷积层的参数量更少。使用卷积层可以以较少的参数数量来处理更大的图像。

卷积层的pytorch实现 in_channels (python:int) – Number of channels in the input imag out_channels (python:int) – Number of channels produced by the convolution kernel_size (python:int or tuple) – Size of the convolving kernel stride (python:int or tuple, optional) – Stride of the convolution. Default: 1 padding (python:int or tuple, optional) – Zero-padding added to both sides of the input. Default: 0 bias (bool, optional) – If True, adds a learnable bias to the output. Default: True

X = torch.rand(4, 2, 3, 5)
print(X.shape)
conv2d = nn.Conv2d(in_channels=2, out_channels=3, kernel_size=(3, 5), stride=1, padding=(1, 2))
Y = conv2d(X)
print('Y.shape: ', Y.shape)
print('weight.shape: ', conv2d.weight.shape)
print('bias.shape: ', conv2d.bias.shape)

池化层 二维池化层 二维最大池化层
同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出。不同于卷积层里计算输入和核的互相关性，池化层直接计算池化窗口内元素的最大值或者平均值。该运算也分别叫做最大池化或平均池化。在二维最大池化中，池化窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当池化窗口滑动到某一位置时，窗口中的输入子数组的最大值即输出数组中相应位置的元素。

图5.6 池化窗口形状为 2 x 2 的最大池化

池化窗口形状为2×22\times 22×2的最大池化，阴影部分为第一个输出元素及其计算所使用的输入元素。输出数组的高和宽分别为2，其中的4个元素由取最大值运算max\text{max}max得出：

max⁡(0,1,3,4)=4,max⁡(1,2,4,5)=5,max⁡(3,4,6,7)=7,max⁡(4,5,7,8)=8. \max(0,1,3,4)=4,\\ \max(1,2,4,5)=5,\\ \max(3,4,6,7)=7,\\ \max(4,5,7,8)=8.\\ max(0,1,3,4)=4,max(1,2,4,5)=5,max(3,4,6,7)=7,max(4,5,7,8)=8.

二维平均池化层

二维平均池化的工作原理与二维最大池化类似，但将最大运算符替换成平均运算符。池化窗口形状为p×qp \times qp×q的池化层称为p×qp \times qp×q池化层，其中的池化运算叫作p×qp \times qp×q池化。

让我们再次回到本节开始提到的物体边缘检测的例子。现在我们将卷积层的输出作为2×22\times 22×2最大池化的输入。设该卷积层输入是X、池化层输出为Y。无论是X[i, j]和X[i, j+1]值不同，还是X[i, j+1]和X[i, j+2]不同，池化层输出均有Y[i, j]=1。也就是说，使用2×22\times 22×2最大池化层时，只要卷积层识别的模式在高和宽上移动不超过一个元素，我们依然可以将它检测出来。

池化层的pytorch实现

X = torch.arange(32, dtype=torch.float32).view(1, 2, 4, 4)
# 平均池化层使用的是nn.AvgPool2d，使用方法与nn.MaxPool2d相同。
pool2d = nn.MaxPool2d(kernel_size=3, padding=1, stride=(2, 1))
Y = pool2d(X)
print(X)
print(Y)

作者：九号店

cnn 卷积神经网络神经网络网络基础卷积

1024 个赞