卷积（Convolution）介绍——从数学基础到深度学习应用

最新推荐文章于 2025-04-10 09:39:38 发布

小白的高手之路

最新推荐文章于 2025-04-10 09:39:38 发布

阅读量1.3k

点赞数 31

分类专栏： Pytorch实战深度学习（DL）文章标签：深度学习人工智能卷积神经网络 python 机器学习 pytorch cnn

本文链接：https://blog.csdn.net/weixin_70673823/article/details/146849842

版权

深度学习（DL）同时被 2 个专栏收录

19 篇文章

订阅专栏

Pytorch实战

15 篇文章

订阅专栏

卷积（Convolution）是数学、信号处理和深度学习中的核心概念。它在图像处理、语音识别、自然语言处理等领域发挥着重要作用。在信号与系统、数字信号处理等课程中应该已经接触过卷积的概念了，但对其实际应用未必了解。本文将深入浅出地解释卷积的原理、应用及其在深度学习中的实现。

1、卷积的数学定义

1.1 数学上的卷积运算

卷积是一种数学操作，用于描述两个函数（或信号）之间的相互作用。

连续形式：
$(f*g)(t)=\int_{-\infty}^\infty f(\tau)\cdot g(t-\tau)d\tau$
表示函数 $f$ 和 $g$ 在时间（或空间）上的滑动加权叠加。
离散形式（适用于数字信号和图像处理）：
$(f*g)[n]=\sum_{m=-\infty}^\infty f[m]\cdot g[n-m]$

1.2 直观理解

想象两个函数（如信号或图像）重叠部分的面积，卷积可以看作是一个函数（如滤波器）在另一个函数上滑动，每一步计算它们的乘积之和。

2、卷积在图像处理中的应用

在图像处理中，卷积用于提取局部特征（如边缘、纹理）。

示例：边缘检测
使用 Sobel 滤波器进行水平边缘检测：
$G_x= \begin{bmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{bmatrix}*\mathrm{Image}$
通过滑动滤波器计算每个像素点的梯度，突显垂直边缘。

卷积操作步骤（以3x3滤波器为例）：

将滤波器覆盖在图像的局部区域上。
对覆盖区域的像素值与滤波器权重逐元素相乘。
将乘积结果相加，得到输出特征图中的一个像素值。
滑动滤波器至下一位置，重复操作。

在这里插入图片描述

3、深度学习中的卷积层

在深度学习中，卷积层（Convolutional Layer）是卷积神经网络（CNN）的核心组件，用于自动学习图像的特征。

3.1 卷积层的核心概念

卷积核（Kernel / Filter）：
可学习的权重矩阵（如3x3、5x5），通过反向传播优化。
输入通道（Input Channels）：
输入数据的通道数（如RGB图像为3通道）。
输出通道（Output Channels）：
卷积核的数量，每个核生成一个输出通道的特征图。
步长（Stride）：
滤波器每次滑动的像素数（如步长2会使特征图尺寸减半）。
填充（Padding）：
在图像边缘补零，控制输出尺寸（如 padding=1 保持尺寸不变）。

3.2 输出尺寸计算

输入尺寸 $W×H×C_{in}$ ，卷积核 $K \times K$ ，输出尺寸为：
$W_{out} = [\frac{W_{in}+2\times padding-K}{stride}]+1$
同理 $H_{out}$ 计算方式相同。

4、卷积的变体

4.1 空洞卷积（Dilated Convolution）

作用：增大感受野（Receptive Field）而不增加参数量。
实现：在卷积核元素之间插入空格（空洞率）。

4.2 转置卷积（Transposed Convolution）

作用：实现上采样（如图像生成中的尺寸恢复）。
别名：反卷积（Deconvolution），但数学上并非严格的反操作。

4.3 深度可分离卷积（Depthwise Separable Convolution）

作用：减少参数量，提升计算效率（如MobileNet）。
步骤：
深度卷积：每个通道单独卷积。
逐点卷积：1x1卷积合并通道。

5、卷积在深度学习中的优势

局部感知（Local Connectivity）：
每个神经元仅连接输入区域的局部，减少参数量。
参数共享（Weight Sharing）：
同一卷积核在整张图像上滑动，增强泛化能力。
平移不变性（Translation Invariance）：
无论目标出现在图像何处，卷积核均可检测到。

6、代码示例（PyTorch）

import torch
import torch.nn as nn

# 定义卷积层：输入3通道，输出64通道，3x3核，步长1，填充1
conv_layer = nn.Conv2d(
    in_channels=3,
    out_channels=64,
    kernel_size=3,
    stride=1,
    padding=1
)

# 输入数据：batch_size=16, 3通道, 32x32图像
input_tensor = torch.randn(16, 3, 32, 32)

# 前向传播
output_tensor = conv_layer(input_tensor)
print(output_tensor.shape)  # 输出：[16, 64, 32, 32]