一文读懂 CNN、RNN、LSTM 和 Transformer

whw2002116

于 2025-04-18 17:21:23 发布

阅读量609

点赞数 7

文章标签： rnn cnn lstm

本文链接：https://blog.csdn.net/whw2002116/article/details/147337144

版权

在人工智能的蓬勃发展中，神经网络是其中的关键技术。今天，咱们就一起来深入了解下 CNN、RNN、LSTM 和 Transformer 这几种常见的神经网络结构，看看它们是如何发挥作用的。
一、神奇的图像 “捕手”——CNN
卷积神经网络（CNN）主要用于处理图像数据，它就像一个训练有素的图像 “捕手”，能快速且精准地抓住图像的关键特征。
（一）网络结构
CNN 主要由卷积层、池化层和全连接层构成。卷积层是 “特征探测器”，它利用卷积核对图像进行扫描，像找宝藏一样找到图像中的边缘、纹理这些关键特征；池化层则是 “数据精简师”，它会对卷积层得到的数据进行压缩，减少数据量，还能防止模型过度学习；全连接层就是 “结果输出员”，它会根据前面处理的数据给出最终的分类或预测结果。
（二）解决问题
CNN 的两大 “绝技” 是提取特征和数据降维。在提取特征时，卷积层通过卷积核的滑动，把图像中隐藏的特征一点点挖掘出来；数据降维方面，池化层功不可没，它能在不影响图像关键信息的前提下，大幅减少数据量，让计算变得更轻松，还能避免模型出现过拟合的情况。
（三）工作原理
工作时，卷积层的卷积核就像一个小窗口，在图像上一格一格地滑动，计算窗口内像素与卷积核的乘积并求和，这样就能得到一个个小区域的特征值，完成初步的特征提取。接着，池化层会对这些特征进行下采样，把大的特征图变成小的，减少数据量。最后，经过卷积层和池化层处理的数据进入全连接层，全连接层综合这些信息，输出最终的结果。比如 LeNet - 5 这个经典的 CNN 模型，它是专门用来识别手写数字的，通过依次经过输入层、卷积层、池化层、卷积层、池化层、卷积层、全连接层和输出层，成功地实现了对手写数字的识别，为 CNN 的发展打下了坚实基础。
（四）实际应用
在日常生活中，CNN 的应用随处可见。在图像分类上，它能自动把各种图像分类整理，像在图像搜索里，能快速找到你想要的图片；在目标定位领域，它能在图像中精准找到目标的位置，自动驾驶汽车就靠这个技术来识别路上的行人、车辆；目标分割则是把图像按像素进行分类，视频裁剪就用到了这个功能；人脸识别也离不开 CNN，现在戴口罩都能识别，在身份认证方面发挥着重要作用。
二、处理序列数据的 “记忆大师”——RNN
循环神经网络（RNN）擅长处理序列数据，它就像一个拥有 “记忆” 的大师，能记住数据中的历史信息，做出更合理的决策。
（一）网络结构
RNN 由输入层、隐藏层和输出层组成。输入层负责接收数据，这里的输入可不是一次性的，还包含着序列中的历史信息；隐藏层是核心部分，它能捕捉数据中的时序依赖关系，就像一个 “记忆仓库”，不仅能记住当前的输入，还能结合之前的信息；输出层根据隐藏层的输出给出最终的预测结果。
（二）解决问题
RNN 主要解决序列数据处理和捕捉数据关联性的问题。对于像时间序列、语音、文本这类数据，每个数据的输出都和它前面的数据有关，RNN 就能很好地处理这种情况。而且，它的循环连接让网络可以利用之前输入的信息，影响后续的输出，从而更准确地处理序列数据。
（三）工作原理
以处理 “what time is it？” 这个句子为例，输入层先把句子进行分词，然后按顺序把单词一个个输入。在隐藏层，它会综合当前输入的单词和之前所有输入的信息，就像人回忆之前说过的话一样，让前面的信息影响后续的输出。最后，输出层根据隐藏层的信息，给出预测结果，比如 “Asking for the time”。
（四）应用场景
RNN 在很多领域都有应用。在文本数据处理方面，它可以处理文本中单词或字符的先后关系，实现文本分类、翻译；在语音数据处理上，能把语音信号转换成文字；时间序列数据处理中，像预测股票价格、分析气候变化等都能用到它；在视频数据处理时，能从视频帧序列里提取关键特征。在实际应用中，文本生成里，它能根据前文预测下一个单词，对话生成就用到了这个功能；机器翻译可以让它学习不同语言之间的转换规则，实现自动翻译；语音识别能把我们说的话变成文字，语音助手就是这样工作的；视频标记能为视频的每一帧生成对应的文字描述，帮助生成视频摘要。
三、解决长期依赖的 “智慧升级”——LSTM
长短期记忆网络（LSTM）是 RNN 的优化版本，它就像一个升级版的 “记忆大师”，专门解决 RNN 遇到的长期依赖和梯度问题。
（一）网络结构
LSTM 有一个细胞状态，就像一个 “长期记忆库”，负责保存长期依赖信息。它还有三个重要的门控结构：遗忘门、输入门和输出门。遗忘门决定从 “记忆库” 里扔掉哪些信息；输入门决定把哪些新信息存进 “记忆库”；输出门则决定从 “记忆库” 里拿出哪些信息用于当前的输出。
（二）解决问题
RNN 在处理长序列数据时，很难记住很久之前的信息，而且在反向传播过程中，梯度容易消失或爆炸，导致训练效果不好。LSTM 通过引入门控机制，成功解决了这些问题，让模型能更好地处理长期依赖信息。
（三）工作原理
输入门由一个 sigmoid 激活函数和一个 tanh 激活函数组成，sigmoid 函数筛选出重要的信息，tanh 函数生成新的候选信息，两者结合决定把哪些新信息添加到记忆单元。遗忘门只有一个 sigmoid 激活函数，它会判断哪些旧信息可以扔掉。输出门同样由 sigmoid 和 tanh 激活函数组成，sigmoid 函数确定输出哪些信息，tanh 函数对记忆单元的状态进行处理后输出。
（四）应用场景
在机器翻译中，LSTM 有编码器和解码器两个部分。编码器把源语言句子编码成一个固定长度的上下文向量，解码器根据这个向量生成目标语言的句子。在这个过程中，LSTM 会不断学习和优化，提高翻译的准确性。在情感分析里，LSTM 先对文本进行预处理，然后把文本转换为词向量序列，接着提取文本中的情感特征，最后通过分类层判断文本的情感倾向是积极、消极还是中立，并且通过不断优化，让情感分析更加准确。
四、引领变革的 “创新先锋”——Transformer
Transformer 是一种基于自注意力机制的神经网络结构，它在自然语言处理等领域带来了重大突破，就像一个创新先锋，改变了很多任务的处理方式。
（一）网络结构
Transformer 由输入部分、多层编码器、多层解码器和输出部分组成。输入部分会把文本中的词汇变成向量表示，还会加上位置编码，让模型知道每个词在句子中的位置。编码器由多个编码器层堆叠而成，每个编码器层都有多头自注意力子层和前馈全连接子层，能有效抽取特征。解码器同样由多个解码器层组成，每个解码器层有带掩码的多头自注意力子层、多头自注意力子层（编码器到解码器）和前馈全连接子层。输出部分通过线性层和 Softmax 层把解码器的输出转换为最终的预测结果。
（二）解决问题
Transformer 解决了长期依赖、并行计算和特征抽取这几个关键问题。在处理长序列数据时，它的自注意力机制能让模型关注到序列中不同位置的元素，有效捕捉长距离依赖关系。而且，它可以并行计算，不像传统 RNN 只能按顺序计算，大大提高了训练速度。同时，通过自注意力机制和多层神经网络，它能从输入序列中抽取丰富的特征，为后续任务提供有力支持。
（三）工作原理
Transformer 的工作过程比较复杂。首先，对输入的 Query、Key 和 Value 向量进行线性变换，把它们映射到不同的子空间。然后，将这些向量分割成多个头，每个头独立计算注意力分数，这个分数决定了模型对 Value 向量不同部分的关注程度。接着，根据注意力权重对 Value 向量进行加权，得到中间输出。最后，把所有头的输出拼接起来，再经过线性变换，就得到了最终的 Multi - Head Attention 输出。
（四）基于 Transformer 的模型
BERT 和 GPT 是两个基于 Transformer 的著名预训练语言模型。BERT 的创新之处在于使用了双向 Transformer 编码器，这样它就能同时考虑输入序列前后的上下文信息。在输入层，它有 Token Embeddings、Segment Embeddings 和 Position Embeddings，分别把单词、句子区分和位置信息转换为向量。编码层用双向 Transformer 编码器进行编码，输出层有 MLM 输出层和 NSP 输出层，分别用于预测被掩码的单词和判断句子对是否连续。GPT 则使用单向 Transformer 编码器，能更好地捕捉输入序列的上下文信息。它的输入层把单词转换为向量表示，编码层用单向 Transformer 编码器进行编码和生成，输出层通过线性输出层和 Softmax 函数进行词汇选择或生成下一个单词。