在人工智能的蓬勃发展中,神经网络是其中的关键技术。今天,咱们就一起来深入了解下 CNN、RNN、LSTM 和 Transformer 这几种常见的神经网络结构,看看它们是如何发挥作用的。
一、神奇的图像 “捕手”——CNN
卷积神经网络(CNN)主要用于处理图像数据,它就像一个训练有素的图像 “捕手”,能快速且精准地抓住图像的关键特征。
(一)网络结构
CNN 主要由卷积层、池化层和全连接层构成。卷积层是 “特征探测器”,它利用卷积核对图像进行扫描,像找宝藏一样找到图像中的边缘、纹理这些关键特征;池化层则是 “数据精简师”,它会对卷积层得到的数据进行压缩,减少数据量,还能防止模型过度学习;全连接层就是 “结果输出员”,它会根据前面处理的数据给出最终的分类或预测结果。
(二)解决问题
CNN 的两大 “绝技” 是提取特征和数据降维。在提取特征时,卷积层通过卷积核的滑动,把图像中隐藏的特征一点点挖掘出来;数据降维方面,池化层功不可没,它能在不影响图像关键信息的前提下,大幅减少数据量,让计算变得更轻松,还能避免模型出现过拟合的情况。
(三)工作原理
工作时,卷积层的卷积核就像一个小窗口,在图像上一格一格地滑动,计算窗口内像素与卷积核的乘积并求和,这样就能得到一个个小区域的特征值,完成初步的特征提取。接着,池化层会对这些特征进行下采样,把大的特征图变成小的,减少数据量。最后,经过卷积层和池化层处理的数据进入全连接层,全连接层综合这些信息,输出最终的结果。比如 LeNet - 5 这个经典的 CNN 模型,它是专门用来识别手写数字的,通过依次经过输入层、卷积层、池化层、卷积层、池化层、卷积层、全连接层和输出层,成功地实现了对手写数字的识别,为 CNN 的发展打下了坚实基础。
(四)实际应用
在日常生活中,CNN 的应用随处可见。在图像分类上,它能自动把各种图像分类整理,像在图像搜索里,能快速找到你想要的图片;在目标定位领域,它能在图像中精准找到目标的位置,自动驾驶汽车就靠这个技术来识别路上的行人、车辆;目标分割则是把图像按像素进行分类,视频裁剪就用到了这个功能;人脸识别也离不开 CNN,现在戴口罩都能识别,在身份认证方面发挥着重要作用。
二、处理序列数据的 “记忆大师”——RNN
循环神经网络(RNN)擅长处理序列数据,它就像一个拥有 “记忆” 的大师,能记住数据中的历史信息,做出更合理的决策。
(一)网络结构
RNN 由输入层、隐藏层和输出层组成。输入层负责接收数据,这里的输入可不是一次性的,还包含着序列中的历史信息;隐藏层是核心部分,它能捕捉数据中的时序依赖关系,就像一个 “记忆仓库”,不仅能记住当前的输入,还能结合之前的信息;输出层根据隐藏层的输出给出最终的预测结果。
(二)解决问题
RNN 主要解决序列数据处理和捕捉数据关联性的问题。对于像时间序列、语音、文本这类数据,每个数据的输出都和它前面的数据有关,RNN 就能很好地处理这种情况。而且,它的循环连接让网络可以利用之前输入的信息,影响后续的输出,从而更准确地处理序列数据。
(三)工作原理
以处理 “what time is it?” 这个句子为例,输入层先把句子进行分词,然后按顺序把单词一个个输入。在隐藏层,它会综合当前输入的单词和之前所有输入的信息,就像人回忆之前说过的话一样,让前面的信息影响后续的输出。最后,输出层根据隐藏层的信息,给出预测结果,比如 “Asking for the time”。
(四)应用场景
RNN 在很多领域都有应用。在文本数据处理方面,它可以处理文本中单词或字符的先后关系,实现文本分类、翻译;在语音数据处理上,能把语音信号转换成文字;时间序列数据处理中,像预测股票价格、分析气候变化等都能用到它;在视频数据处理时,能从视频帧序列里提取关键特征。在实际应用中,文本生成里,它能根据前文预测下一个单词,对话生成就用到了这个功能;机器翻译可以让它学习不同语言之间的转换规则,实现自动翻译;语音识别能把我们说的话变成文字,语音助手就是这样工作的;视频标记能为视频的每一帧生成对应的文字描述,帮助生成视频摘要。
三、解决长期依赖的 “智慧升级”——LSTM
长短期记忆网络(LSTM)是 RNN 的优化版本,它就像一个升级版的 “记忆大师”,专门解决 RNN 遇到的长期依赖和梯度问题。
(一)网络结构
LSTM 有一个细胞状态,就像一个 “长期记忆库”,负责保存长期依赖信息。它还有三个重要的门控结构:遗忘门、输入门和输出门。遗忘门决定从 “记忆库” 里扔掉哪些信息;输入门决定把哪些新信息存进 “记忆库”;输出门则决定从 “记忆库” 里拿出哪些信息用于当前的输出。
(二)解决问题
RNN 在处理长序列数据时,很难记住很久之前的信息,而且在反向传播过程中,梯度容易消失或爆炸,导致训练效果不好。LSTM 通过引入门控机制,成功解决了这些问题,让模型能更好地处理长期依赖信息。
(三)工作原理
输入门由一个 sigmoid 激活函数和一个 tanh 激活函数组成,sigmoid 函数筛选出重要的信息,tanh 函数生成新的候选信息,两者结合决定把哪些新信息添加到记忆单元。遗忘门只有一个 sigmoid 激活函数,它会判断哪些旧信息可以扔掉。输出门同样由 sigmoid 和 tanh 激活函数组成,sigmoid 函数确定输出哪些信息,tanh 函数对记忆单元的状态进行处理后输出。
(四)应用场景
在机器翻译中,LSTM 有编码器和解码器两个部分。编码器把源语言句子编码成一个固定长度的上下文向量,解码器根据这个向量生成目标语言的句子。在这个过程中,LSTM 会不断学习和优化,提高翻译的准确性。在情感分析里,LSTM 先对文本进行预处理,然后把文本转换为词向量序列,接着提取文本中的情感特征,最后通过分类层判断文本的情感倾向是积极、消极还是中立,并且通过不断优化,让情感分析更加准确。
四、引领变革的 “创新先锋”——Transformer
Transformer 是一种基于自注意力机制的神经网络结构,它在自然语言处理等领域带来了重大突破,就像一个创新先锋,改变了很多任务的处理方式。
(一)网络结构
Transformer 由输入部分、多层编码器、多层解码器和输出部分组成。输入部分会把文本中的词汇变成向量表示,还会加上位置编码,让模型知道每个词在句子中的位置。编码器由多个编码器层堆叠而成,每个编码器层都有多头自注意力子层和前馈全连接子层,能有效抽取特征。解码器同样由多个解码器层组成,每个解码器层有带掩码的多头自注意力子层、多头自注意力子层(编码器到解码器)和前馈全连接子层。输出部分通过线性层和 Softmax 层把解码器的输出转换为最终的预测结果。
(二)解决问题
Transformer 解决了长期依赖、并行计算和特征抽取这几个关键问题。在处理长序列数据时,它的自注意力机制能让模型关注到序列中不同位置的元素,有效捕捉长距离依赖关系。而且,它可以并行计算,不像传统 RNN 只能按顺序计算,大大提高了训练速度。同时,通过自注意力机制和多层神经网络,它能从输入序列中抽取丰富的特征,为后续任务提供有力支持。
(三)工作原理
Transformer 的工作过程比较复杂。首先,对输入的 Query、Key 和 Value 向量进行线性变换,把它们映射到不同的子空间。然后,将这些向量分割成多个头,每个头独立计算注意力分数,这个分数决定了模型对 Value 向量不同部分的关注程度。接着,根据注意力权重对 Value 向量进行加权,得到中间输出。最后,把所有头的输出拼接起来,再经过线性变换,就得到了最终的 Multi - Head Attention 输出。
(四)基于 Transformer 的模型
BERT 和 GPT 是两个基于 Transformer 的著名预训练语言模型。BERT 的创新之处在于使用了双向 Transformer 编码器,这样它就能同时考虑输入序列前后的上下文信息。在输入层,它有 Token Embeddings、Segment Embeddings 和 Position Embeddings,分别把单词、句子区分和位置信息转换为向量。编码层用双向 Transformer 编码器进行编码,输出层有 MLM 输出层和 NSP 输出层,分别用于预测被掩码的单词和判断句子对是否连续。GPT 则使用单向 Transformer 编码器,能更好地捕捉输入序列的上下文信息。它的输入层把单词转换为向量表示,编码层用单向 Transformer 编码器进行编码和生成,输出层通过线性输出层和 Softmax 函数进行词汇选择或生成下一个单词。
06-04
3752

04-16
1455
