大模型时代--聊聊神经网络发展史

zwxu_

于 2024-08-12 08:17:46 发布

阅读量158

点赞数 5

分类专栏：大模型专栏文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/xzw_910918/article/details/141116972

版权

大模型专栏专栏收录该内容

3 篇文章 0 订阅

订阅专栏

三、支持多维数据的神经网络---CNN.. 5

3.1 定义... 5

3.2 适用场景... 6

3.3 优劣势... 6

3.4 全连接层/卷积层/池化层... 6

四、支持上下文记忆的神经网络---RNN.. 6

4.5 RNN进化版Transformers. 11

五、注意力机制---Attention. 11

5.1 为什么需要... 11

5.2 attention对RNN的提升案例分享... 12

5.3 attention和self-attention区别... 13

一、机器学习

1.1定义

如果一个计算机程序针对某类任务T可以用性能P衡量，并且能通过经验E来自我完善，则计算机可以在经验E中学习任务T，这就是机器学习方法。

1.2 分类

思考：逻辑回归也属于回归方法吗？

答: 不属于，本质是用线性回归模型预测某个分类的概率

思考：为什么说强化学习是最接近人工智能的一个机器学习领域？

因为强化学习的行为主体是一个在某种环境中独立运行的Agent（可以理解为“机器人”），它可以通过训练获得在该环境中的最佳行为模式。

强化学习

二、传统神经网络

2.1深度学习与机器学习区别

深度学习与机器学习主要区别是在数据处理上，一方面深度学习可以处理没有预定义特征的非结构化数据，例如图像、文本或声音，另一方面深度学习通过使用多层神经元从原始数据中自动提取特征，例如同样对花进行分类，机器学习需要提前测量测量花瓣长度、花瓣宽度、萼片长度、萼片宽度等特征。例如同样进行人脸识别，机器学习需要提前基于PCA/LDA提取人脸全局特征向量，或基于HOG/LBP提前人脸各个局部特征向量。

注：

特征提取作用是减少数据维度，提取或整理有效特征。例如，判断一个学生是否优秀，实际特征有文化课成绩、竞赛成绩、道德、家庭背景、身高、年龄、去图书馆频率，最后决策最终特征的过程就是特征提取。

机器学习和深度学习对比

2.2定义

单层感知机一般仅包含输入层、输出层，无法解决异或问题即非线性问题。引入隐藏层即多层感知机，通过多层反向传播更新权重，正向计算更新结果方式解决异或问题。当隐藏层层数更深，便解决更复杂问题，即为DNN(Deep Neural Networks）深度神经网络。

异或问题

深度神经网络

2.3算子

深度学习算法由一个个计算单元组成，我们称这些计算单元为算子（Operator，简称OP）。在网络模型中，算子对应层中的计算逻辑，例如：卷积层（Convolution Layer）是一个算子；全连接层（Fully-connected Layer， FC layer）中的权值求和过程，是一个算子。

三、支持多维数据的神经网络---CNN

3.1 定义

CNN即在传统神经网络基础上，增加卷积处理，即不断分层提取。

CNN网络结构

3.2 适用场景

适用场景：CNN主要应用于图像处理领域，如图像分类、目标检测和人脸识别等任务。它通过卷积层提取空间特征，非常适合于具有明显空间结构的数据。

3.3 优劣势

优点：CNN能够有效地提取局部特征，并通过权重共享减少模型参数数量，提高计算效率。

缺点：CNN通常需要固定大小的输入，且对于序列数据的时序关系建模不如RNN直接。

3.4 全连接层/卷积层/池化层

以32*32*3的图片为例

全连接层是将图片展开，变成3072维的向量

卷积层是在保持图片空间结构基础上，利用一个卷积核进行卷积运算，如图所示

池化层对卷积层进行固定规则压缩，最终得到了一个28*28*1的图像

卷积运算

备注:

填充:为了保证卷积后的矩阵长宽一致,当卷积矩阵变小进行填充

四、支持上下文记忆的神经网络---RNN

4.1 定义

RNN即在传统神经网络基础上，增加时间记忆，即上下文记忆

RNN网络结构

4.2 适用场景

适用场景：RNN特别适合处理序列数据，如文本、语音或时间序列数据。它能够捕捉序列中的依赖关系，因为其结构设计允许信息在序列的时间步之间传递。

4.3 优劣势

优点：RNN可以处理任意长度的序列，并且理论上可以捕捉长期依赖。

缺点：RNN存在梯度消失或梯度爆炸的问题，难以学习到长距离的依赖关系。

4.2 上下文示例

单看games是游戏，组合beijing是比赛，组合2022、winter是冬奥会

4.3 多种模式

模式1:一对一，即预测下一个词，应用场景有股票预测，场景分类

模式2:一对多，应用场景有图片内容识别

模式3:多对一，应用场景有文本情感识别

模式4:多对多(N对N)，应用场景有对联，文章，诗歌(注：训练的输入和输出等长)

模式5:多对多(N对M)，应用案例有语音识别、机器翻译、DNA序列分析、文本摘要生成

4.4 RNN变体LSTM

Lucy为了解决失忆问题，只记得前一天事情，所以需要日记本记录每天事情，删除之前日志，并新增当前日志

对比总结:

优点：LSTM通过引入门控机制解决了传统RNN的梯度消失问题，能够更好地学习长期依赖。

缺点：LSTM的模型结构相对复杂，计算量较大。

4.5 RNN进化版Transformers

Transformer 模型使用了Multi-Head Attention 包含多个 Self-Attention 层， Self-Attention 机制不采用 RNN 的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

过程中不依赖顺序箭头，此时games是重点，别人单词一起加权，例如看人，喜欢看某个部位

对比总结:

优点：Transformers通过自注意力机制能够并行计算，获得全局上下文信息，解决了RNN的顺序处理限制，提高了处理长序列数据的效率和准确性。

缺点：Transformers在位置信息编码上存在一定问题，且对局部信息的获取不如CNN强。

视觉注意力机制是人类大脑的一种天生的能力。当我们看到一幅图片时，先是快速扫过图片，然后锁定需要重点关注的目标区域。比如当我们观察上述图片时，注意力很容易就集中在了人脸、文章标题和文章首句等位置。试想，如果每个局部信息都不放过，那么必然耗费很多精力，不利于人类的生存进化。同样地，在深度学习网络中引入类似的机制，可以简化模型，加速计算。同样长距离“记忆”能力一直是个大难题，而引入“注意力机制”也能有效缓解这一问题。

总得来说，会对前面提到的几种深度学习方法，进一步加强。

5.2 attention对RNN的提升案例分享

为了解决LSTM这一由长序列到定长向量(即Encoder-Decoder结构先将输入数据编码成一个上下文语义向量c)转化而造成的信息损失的瓶颈，Attention注意力机制被引入了。

当我们翻译“knowledge”时，只需将注意力放在源句中“知识”的部分。这样，当我们decoder预测目标翻译的时候就可以看到encoder的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长程的信息。

5.3 attention和self-attention区别

Self-attention(不依赖顺序关注全局信息)和attention(依赖顺序关注最重要的部分)都是用于机器学习和自然语言处理的技术，但它们的应用场景有一些不同。

Self-attention的应用场景:

1. 语言建模: 在自然语言处理中，self-attention可以用于语言建模，帮助模型理解句子中各个词语之间的关系和依赖。

2. 机器翻译: 在机器翻译任务中，self-attention可以用于捕捉输入句子中不同词语之间的依赖关系，帮助模型更好地理解句子的含义。

3. 文本分类: 在文本分类任务中，self-attention可以帮助模型关注输入文本中最重要的信息，提高分类的准确性。(歧义表达)

Attention的应用场景:

1. 图像处理: 在图像处理中，attention可以用于目标检测和图像分割，帮助模型关注图像中最重要的部分。

2. 语音识别: 在语音识别任务中，attention可以帮助模型关注语音信号中最重要的部分，提高识别的准确性。

3. 强化学习: 在强化学习中，attention可以帮助智能体集中注意力在最重要的状态或动作上，提高学习的效率。

示例:

Self-attention的示例:

在机器翻译任务中，self-attention可以帮助模型理解输入句子中不同词语之间的依赖关系，从而更准确地进行翻译。

例如，对于输入句子"我喜欢看电影"，self-attention可以帮助模型理解"我"和"喜欢"之间的关系，以及"看"和"电影"之间的关系。

Attention的示例:

在图像处理中，attention可以帮助模型关注图像中最重要的部分，提高目标检测和图像分割的准确性。

例如，在目标检测任务中，attention可以帮助模型集中注意力在图像中可能包含目标的区域，提高检测的准确性。

六、迁移学习

6.1.定义

迁移学习是一种机器学习的方法，指的是一个预训练的模型被重新用在另一个任务中。

6.2 常见应用

Bert 和GPT都属于基于Transformer架构的预训练模型演化而来。

6.3 Bert和GPT对比

BERT和ChatGPT在设计、处理方式和适用任务上存在明显的差异。以下是具体分析：

设计：BERT是一个双向的预训练语言模型，它能够同时考虑文本的前后信息，这使得它在理解上下文方面更加强大。而ChatGPT是基于GPT系列的模型，使用单向语言模型，主要考虑文本前面的部分，这有助于生成连贯的文本序列。
处理方式：BERT通常用于判别式任务，如文本分类、命名实体识别等，它通过预测缺失的单词或句子来学习语言的深层表示。相反，ChatGPT在生成式任务中表现出色，如文本生成、自动回复等，它能够生成新的文本内容，特别是对话系统中的应用。
适用任务：ChatGPT特别适用于对话系统，因为它使用了基于人类反馈的监督学习和强化学习进行了微调，使得模型输出更符合人类的期待，并且能够拒绝不当问题和知识范围外的问题。而BERT则在各种自然语言处理任务上都取得了显著的成果，尤其是在需要深入理解文本含义的任务上。

注: BERT-base通常处理的最大长度为512个tokens，而BERT-large可以处理1024个tokens。超过这个长度的文本需要被截断，而不足的则需要进行填充。

BERT-base和GPT-4在处理tokens长度上的差异可能源于它们模型设计、预训练目标及应用场景的不同。具体分析如下：
模型设计：BERT-base通常采用的双向Transformer结构，在模型输入时会对整个句子进行编码，这意味着模型需要同时处理整个输入序列。由于计算资源的限制，BERT-base通常会设定一个最大长度限制，如512个tokens，以控制计算量和内存使用。而GPT-4采用的是单向Transformer结构，它通过自回归的方式从左到右生成文本，每次只关注已经生成的部分，因此在理论上可以处理更长的序列。
预训练目标：GPT-4在预训练时采用了语言建模任务，即预测下一个词，这种生成式任务使得GPT-4能够更好地处理长序列数据。而BERT-base的预训练任务包括掩码语言建模和下一句预测，这些任务需要模型对整个上下文有一个全面的把握，因此对序列长度有一定的限制。
应用场景：GPT-4的设计更适合于长文本生成、对话系统等场景，而BERT-base则更常用于文本分类、命名实体识别等任务，这些任务通常不需要非常长的输入序列。
综上所述，BERT-base和GPT-4在处理tokens长度上的差异可能是由于其在模型设计、预训练目标及应用场景上的不同所导致的。