大模型时代--聊聊神经网络发展史

目录

一、机器学习... 2

1.1定义... 2

1.2 分类... 2

二、传统神经网络... 3

2.1深度学习与机器学习区别... 3

2.2定义... 4

2.3算子... 5

三、支持多维数据的神经网络---CNN.. 5

3.1 定义... 5

3.2 适用场景... 6

3.3 优劣势... 6

3.4 全连接层/卷积层/池化层... 6

四、支持上下文记忆的神经网络---RNN.. 6

4.1 定义... 6

4.2 适用场景... 7

4.3 优劣势... 7

4.2 上下文示例... 7

4.3 多种模式... 8

4.4 RNN变体LSTM.. 10

4.5 RNN进化版Transformers. 11

五、注意力机制---Attention. 11

5.1 为什么需要... 11

5.2 attention对RNN的提升案例分享... 12

5.3 attention和self-attention区别... 13

六、迁移学习... 13

6.1.定义... 13

6.2 常见应用... 14

6.3 Bert和GPT对比... 14

七、联邦学习... 15

7.1.定义... 15

7.2.常见概念... 15

一、机器学习

1.1定义

如果一个计算机程序针对某类任务T可以用性能P衡量,并且能通过经验E来自我完善,则计算机可以在经验E中学习任务T,这就是机器学习方法。

1.2 分类

思考:逻辑回归也属于回归方法吗?

答: 不属于,本质是用线性回归模型预测某个分类的概率

思考:为什么说强化学习是最接近人工智能的一个机器学习领域?

因为强化学习的行为主体是一个在某种环境中独立运行的Agent(可以理解为“机器人”​)​,它可以通过训练获得在该环境中的最佳行为模式。

强化学习

二、传统神经网络

2.1深度学习与机器学习区别

深度学习与机器学习主要区别是在数据处理上,一方面深度学可以理没有特征的构化数据,例如像、文本或声音,另一方面深度学使用多元从原始数据中自提取特征,例如同样对行分,机器学需要提前测量花瓣长度、花瓣宽度、萼片长度、萼片宽度等特征。例如同样进行人脸识别,机器学习需要提前基于PCA/LDA提取人脸全局特征向量,或基于HOG/LBP提前人脸各个局部特征向量。

注:

特征提取作用是减少数据维度,提取或整理有效特征。例如,判断一个学生是否优秀,实际特征有文化课成绩、竞赛成绩、道德、家庭背景、身高、年龄、去图书馆频率,最后决策最终特征的过程就是特征提取。

机器学习和深度学习对比

2.2定义

单层感知机一般仅包含输入层、输出层,无法解决异或问题即非线性问题。引入隐藏层即多层感知机,通过多层反向传播更新权重,正向计算更新结果方式解决异或问题。当隐藏层层数更深,便解决更复杂问题,即为DNN(Deep Neural Networks深度神经网络。

https://t11.baidu.com/it/fm=173&fmt=auto&h=498&img_PNG=&s=5CA83C724B264D2A1CD5D1DA0000C0B1&u=3408049303%2C2607204999&w=538

异或问题

深度神经网络

2.3算子

深度学习算法由一个个计算单元组成,我们称这些计算单元为算子(Operator,简称OP)。在网络模型中,算子对应层中的计算逻辑,例如:卷积层(Convolution Layer)是一个算子;全连接层(Fully-connected Layer, FC layer)中的权值求和过程,是一个算子。

三、支持多维数据的神经网络---CNN

3.1 定义

CNN即在传统神经网络基础上,增加卷积处理,即不断分层提取。

CNN网络结构

3.2 适用场景

适用场景:CNN主要应用于图像处理领域,如图像分类、目标检测和人脸识别等任务。它通过卷积层提取空间特征,非常适合于具有明显空间结构的数据。

3.3 优劣势

优点:CNN能够有效地提取局部特征,并通过权重共享减少模型参数数量,提高计算效率。

缺点:CNN通常需要固定大小的输入,且对于序列数据的时序关系建模不如RNN直接。

3.4 全连接层/卷积层/池化层

以32*32*3的图片为例

全连接层是将图片展开,变成3072维的向量

卷积层是在保持图片空间结构基础上,利用一个卷积核进行卷积运算,如图所示

池化层对卷积层进行固定规则压缩,最终得到了一个28*28*1的图像

卷积运算

备注:

填充:为了保证卷积后的矩阵长宽一致,当卷积矩阵变小进行填充

四、支持上下文记忆的神经网络---RNN

4.1 定义

RNN即在传统神经网络基础上,增加时间记忆,即上下文记忆

RNN网络结构

4.2 适用场景

适用场景:RNN特别适合处理序列数据,如文本、语音或时间序列数据。它能够捕捉序列中的依赖关系,因为其结构设计允许信息在序列的时间步之间传递。

4.3 优劣势

优点:RNN可以处理任意长度的序列,并且理论上可以捕捉长期依赖。

缺点:RNN存在梯度消失或梯度爆炸的问题,难以学习到长距离的依赖关系。

4.2 上下文示例

单看games是游戏,组合beijing是比赛,组合2022、winter是冬奥会

4.3 多种模式

模式1:一对一,即预测下一个词,应用场景有股票预测,场景分类

模式2:一对多,应用场景有图片内容识别

https://s8.51cto.com/oss/202204/22/59b56673001be4a14e4532e184264220ba9c3c.jpg

模式3:多对一,应用场景有文本情感识别

https://s7.51cto.com/oss/202204/22/e55303f913fe685f45f47003dacf1410527a67.jpg

模式4:多对多(N对N),应用场景有对联,文章,诗歌(注:训练的输入和输出等长)

模式5:多对多(N对M),应用案例有语音识别、机器翻译、DNA序列分析、文本摘要生成

4.4 RNN变体LSTM

Lucy为了解决失忆问题,只记得前一天事情,所以需要日记本记录每天事情,删除之前日志,并新增当前日志

对比总结:

优点:LSTM通过引入门控机制解决了传统RNN的梯度消失问题,能够更好地学习长期依赖。

缺点:LSTM的模型结构相对复杂,计算量较大。

4.5 RNN进化版Transformers

Transformer 模型使用了Multi-Head Attention 包含多个 Self-Attention 层, Self-Attention 机制不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。

过程中不依赖顺序箭头,此时games是重点,别人单词一起加权,例如看人,喜欢看某个部位

对比总结:

优点:Transformers通过自注意力机制能够并行计算,获得全局上下文信息,解决了RNN的顺序处理限制,提高了处理长序列数据的效率和准确性。

缺点:Transformers在位置信息编码上存在一定问题,且对局部信息的获取不如CNN强。

五、注意力机制---Attention

5.1 为什么需要

视觉注意力机制是人类大脑的一种天生的能力。当我们看到一幅图片时,先是快速扫过图片,然后锁定需要重点关注的目标区域。比如当我们观察上述图片时,注意力很容易就集中在了人脸、文章标题和文章首句等位置。试想,如果每个局部信息都不放过,那么必然耗费很多精力,不利于人类的生存进化。同样地,在深度学习网络中引入类似的机制,可以简化模型,加速计算。同样长距离记忆能力一直是个大难题,而引入注意力机制也能有效问题

得来,会对前面提到的几种深度学习方法,进一步加强。

5.2 attention对RNN的提升案例分享

为了解决LSTM这一由长序列到定长向量(即Encoder-Decoder结构先将输入数据编码成一个上下文语义向量c)转化而造成的信息损失的瓶颈,Attention注意力机制被引入了。

https://pic4.zhimg.com/v2-f95ce1ee244fa9d0f055f263d3158a93_r.jpg

当我们翻译“knowledge”时,只需将注意力放在源句中“知识”的部分。这样,当我们decoder预测目标翻译的时候就可以看到encoder的所有信息,而不仅局限于原来模型中定长的隐藏向量,并且不会丧失长程的信息。

5.3 attention和self-attention区别

Self-attention(不依赖顺序关注全局信息)和attention(依赖顺序关注最重要的部分)都是用于机器学习和自然语言处理的技术,但它们的应用场景有一些不同。

Self-attention的应用场景:

1. 语言建模: 在自然语言处理中,self-attention可以用于语言建模,帮助模型理解句子中各个词语之间的关系和依赖。

2. 机器翻译: 在机器翻译任务中,self-attention可以用于捕捉输入句子中不同词语之间的依赖关系,帮助模型更好地理解句子的含义。

3. 文本分类: 在文本分类任务中,self-attention可以帮助模型关注输入文本中最重要的信息,提高分类的准确性。(歧义表达)

Attention的应用场景:

1. 图像处理: 在图像处理中,attention可以用于目标检测和图像分割,帮助模型关注图像中最重要的部分。

2. 语音识别: 在语音识别任务中,attention可以帮助模型关注语音信号中最重要的部分,提高识别的准确性。

3. 强化学习: 在强化学习中,attention可以帮助智能体集中注意力在最重要的状态或动作上,提高学习的效率。

示例:

Self-attention的示例:

在机器翻译任务中,self-attention可以帮助模型理解输入句子中不同词语之间的依赖关系,从而更准确地进行翻译。

例如,对于输入句子"我喜欢看电影",self-attention可以帮助模型理解"我"和"喜欢"之间的关系,以及"看"和"电影"之间的关系。

Attention的示例:

在图像处理中,attention可以帮助模型关注图像中最重要的部分,提高目标检测和图像分割的准确性。

例如,在目标检测任务中,attention可以帮助模型集中注意力在图像中可能包含目标的区域,提高检测的准确性。

六、迁移学习

6.1.定义

迁移学是一种机器学的方法,指的是一个预训练的模型被重新用在另一个任中。

6.2 常见应用

Bert 和GPT都属于基于Transformer架构的预训练模型演化而来。

6.3 Bert和GPT对比

BERTChatGPT在设计、处理方式和适用任务上存在明显的差异。以下是具体分析:

  1. 设计:BERT是一个双向的预训练语言模型,它能够同时考虑文本的前后信息,这使得它在理解上下文方面更加强大。而ChatGPT是基于GPT系列的模型,使用单向语言模型,主要考虑文本前面的部分,这有助于生成连贯的文本序列。
  2. 处理方式:BERT通常用于判别式任务,如文本分类、命名实体识别等,它通过预测缺失的单词或句子来学习语言的深层表示。相反,ChatGPT生成式任务中表现出色,如文本生成、自动回复等,它能够生成新的文本内容,特别是对话系统中的应用。
  3. 适用任务:ChatGPT特别适用于对话系统,因为它使用了基于人类反馈的监督学习和强化学习进行了微调,使得模型输出更符合人类的期待,并且能够拒绝不当问题和知识范围外的问题。而BERT则在各种自然语言处理任务上都取得了显著的成果,尤其是在需要深入理解文本含义的任务上。

: BERT-base通常处理的最大长度为512tokens,而BERT-large可以处理1024tokens。超过这个长度的文本需要被截断,而不足的则需要进行填充。

  1. BERT-baseGPT-4在处理tokens长度上的差异可能源于它们模型设计、预训练目标及应用场景的不同。具体分析如下:
  2. 模型设计:BERT-base通常采用的双向Transformer结构,在模型输入时会对整个句子进行编码,这意味着模型需要同时处理整个输入序列。由于计算资源的限制,BERT-base通常会设定一个最大长度限制,如512tokens,以控制计算量和内存使用。而GPT-4采用的是单向Transformer结构,它通过自回归的方式从左到右生成文本,每次只关注已经生成的部分,因此在理论上可以处理更长的序列。
  3. 预训练目标:GPT-4在预训练时采用了语言建模任务,即预测下一个词,这种生成式任务使得GPT-4能够更好地处理长序列数据。而BERT-base的预训练任务包括掩码语言建模和下一句预测,这些任务需要模型对整个上下文有一个全面的把握,因此对序列长度有一定的限制。
  4. 应用场景:GPT-4的设计更适合于长文本生成、对话系统等场景,而BERT-base则更常用于文本分类、命名实体识别等任务,这些任务通常不需要非常长的输入序列。
  5. 综上所述,BERT-baseGPT-4在处理tokens长度上的差异可能是由于其在模型设计、预训练目标及应用场景上的不同所导致的。

七、联邦学习

7.1.定义

不共享对方的数据但是共享对方的模型参数实现云端的分布式模型训练。

7.2.常见概念

样本就是数据种类或说用户数据

特征就是数据特征或说业务数据

横向联邦学习为样本联合,适合用户不同,业务数据相同场景,即不同地区银行业务

纵向联邦学习为特征联合,适合业务不同,用户数据相同场景,即同一个地区的银行和超市

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值