[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

最新推荐文章于 2024-08-14 15:20:01 发布

N刻后告诉你

最新推荐文章于 2024-08-14 15:20:01 发布

阅读量561

点赞数 6

分类专栏：深度学习文章标签：学习笔记 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangyifeng_1995/article/details/135733746

版权

深度学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

RNN存在信息瓶颈的问题。
注意力机制的核心就是在decoder的每一步，都把encoder的所有向量提供给decoder模型。
在这里插入图片描述

具体的例子

先获得encoder隐向量的一个注意力分数。

在这里插入图片描述

注意力机制的各种变体

一：直接点积
二：中间乘以一个矩阵
三：Additive attention：使用一层前馈神经网络来获得注意力分数
…

Transformer概述

在这里插入图片描述

输入层

BPE（Byte Pair Encoding)

在这里插入图片描述
BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。

在这里插入图片描述

位置编码Positional Encoding

在这里插入图片描述

Transformer Block

在这里插入图片描述

attention层

在这里插入图片描述
不进行scale，则方差会很大。则经过softmax后，有些部分会很尖锐，接近1。

在这里插入图片描述

多头注意力机制

在这里插入图片描述

Transformer Decoder Block

mask保证了文本生成是顺序生成的。
在这里插入图片描述

其他Tricks

在这里插入图片描述

Transformer的优缺点

缺点：模型对参数敏感，优化困难；处理文本复杂度是文本长度的平方数量级。
在这里插入图片描述

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。
word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了，如Bert。

PLMs的两种范式

1.feature提取器：预训练好模型后，feature固定。典型的如word2vec和Elmo
2.对整个模型的参数进行更新
在这里插入图片描述

GPT

在这里插入图片描述

BERT

不同于GPT，BERT是双向的预训练模型。使用的是基于Mask的数据。
它的最主要的预训练任务是预测mask词。
还有一个是预测下一个句子。

在这里插入图片描述

PLMs after BERT

BERT的问题：
尽管BERT采用了一些策略，使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。
预训练效率低。
窗口大小受限。
在这里插入图片描述

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。
在这里插入图片描述

在这里插入图片描述

MLM任务的应用

跨语言对齐

在这里插入图片描述

跨模态对齐

在这里插入图片描述

PLM前沿

GPT3

在这里插入图片描述

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度，负载均衡。
在这里插入图片描述

Transformers教程

介绍

在这里插入图片描述

使用Transformers的Pipeline

在这里插入图片描述

Tokenization

在这里插入图片描述

常用API

在这里插入图片描述

N刻后告诉你

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。