G1D32-计算二项式系数&Transformer

一、计算二项式系数

好像也没啥好说的~

二、Transformer

其实忘记的不是transformer,而是seq2seq。好吧,那就一起来复习一下hhh

(一)seq2seq

1、what

这个任务任务啊,就是序列到序列嘛

2、how

一般用encoder和decoder来解决。
encoder负责对输入信息进行编码,综合整体的输入信息;
decoder负责实现预测任务。

3、分类

根据是否依赖预测出的序列结果,可将decoder分为Autoregressive(AT)和Non Autogressive(NAT)。

4、训练和预测

一般来说,用Autoregressive。其在训练时,用ground truth计算误差,然后把ground truth作为下一个预测的input;在预测时,用预测出来的值(可能不对哦),投喂到decoder中,做下一个值的预测。

(二)Transformer

transformer就是一个seq2seq结构的模型。
它的encoder和decoder都是用多层堆叠的自注意力机制实现的。
decoder和encoder之间用交叉注意力实现。

(三)Bert和Transformer的爱恨情仇

BERT主要解决翻译问题。
它使用了很多transformer的encoder进行堆叠。
训练任务是NSP和MLM

(四)Bert和GPT

GPT中因为要完成语言模型的训练,也就要求Pre-Training预测下一个词的时候只能够看见当前以及之前的词,这也是GPT放弃原本Transformer的双向结构转而采用单向结构的原因。

BERT为了能够同时得到上下文的信息,而不是像GPT一样完全放弃下文信息,采用了双向的Transformer。但是这样一来,就无法再像GPT一样采用正常的语言模型来预训练了,因为BERT的结构导致每个Transformer的输出都可以看见整个句子的,无论你用这个输出去预测什么,都会“看见”参考答案,也就是“see
itself”的问题

(五)对于pre-train和fine-tune的重新理解

pretrain,不论是bert还是gpt,其实都是在transformer的encoder上做了一些改进(或者没有),然后用大量数据训练模型。
fine-tune,就是在具体任务上的微调参数方法(也是解决任务的方法),就像菜谱一样,告诉你如何做饭,如何处理nlp中的经典任务,例如分类、推理、相似度对比blabla

(六)自回归语言模型VS 自编码语言模型

好吧,其实就是,只看上文(GPT)和看上下文(做cloze(MLM:mask language model)训练的bert)

----2109
emmmmm,来不及了,要g了,急速看一眼ppt

N、杂

(一)word中公式编号

1、word中公式
用#,插入阈,回车
https://blog.csdn.net/weixin_42327752/article/details/121777339
2、mathtype
直接插入编号就好啦
3、word中插入伪代码
https://www.neusncp.com/user/blog?id=329

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值