一、计算二项式系数
好像也没啥好说的~
二、Transformer
其实忘记的不是transformer,而是seq2seq。好吧,那就一起来复习一下hhh
(一)seq2seq
1、what
这个任务任务啊,就是序列到序列嘛
2、how
一般用encoder和decoder来解决。
encoder负责对输入信息进行编码,综合整体的输入信息;
decoder负责实现预测任务。
3、分类
根据是否依赖预测出的序列结果,可将decoder分为Autoregressive(AT)和Non Autogressive(NAT)。
4、训练和预测
一般来说,用Autoregressive。其在训练时,用ground truth计算误差,然后把ground truth作为下一个预测的input;在预测时,用预测出来的值(可能不对哦),投喂到decoder中,做下一个值的预测。
(二)Transformer
transformer就是一个seq2seq结构的模型。
它的encoder和decoder都是用多层堆叠的自注意力机制实现的。
decoder和encoder之间用交叉注意力实现。
(三)Bert和Transformer的爱恨情仇
BERT主要解决翻译问题。
它使用了很多transformer的encoder进行堆叠。
训练任务是NSP和MLM
(四)Bert和GPT
GPT中因为要完成语言模型的训练,也就要求Pre-Training预测下一个词的时候只能够看见当前以及之前的词,这也是GPT放弃原本Transformer的双向结构转而采用单向结构的原因。
BERT为了能够同时得到上下文的信息,而不是像GPT一样完全放弃下文信息,采用了双向的Transformer。但是这样一来,就无法再像GPT一样采用正常的语言模型来预训练了,因为BERT的结构导致每个Transformer的输出都可以看见整个句子的,无论你用这个输出去预测什么,都会“看见”参考答案,也就是“see
itself”的问题
(五)对于pre-train和fine-tune的重新理解
pretrain,不论是bert还是gpt,其实都是在transformer的encoder上做了一些改进(或者没有),然后用大量数据训练模型。
fine-tune,就是在具体任务上的微调参数方法(也是解决任务的方法),就像菜谱一样,告诉你如何做饭,如何处理nlp中的经典任务,例如分类、推理、相似度对比blabla
(六)自回归语言模型VS 自编码语言模型
好吧,其实就是,只看上文(GPT)和看上下文(做cloze(MLM:mask language model)训练的bert)
----2109
emmmmm,来不及了,要g了,急速看一眼ppt
N、杂
(一)word中公式编号
1、word中公式
用#,插入阈,回车
https://blog.csdn.net/weixin_42327752/article/details/121777339
2、mathtype
直接插入编号就好啦
3、word中插入伪代码
https://www.neusncp.com/user/blog?id=329