机器学习李宏毅学习笔记19

log^3me

已于 2023-07-24 19:50:13 修改

阅读量190

点赞数

文章标签：机器学习学习笔记

于 2023-06-02 20:44:52 首次发布

本文链接：https://blog.csdn.net/weixin_46722934/article/details/131013833

版权

文章目录

前言
一、BERT有用的可能
二、Multi-Lingual BERT
三、GPT
四、Finetuning vs prompting 对大型语言模型
总结

前言

自监督学习（三）- BERT
自监督学习（四）GPT
Finetuning vs prompting

一、BERT有用的可能

为什么bert只会做填空题，但是有用呢。
一个常见的解释，文字经过bert之后，bert输出文字对应的向量（embedding），这些向量代表输入的字的意思。
在这里插入图片描述
什么叫代表意思：计算字对应的向量，意思越相近的字，向量间距离越小。考虑到上下文不同，相同字对应的向量也会不同（一字多意）。

如苹果汁的果和苹果手机的果，虽然都是果，但是经过encoder的self-attention考虑上下文，得出的向量是不同的。经过这样训练，bert在训练过程中，可能学到从上下文抽取资讯。
但是经过实验表明，bert的能力不完全来自于它看得懂文章，bert可能本来就是一个比较好的初始化参数，不见得和语义有关。Bert的功能还有待进一步的研究。

二、Multi-Lingual BERT

在训练的时候，拿各种各样的语言进行训练（中文英文法文等等），multi-lingual的bert用英文QA做训练，可以学会做中文QA的问题。
在这里插入图片描述

用中文训练，应用在中文测试的结果和经过bert 104种语言pre-train，训练在英语上，应用在中文上的的结果很相近。
一种可能的解释是对multi-lingual bert而言不同语言间没什么差异，比如兔子和rabbit的向量距离很近。在大量语言中训练中，学会这件事。
在这里插入图片描述
一个奇怪的点是，如果multi lingual bert可以把不同语言同样意思的符号的向量很接近。可是训练的时候是给英语做英文的填空，给中文做中文的填空，不会混在一起。如果不同语言间没有差别的话，可能会给英文空而填进去中文。那它应该是知道不同语言间的符号终究还是不一样的。把所有英文词汇给multi-lingual bert，把它们的embedding平均起来；同样把中文的，计算他们embedding的平均的，计算这两个均值的差距。把英文经过multi-lingual bert输出加上这个均值的差距向量，对multi-lingual bert而言就变成中文的句子。再让他做填空的时候，他就会填中文的。
在这里插入图片描述

三、GPT

BERT做的是填空题。GPT做的是预测接下来的token是什么。根据句子的开始得到的embedding输出下一个token。Embedding通过linear transform，在经过softmax得到一个分布，希望得到的分布和正确答案的cross entropy越小越好，也就是预测下一个出现的token是什么。
在这里插入图片描述

有一点像transformer的decoder。GPT可以预测下一个token，所以它有生成的能力，不断预测下一个token，可以产生一个完整的文章。

四、Finetuning vs prompting 对大型语言模型

在这里插入图片描述
对大型语言模型两种期待：成为专才和成为通才（目前chatgpt走的路线，在做翻译方面，chatgpt还是输给专门做翻译的商用软件。）
额外用人类语言来描述的指令叫做prompt

在这里插入图片描述
对期待一：对预训练模型做改造，改造第一个方面是加外挂，第二个方面是微调参数。
Bert相较于GPT只能做填空，无法做出一个问答，这种情况无法直接使用bert这个模型，就需要加上外挂。另外要微调这个语言模型内部的参数，准备一些成对的资料，如输入good morning就输出早安。Bert是无法输出一个完整的话的，所以需要加外挂，外挂是需要另外训练出来的。
在这里插入图片描述
Finetune的过程就是用语言模型原来的参数作为初始化，用成对的资料微调参数，用gradient descent update 模型参数。

Adapter：在模型上插入额外的模组（比如新增加一个layer等等），在finetune的时候，不去动模型本来的参数，只去微调adapter的参数。
在这里插入图片描述
语言模型都很大，这样每一个任务其实只存了adaptor。

为什么GPT系列没有跟bert一样去微调参数，两个猜想是，openai对于ai有比较高的期待，不屑于做微调，另一个猜想是，想另辟蹊径，如果跟bert一样微调，那么结果就会跟bert类似。

Chain of Thought（CoT），在做prompting的时候，如果直接给一个应用题，直接给出答案，希望机器可以做同样问题时，往往无法获得正确答案。但如果给出一定的推导过程和答案，希望这样，机器可以自己写推论过程，并获得正确答案。
在这里插入图片描述
由于gpt每次的答案都有随机性，如果获得多次答案，答案的结果相同，那么这个答案的可信度就更高一点。

可以让机器自己来找prompt。
比如输入一个描述，并给出成对的资料，让机器自己给出prompt。
在这里插入图片描述

总结

学习视频地址：（三）https://www.bilibili.com/video/BV13Z4y1P7D7/?p=20&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=3a369b537e1d34ff9ba8f8ab23afedec

（四）https://www.bilibili.com/video/BV13Z4y1P7D7/?p=21&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=3a369b537e1d34ff9ba8f8ab23afedec

https://www.bilibili.com/video/BV1TD4y137mP/?p=23&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=3a369b537e1d34ff9ba8f8ab23afedec

https://www.bilibili.com/video/BV1TD4y137mP?p=24&vd_source=3a369b537e1d34ff9ba8f8ab23afedec