机器学习笔记—7(李宏毅版)

Self-Supervised Learning
ELMo 94M
BERT 340M
ERNIE
Big Bird
GPT-2 1B
Megatron 8B
……

BERT十分巨大,有340M的参数

自监督学习 Data+训练,不需要Label,是Unsupervise-Learning的一种。

监督学习 Data+Label+训练

Masking Input
BERT transformer encoder,输入一排向量,输出一排长度相同的向量。
输入一个句子,随机盖住一些字,或者随机替换一些字。
盖住部分的输出做Linear和softmax,输出一个概率分布,那么就学习盖住部分输出内容的概率,那么就是一个字句的分类问题。

Next Sentence Prediction
将多个句子及其中间符号放入BEIRT,CLS符号预测句子之间是不是相互连接的。
Sentence Order Prediction
句子之间的顺序,ALBERT。
BERT方便用来做类似填空问题,以及填空题的下游问题。
Fine-tune微调,Pre-train预训练。

GLUE
微调出九个模型(机器学习会需要上下文或者限制条件)

BERT应该如何使用
case1,sequence–>class。在训练过程中,有Pre-train比Random Initialization要更好更快。整个BERT过程,pre-train+fine-tune是半监督式学习的。
case2,sequence–>same length sequence,比如判断句子中单词的词性。
case3,two sequence–>a class。例如NLI,从前提①能否推出假设②,判断两个句子之间的关系。
case4,QA问答系统,其中答案一定是出现在文章中的。输入一个问题和文章,输出两个整数,两个整数所在位置的单词及其单子之间的句子就是问题的答案。

BERT通过上下文判断一个词汇的意思。
BERT在蛋白质、DNA、音乐类型的分类上可以得到较好的结果。

Multi-lingual BERT

GPT系列模型
Predict Next Token,给出前一个token预测下一个token,类似于transformer的decoder,但是看不到下一个输入的字。
可以生成一篇完整的文章。
GPT的做法与BERT不同,“Few-shot” Learning,“One-shot” Learning,“Zero-shot” Learning
Self-supervised Learning 可以被用在文字、语音、图像等各种各样的应用上。

Auto-encoder,图片1–>encoder–>vector–>decoder–>图片2,将图片1这个高维度的向量通过encoder压缩成低纬度的向量,然后用这个低维度向量进行运算。

为什么压缩后还能再还原为图片2,从低维变成高维?因为图片的变化是十分有限的,所以可以在压缩后再还原,因为只有几种可能性。

将图片1加入杂讯后,再进行压缩Encoder、还原Decoder,Denoising的Auto-encoder,在还原时将noise也去掉。

Disentangle,将纠缠在一起的东西解开。因为vector可以通过decoder变回图片,说明vector中包含有图片的信息。Feature Disentangle想要知道vector中的各个维度代表着那些信息,这件事情是可行的。
例如声音转换,如果已经知道了encoder后的vector向量中,有哪些维度代表声音内容而另一些代表声音特征,那么可以获得向量A的声音内容和向量B的声音特征,进行组合,就可以完成声音的特征转换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值