机器学习笔记—7（李宏毅版）

最新推荐文章于 2024-04-29 15:35:29 发布

Cyan15

最新推荐文章于 2024-04-29 15:35:29 发布

阅读量101

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43567886/article/details/117150090

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Self-Supervised Learning
ELMo 94M
BERT 340M
ERNIE
Big Bird
GPT-2 1B
Megatron 8B
……

BERT十分巨大，有340M的参数

自监督学习 Data+训练，不需要Label，是Unsupervise-Learning的一种。

监督学习 Data+Label+训练

Masking Input
BERT transformer encoder，输入一排向量，输出一排长度相同的向量。
输入一个句子，随机盖住一些字，或者随机替换一些字。
盖住部分的输出做Linear和softmax，输出一个概率分布，那么就学习盖住部分输出内容的概率，那么就是一个字句的分类问题。

Next Sentence Prediction
将多个句子及其中间符号放入BEIRT，CLS符号预测句子之间是不是相互连接的。
Sentence Order Prediction
句子之间的顺序，ALBERT。
BERT方便用来做类似填空问题，以及填空题的下游问题。
Fine-tune微调，Pre-train预训练。

GLUE
微调出九个模型（机器学习会需要上下文或者限制条件）

BERT应该如何使用
case1，sequence–>class。在训练过程中，有Pre-train比Random Initialization要更好更快。整个BERT过程，pre-train+fine-tune是半监督式学习的。
case2，sequence–>same length sequence，比如判断句子中单词的词性。
case3，two sequence–>a class。例如NLI，从前提①能否推出假设②，判断两个句子之间的关系。
case4，QA问答系统，其中答案一定是出现在文章中的。输入一个问题和文章，输出两个整数，两个整数所在位置的单词及其单子之间的句子就是问题的答案。

BERT通过上下文判断一个词汇的意思。
BERT在蛋白质、DNA、音乐类型的分类上可以得到较好的结果。

Multi-lingual BERT

GPT系列模型
Predict Next Token，给出前一个token预测下一个token，类似于transformer的decoder，但是看不到下一个输入的字。
可以生成一篇完整的文章。
GPT的做法与BERT不同，“Few-shot” Learning，“One-shot” Learning，“Zero-shot” Learning
Self-supervised Learning 可以被用在文字、语音、图像等各种各样的应用上。

Auto-encoder，图片1–>encoder–>vector–>decoder–>图片2，将图片1这个高维度的向量通过encoder压缩成低纬度的向量，然后用这个低维度向量进行运算。

为什么压缩后还能再还原为图片2，从低维变成高维？因为图片的变化是十分有限的，所以可以在压缩后再还原，因为只有几种可能性。

将图片1加入杂讯后，再进行压缩Encoder、还原Decoder，Denoising的Auto-encoder，在还原时将noise也去掉。

Disentangle，将纠缠在一起的东西解开。因为vector可以通过decoder变回图片，说明vector中包含有图片的信息。Feature Disentangle想要知道vector中的各个维度代表着那些信息，这件事情是可行的。
例如声音转换，如果已经知道了encoder后的vector向量中，有哪些维度代表声音内容而另一些代表声音特征，那么可以获得向量A的声音内容和向量B的声音特征，进行组合，就可以完成声音的特征转换。