预训练好的⽂本表⽰可以放⼊各种深度学习架构,应⽤于不同⾃然语⾔处理任务(本章主要研究上 游⽂本的预训练)
1.词嵌入
词向量:是⽤于 表⽰单词意义的向量,并且还可以被认为是单词的特征向量或表⽰。
词嵌入:将单词映射到实向量的技术称为词嵌⼊。
1.1独热编码(one-hot)
简介:假设某个词典的大小为N;词典中的词从0—N-1的整数进行表示;现将词典中的每个单词用长度为N的向量进行表示。例如:
“我叫菜虚空”为一个长度为5的词典词典表示为[0,1,2,3,4]
每个字的词向量表示为:
我:[1,0,0,0,0]
叫:[0,1,0,0,0]
...
缺点:独热编码无法表示词向量之间的相似度
1.2自监督的Word2Vec
word2vec⼯具包含两个模型,即跳元模型(skip-gram)和连续词袋(CBOW)模型
这两种模型都是依赖于条件概率。
经过训练后的,每个单词都可以表示为一个向量,且不管上下文是什么都不吃不变
1.2.1跳元模型(skip-gram)
利用中心词预测周围词
上式中:V为中心词向量;
U为背景词表达式;
c为中心词的索引;
o为背景词的表达式。