NLP:预训练

        预训练好的⽂本表⽰可以放⼊各种深度学习架构,应⽤于不同⾃然语⾔处理任务(本章主要研究上 游⽂本的预训练) 

 1.词嵌入

词向量:是⽤于 表⽰单词意义的向量,并且还可以被认为是单词的特征向量或表⽰。

词嵌入:将单词映射到实向量的技术称为词嵌⼊。

1.1独热编码(one-hot)

简介:假设某个词典的大小为N;词典中的词从0—N-1的整数进行表示;现将词典中的每个单词用长度为N的向量进行表示。例如:

“我叫菜虚空”为一个长度为5的词典词典表示为[0,1,2,3,4]

每个字的词向量表示为:

我:[1,0,0,0,0]

叫:[0,1,0,0,0]

...

缺点:独热编码无法表示词向量之间的相似度

1.2自监督的Word2Vec

        word2vec⼯具包含两个模型,即跳元模型(skip-gram)连续词袋(CBOW)模型

这两种模型都是依赖于条件概率。

        经过训练后的,每个单词都可以表示为一个向量,且不管上下文是什么都不吃不变

1.2.1跳元模型(skip-gram)

利用中心词预测周围词

上式中:V为中心词向量;

               U为背景词表达式;

               c为中心词的索引;

               o为背景词的表达式。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值