Word2Vec

one-hot编码

传统nlp中,我们把单词认为是离散的符号,,可以用一系列one_hot编码的向量表示
eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
缺点:
	 1、每个单词的one-hot编码维度是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大。
2、one-hot编码假设单词与单词之间是独立的,无法体现单词与单词的关系远近程度,

Word2Vec

Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近

模型-Skip-Gram

给定input word来预测上下文
给定input word来预测上下文

算法步骤
(1)每次都选取一个词做为中心词
(2)尝试去预测它一定范围内的上下文词汇
(3)模型将定义一个概率分布,即给定一个中心词汇,预测某个单词的上下文出现的概率
(4)定义半径m,然后从中心词汇开始,到距离为m的位置(包括左边和右边)
(5)损失函数(交叉熵)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值