Word2Vec

最新推荐文章于 2023-04-06 22:30:44 发布

weixin_46783985

最新推荐文章于 2023-04-06 22:30:44 发布

阅读量164

点赞数

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/weixin_46783985/article/details/106951940

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

one-hot编码

传统nlp中，我们把单词认为是离散的符号，，可以用一系列one_hot编码的向量表示
eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
缺点：
	 1、每个单词的one-hot编码维度是整个词汇表的大小，维度非常巨大，编码稀疏，会使得计算代价变大。
2、one-hot编码假设单词与单词之间是独立的，无法体现单词与单词的关系远近程度，

Word2Vec

Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近

模型-Skip-Gram

给定input word来预测上下文

算法步骤
（1）每次都选取一个词做为中心词
（2）尝试去预测它一定范围内的上下文词汇
（3）模型将定义一个概率分布，即给定一个中心词汇，预测某个单词的上下文出现的概率
（4）定义半径m，然后从中心词汇开始，到距离为m的位置（包括左边和右边）
（5）损失函数（交叉熵）

weixin_46783985

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word2Vec

one-hot编码传统nlp中，我们把单词认为是离散的符号，，可以用一系列one_hot编码的向量表示eg: motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]缺点： 1、每个单词的one-hot编码维度是整个词汇表的大小，维度非常巨大，编码稀疏，会使得计算代价变大。2、one-hot编码假设单词与单词之间是独立的，无法体现单词与单词的关系远近程度，Word2VecWord2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上
复制链接

扫一扫