Word embedding

最新推荐文章于 2024-06-15 19:55:22 发布

带刺的厚崽

最新推荐文章于 2024-06-15 19:55:22 发布

阅读量207

点赞数

文章标签： word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45360119/article/details/123294942

版权

Word embedding

词嵌入模型

机器学习模型"看到"数据的方式与我们（人类）的方式不同。

我们的模型需要特征的向量。此类向量或词嵌入是可以馈送到模型中的单词的表示形式。

离散表示：One-hot vectors

对于词汇表中的第 i 个单词，向量在第 i 个维度上有 1，在其余维度上有 0。

缺点：向量无法表示单词的特征，无法通过向量获取相似词的意义

分布语义

经常出现在类似上下文中的单词具有相似的含义

因此，我们需要将有关单词上下文信息放入单词表示中

基于计数的方法

我们必须把有关的信息放入词向量中

根据全局语料库统计信息手动放置此信息

构造一个词语-上下文矩阵
降低其维数

评估单词的相似度：余弦相似度

简单：共发生计数（Co-Occurence Counts）

将上下文定义为L大小的窗口中的每个单词。

词-上下文对 $N (w, c)$ 的矩阵元素是w在上下文c中出现的次数

正积分互信息（PPMI）

$P P M I (w, c) = m a x (0, P M I (w, c))$

$PMI(w,c)=\log \frac{P(w,c)}{P(w)P(c)}=\log \frac{N(w,c)[(w,c)]}{N(w)N(c)}$

LSA(潜在语义分析)：理解文档

采用tf-idf

文档向量之间的余弦相似性可用于测量文档之间的相似性。

Word2Vec

通过教词向量预测上下文来学习词向量。

Word2Vec 是一个参数为词向量的模型。这些参数针对特定目标进行了迭代优化。客观迫使词向量"知道"单词可以出现的上下文：向量被训练来预测相应单词的可能上下文。正如你从分布假设中记得的那样，如果向量"知道"上下文，它们"知道"单词的含义。

Word2Vec是一种迭代方法。其主要思想如下：

拿一个巨大的文本语料库;
使用滑动窗口浏览文本，一次移动一个单词。在每个步骤中，都有一个中心词和上下文词（此窗口中的其他单词）;
对于中心词，计算上下文词的概率;
调整向量以增加这些概率。

目标函数：负对数似然

Word2Vec：给定中心词的m大小的窗口中预测上下文单词 $w_t$

Likelihood： $L(\theta)=\prod \limits_{t=1}^T\prod\limits_{-m \le j \le m, j\ne 0}P(w_{t+j}|w_t, \theta)$

Loss： $J(\theta)=-\frac{1}{T}\log L(\theta)$

然后是中心词c（c - 中心）和上下文词o（o - 外词）上下文词的概率为

$P(o|c)=\frac{exp(u_o^Tv_c)}{\sum_{w \in V} exp(u_w^Tv_c)}$

$softmax(x_i)=\frac{exp(x_i)}{\sum\limits_{j=i}^nexp(x_j)}$

采用梯度下降进行优化，一个单词一次一次的进行更新

更快训练：负采样

我们考虑的上下文向量不是所有单词，而是只考虑当前目标和几个随机选择的单词。

每个单词只有几个"真实"的上下文。因此，随机选择的单词很可能是"负面的"，即不是真实的上下文。

Word2Vec根据单词的经验分布随机抽样负面示例。让U（w）是单词的单边分布，即U（w）是单词的频率w在文本语料库中。Word2Vec 修改此分布，以便更频繁地对不太常用的单词进行采样：它按比例采样 $U^{\frac{3}{4}}(w)$

Word2Vec有两种变体：Skip-Gram和CBOW。

Skip-Gram是我们迄今为止考虑的模型：它预测给定中心词的上下文单词。阴性采样的 Skip-Gram 是最受欢迎的方法。

CBOW（连续词袋）从上下文向量的总和中预测中心词。这个简单的词向量总和称为"词袋"，它给出了模型的名称。

Glove

GloVe模型是基于计数的方法和预测方法（例如，Word2Vec）的组合。模型名称GloVe代表"全局向量"，这反映了它的想法：该方法使用来自语料库的全局信息来学习向量。

带刺的厚崽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word embedding

Word embedding词嵌入模型机器学习模型"看到"数据的方式与我们（人类）的方式不同。我们的模型需要特征的向量。此类向量或词嵌入是可以馈送到模型中的单词的表示形式。离散表示：One-hot vectors对于词汇表中的第 i 个单词，向量在第 i 个维度上有 1，在其余维度上有 0。缺点：向量无法表示单词的特征，无法通过向量获取相似词的意义分布语义经常出现在类似上下文中的单词具有相似的含义因此，我们需要将有关单词上下文信息放入单词表示中基于计数的方法我们必须把有关的信息放入词向
复制链接

扫一扫

带刺的厚崽 CSDN认证博客专家 CSDN认证企业博客

码龄5年

117: 原创

6万+: 周排名

49万+: 总排名

11万+: 访问

: 等级

1261: 积分

651: 粉丝

61: 获赞

9: 评论

389: 收藏

私信

关注

热门文章

最新评论

命名实体识别主要方法
CSDN-Ada助手: 非常感谢CSDN博主的分享，命名实体识别是很重要的自然语言处理技术，这篇博客讲解的主要方法非常实用。我觉得下一篇可以继续深入探讨其中的算法细节，例如基于深度学习的命名实体识别方法，或者如何应用命名实体识别技术解决具体业务问题等方面，这样的技术文章对其他用户也会非常有帮助。相信会有更多的读者期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
1.20 study单变量线性回归
带刺的厚崽: https://www.bilibili.com/video/BV164411b7dx?spm_id_from=333.999.0.0
1.20 study单变量线性回归
伊滴小朋友: 参考视频求分享~
CCPC11.14广州正赛
神作人生: c题minl的含义是什么啊
CCPC11.14广州正赛
带刺的厚崽: 就是满足那三个数不报long long 三个数的大小关系满足即可详细的可以看看代码

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。