word2vec专题

最新推荐文章于 2024-08-16 15:57:51 发布

三环茅草屋

最新推荐文章于 2024-08-16 15:57:51 发布

阅读量225

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44070747/article/details/90340005

版权

在语言模型中（包括word2vec），由于参数空间过大、数据过于稀疏，计算不方便，所以只考虑近邻n个词对其影响，以简化计算。即为N-gram模型，N为超参数。

word2vec的用途：如何把词转化为向量。

神经网络：

目标是层层之间的参数、还有优化后的输入向量。如何优化：求最大似然函数，即为目标函数最大值（词出现在该环境中的最大可能）。用提度上升求最大似然函数。

先更新的是层层参数（最大似然函数对参数求偏导），然后再更新输入向量（最大似然函数对投影层和向量求偏导，直接将和向量的更新量整个应用到每个单词词向量上去）。因为要最好的层层参数，所以原料要好，所以随便更新输入词向量（副产品），但是副产品我们刚好需要的。

输入层：上下文单词的onehot编码，先随机初始化矩阵W，one-hot和W相乘为输入向量，然后不断迭代优化。

映射层：把输入向量首位相加

隐藏层：

输出层：

CBOW：continuous-bag-of-words

需要定义loss function（一般为交叉熵代价函数），采用梯度下降算法更新W。训练完毕后，输入层的每个单词与矩阵W相乘得到的向量的就是我们想要的词向量（word embedding），也就是说，任何一个单词的onehot乘以这个矩阵都将得到自己的词向量。

三环茅草屋

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。