03（2）word2vec理论知识

最新推荐文章于 2024-07-19 16:33:18 发布

王哈哈嘎哈呢

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量170

点赞数

分类专栏：自然语言文章标签：机器学习深度学习神经网络 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45087321/article/details/105570067

版权

自然语言专栏收录该内容

7 篇文章 1 订阅

订阅专栏

当数据量小的时候，一般使用CBOW模型
当数据量大的时候，一般使用Skip-Gram模型

一、CBOW模型

词袋子模型
层次softmax
负例采样

1、词袋子模型
词袋子模型是去掉了隐藏层，使用了一个上下文窗口，将映射层的乘法变为的加法。
优点：简单方便快速，预料充足的条件下，对于简单的自然语言处理，任务效果不错。
缺点：无法解决多义词问题<每个词都有唯一的编码>，无法关注词与词之间的顺序。

2、层次softmax<两边预测中间>
使用Huffman Tree编码，是一种最优二叉树，将计算量转变为树的深度，这样每个字或者词都有一个唯一的编码
例如：我喜欢观看巴西足球世界杯
在这里插入图片描述

3、负例采样<既可以中间预测两边，又可以两边预测中间，是一种常用的加速工具>
是一种有监督学习
假设有1亿个数据，普通的神经网络 input（1亿）–> output（1亿）

下面是负例采样的步骤：
首先将一亿个词通过TF-IDF，得出每个词的权重，
在将[0,1] 分成10的8次方<不固定>等份。
注释：数据的TF-IDF和为1，不懂自己百度
例如：取500个样例，其中499负样例，1正样例
在这里插入图片描述
随机从[1,(10的8次方)-1]中抽取500份，要求其中499份落在负样例区间，最后剩下一个为正样例。
要求：对应的负样例不能重复，例如其中499份不能有重复出现在红2 空间。
当出现重复或者正样例（红1空间），在重新随机一个。（正样例空间位置不固定）
例如：我的名字叫做张三。
‘’张三‘’是要找到的正样例，499份所落在的空间对应不能是红1 所在的位置，且不能重复出现一个样例，例如多个太阳等等
在这里插入图片描述
最终得到499负样例+1正样例

二、Skip-Gram模型1

大致与层次softmax相同<中间预测两边>

王哈哈嘎哈呢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
03（2）word2vec理论知识

当数据量大的时候，一般使用Skip-Gram模型当数据量小的时候，一般使用层次softmax模型一、CBOW模型词袋子模型层次softmax负例采样1、词袋子模型词袋子模型是去掉了隐藏层，使用了一个上下文窗口，将映射层的乘法变为的加法缺点：无法解决多义词问题<每个词都有唯一的编码>2、层次softmax<两边预测中间>使用Huffman Tree编码...
复制链接

扫一扫

专栏目录

王哈哈嘎哈呢

博客等级

码龄5年

17
原创

21
点赞

29
收藏

29
粉丝

关注

私信

热门文章

分类专栏

最新评论

tensorflow的安装、和解决一些常见的错误问题
小明: 感谢博主分享的知识，博主文章细节到位，兼顾操作性和实用性，文章思路清晰，干货满满，看完后受益匪浅，支持博主创作，期待博主未来的好文分享！
【无标题】
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
深度学习 - 目录
王哈哈嘎哈呢: AI智能发展路线，有最早的统计学产生的机器学习，由一根直线或者曲线进行分类，然后树类、SVM的超平面，再到深度学习的循环神经网络，《一维转化到二维》，在到卷积神经网络，多层卷积，更像是三维，接下来的发展方向会不会是四维，甚至是更高的维度
AC自动机
王哈哈嘎哈呢: 没问题
AC自动机
凌桓丶: 写的不错，学习了！方便的话可以加个关注。共同学习！一起进步！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。