NLP dream 系列总结 1 词的向量化

词袋模型

就是类似有个集合中有很多个词,根据来的句子中的分词结果进行描述结果,然后生成一个向量,其实每个词出现了几次就是几,
1 其中词袋的维度和最终的句子向量的维度是一样的
2不能体现词前后位置

NNLM

词向量:是利用一定维度向量来表示某个词袋中所有词
神经概率语言模型
有某句话,然后根据前面一些词可以预测得到下个词是什么,其中通过softmax进行概率计算。
在这里插入图片描述神经网路语言模型 就是根据贝叶斯概率公式 计算某句话产生的概率
在这里插入图片描述在这里插入图片描述先分词 然后随机初始化所有词的向量,然后 根据预料 对上述神经网络进行训练 输出连接一个softmax得到下个词的概率。
设置损失函数,然后对 神经网络的参数 以及 随机初始化的 向量一起进行优化,可以得到 优化后的参数,这样不仅得到了一个优化后的模型,还得到一个优化后的向量C(词向量)
在这里插入图片描述

word2vec

word2vec cbow 前后得中间词 小数据
skim-garam 中间得前后 大数据

在这里插入图片描述
在这里插入图片描述
word2vec 后面接
hierarchical softmax 和negative sampling 都可以word2vec后面的优化过程

参考:https://www.cnblogs.com/peghoty/p/3857839.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值