读论文—基于统计模型改进Word2vec优化策略研究

最新推荐文章于 2023-10-31 20:33:55 发布

星陈

最新推荐文章于 2023-10-31 20:33:55 发布

阅读量566

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 Word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45263178/article/details/103109910

版权

文章摘要
- 问题切入点
  - Word2Vec的相关研究
    - 文章的改进研究

摘要后的摘要

该文从训练词向量的语言模型入手，研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点，引入TFIDF文本关键词计算法，提出了一种基于关键词改进的语言模型。研究发现，经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系，而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系，在词向量训练结果的查准率和相似度方面，改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。

问题切入点：

举一个简单的例子“我喜欢喝咖啡”“我讨厌喝咖啡”，“喜欢”“讨厌”两个语义相反的词，训练出的词向量结果是相近的。skip-gram和CBOW语言模型训练出的词向量可以充分表达词的词性、词类，但是在词义表达上有些欠缺。因此有必要从语言模型的角度考虑提升词向量质量。

Word2Vec的相关研究：

Mikolov等，使用Word2Vec训练出的词向量进行词向量之间的距离计算可以很好地发现语料中语义相近的词汇，例如，与奥迪相近的词汇有奔驰、宝马、大众等汽车品牌；并且根据语义的线性偏移较好地预测了相关词，例如，中国的词向量+(美国的词向量-华盛顿的词向量)=北京的词向量。

1.语言模型

语言模型是自然语言处理领域重要且基础的课题。在传统的语言模型中，基于统计的语言模型应用较为广泛，

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
读论文—基于统计模型改进Word2vec优化策略研究

项目项目项目项目1项目2项目3摘要后的摘要该文从训练词向量的语言模型入手，研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点，引入TFIDF文本关键词计算法，提出了一种基于关键词改进的语言模型。研究发现，经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系，而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系，在词向量...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。