《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第3章进阶篇学习笔记（九）3.2.2词向量（Word2Vec）技术总结

最新推荐文章于 2023-10-24 11:52:43 发布

wyatt007

最新推荐文章于 2023-10-24 11:52:43 发布

阅读量341

点赞数 1

分类专栏： Python机器学习及实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyatt007/article/details/105862796

版权

目录

3.2.2词向量（Word2Vec）技术

1、词向量（Word2Vec）技术

（1）词袋法

（3）神经网络学习过程

2、编程实践

3.2.2词向量（Word2Vec）技术

1、词向量（Word2Vec）技术

（1）词袋法

在“3.1.1.1特征抽取总结”节详细介绍了如何通过词袋法，即以每个词汇为特征，向量化表示一个文本；并且提供了几种特征量化的技术，如CountVectorizer和TfidfVectorizer。词袋法（Bag of Words）可以视作对文本向量化的表示技术，通过这项技术可以对文本之间在内容的相似性进行一定程度的度量。

（2）背景

对于两段文本，词袋法技术似乎对计算它们的相似度表现得无能为力。

The cat is walking in the bedroom.
A dog was running across the kitchen.

尽管从语义上讲，这两段文本所描述的场景极为相似；但是，从词袋法表示来看，这两段文本唯一相同的词汇是the，找不到任何语义层面的联系。

而在“3.2.1自然语言处理（NLTK）”节中，进一步学习到如何借助更加复杂的自然语言处理技术对文本进行分析。这不仅能够对词汇的具体词性进行标注，甚至可以对句子进行解构。然而，即便能够使用NLTK中的词性标注技术对上述两段文本进行分析，找出对应词汇在词性方面的相似性，也无法针对具体词汇之间的含义是否相似进行度量。

因此，为了寻找词汇之间的相似度关系，试图也将词汇的表示向量化。这样就可以通过计算表示词汇的向量之间的相似度，来度量词汇之间的含义是否相似。而为了学习到这样的词向量表示，Yoshua教授等人以及Google研究员

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第3章进阶篇学习笔记（九）3.2.2词向量（Word2Vec）技术总结

目录3.2.2词向量（Word2Vec）技术1、词向量（Word2Vec）技术（1）词袋法（2）背景（3）神经网络学习过程2、编程实践3.2.2词向量（Word2Vec）技术1、词向量（Word2Vec）技术（1）词袋法在“3.1.1.1特征抽取总结”节详细介绍了如何通过词袋法，即以每个词汇为特征，向量化表示一个文本；并且提供了几种特征量化的技术，如Coun...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。