《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第3章 进阶篇 学习笔记(九)3.2.2词向量(Word2Vec)技术总结

目录

3.2.2词向量(Word2Vec)技术

1、词向量(Word2Vec)技术

(1)词袋法

(2)背景

(3)神经网络学习过程

2、编程实践


3.2.2词向量(Word2Vec)技术

1、词向量(Word2Vec)技术

(1)词袋法

在“3.1.1.1特征抽取总结”节详细介绍了如何通过词袋法,即以每个词汇为特征,向量化表示一个文本;并且提供了几种特征量化的技术,如CountVectorizer和TfidfVectorizer。词袋法(Bag of Words)可以视作对文本向量化的表示技术,通过这项技术可以对文本之间在内容的相似性进行一定程度的度量。

(2)背景

对于两段文本,词袋法技术似乎对计算它们的相似度表现得无能为力。

The cat is walking in the bedroom.
A dog was running across the kitchen.

尽管从语义上讲,这两段文本所描述的场景极为相似;但是,从词袋法表示来看,这两段文本唯一相同的词汇是the,找不到任何语义层面的联系。

而在“3.2.1自然语言处理(NLTK)”节中,进一步学习到如何借助更加复杂的自然语言处理技术对文本进行分析。这不仅能够对词汇的具体词性进行标注,甚至可以对句子进行解构。然而,即便能够使用NLTK中的词性标注技术对上述两段文本进行分析,找出对应词汇在词性方面的相似性,也无法针对具体词汇之间的含义是否相似进行度量

因此,为了寻找词汇之间的相似度关系,试图也将词汇的表示向量化。这样就可以通过计算表示词汇的向量之间的相似度,来度量词汇之间的含义是否相似。而为了学习到这样的词向量表示,Yoshua教授等人以及Google研究员

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值