机器学习系列手记(二):特征工程之文本表示模型、Word2Vec

本文深入探讨了特征工程中的文本表示模型,重点介绍了词袋模型、N-gram、主题模型以及词嵌入。特别是词嵌入中的Word2Vec模型,包括CBOW和Skip-gram结构,讲解了其工作原理和与主题模型的区别。
摘要由CSDN通过智能技术生成

特征工程

特征工程之文本表示模型、Word2Vec

五、文本表示模型

1、词袋模型和N-gram模型
      词袋模型就是将整段文本以词为单位分隔开,忽略每个词出现的顺序,然后将每篇文章表示成为一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文本中的重要程度。常用TF-IDF来计算权重,公式为
T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t) TFIDF(t,d)=TF(t,d)×IDF(t)
其中 T F ( t , d ) TF(t,d) TF(t,d)为单词 t t t在文本 d d d中出现的频率, I D F ( t )

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值