数据挖掘 文本分类(七)特征提取

        上一篇我们做完了词频统计,下面就该提取文本特征了。其实词的频率就是文本最重要的特征了,但是我们如果只靠词的频率去判断文本的分类的话,显然正确率是很低的。

        当然,文本的特征提取有很多办法了,我上这门课程老师着重介绍的是TF-IDF和卡方校验两种。

        我们先来看IF-IDF的计算方法:

                词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。

                逆向文件频率(inverse document frequency,IDF)。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

                IDF是一个词语普遍重要性的度量。

                TF-IDF值即是TF值与IDF值之积。

       TF-IDF综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。它没有考虑特征词在分类间的分布。如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,而TF-IDF不能区分这两种情况。没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。<

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值