特征选择----TF*IDF

TF*IDF

TF 称为词频,表示词在一篇文档中出现的频率=词在该文档中出现的次数 / 该文档中单词的总数---TF越大,表示该词对文档越重要

DF称为文档频率,一个词在多少篇文章中出现过

IDF 称为逆文档频率=Ln(总文档数/出现该次的文档数)

反映了一个词在所有文档中出现的频率,如果一个词在很多文档中出现,那么它的IDF值较低;如果一个词在比较少的文档中出现,那么它的IDF值较高。如果一个词在所有的文档中都出现,那么它的IDF值为0.

TF*IDF主要思想:如果某个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为这个词具有很好的类别区分能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值