TF-IDF学习笔记

一、简介

TF-IDF,英文全名term frequency–inverse document frequency。TF,Term Frequency,词频;IDF,Inverse Document Frequency,逆文本频率。

TF-IDF的核心思想是:如果某个词在一篇文章中出现的频率很高,但在其他文章中很少出现,即在语料库中出现频率不高,则认为这个词具有很好的类别区分能力,适合用来分类。因此TF-IDF实际上是tf乘以idf的值,即字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,TF-IDF值比较大的词,即可作为该文章的关键词。


二、公式

TF = 某词w在文章中出现的次数 / 该文章中词数

IDF = log(语料库中文章总数 / 语料库中包含词w的文章总数 + 1)

TF-IDF = TF * IDF

现在已经可以清晰的看到TF-IDF和文章词频的正比关系,和在语料库中出现的频率的反比关系。

其中注意两点:

1. IDF的分母加1是为了防止语料库中不存在包含词w的文章,导致分母为0,出现值错误。

2. 为什么要对IDF取log?这一点还需进一步探索。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值