简单说说TF-IDF

英文名

term frequency–inverse document frequency

举个栗子来计算

现在有一篇文章,里面 100个字儿,其中“派大星”出现了5次,则“派大星”这个词在这篇文章中的TF(词频)值就是5/100=0.05
(TF=0.05)
接下来是逆向文件频率 (IDF) 。如果有10份儿这样的文章里面包含了“派大星”,而文章的总份数是10000,则IDF的值是lg(10000/10)= 3
(IDF=3)

俩值一相乘就是 TF x IDF = 0.05 x 3 = 0.15

TF-IDF的值越大,说明这个词越重要。
但是像the,this,“的”这样的词,哪儿都有,不想让他们重要。它们的量上去了,其IDF的值就会变小,总的TF-IDF值就会变小,于是就不重要了。

公式长这样

在这里插入图片描述 在这里插入图片描述

TF-IDF存在的问题是没有把上下文文字背后的语义关联考虑进去
======== 欢迎大家指正 ========

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值