简单说说TF-IDF

最新推荐文章于 2023-01-01 22:41:07 发布

秦老司

最新推荐文章于 2023-01-01 22:41:07 发布

阅读量282

点赞数

文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_45854080/article/details/102975774

版权

英文名

term frequency–inverse document frequency

举个栗子来计算

现在有一篇文章，里面 100个字儿，其中“派大星”出现了5次，则“派大星”这个词在这篇文章中的TF(词频)值就是5/100=0.05
（TF=0.05）
接下来是逆向文件频率 (IDF) 。如果有10份儿这样的文章里面包含了“派大星”，而文章的总份数是10000，则IDF的值是lg(10000/10）= 3
(IDF=3)

俩值一相乘就是 TF x IDF = 0.05 x 3 = 0.15

TF-IDF的值越大，说明这个词越重要。
但是像the，this，“的”这样的词，哪儿都有，不想让他们重要。它们的量上去了，其IDF的值就会变小，总的TF-IDF值就会变小，于是就不重要了。

公式长这样

在这里插入图片描述

TF-IDF存在的问题是没有把上下文文字背后的语义关联考虑进去
======== 欢迎大家指正 ========

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

秦老司

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单说说TF-IDF

英文名term frequency–inverse document frequency举个栗子来计算现在有一篇文章，里面 100个字儿，其中“派大星”出现了5次，则“派大星”这个词在这篇文章中的TF(词频)值就是5/100=0.05（TF=0.05）接下来是逆向文件频率 (IDF) 。如果有10份儿这样的文章里面包含了“派大星”，而文章的总份数是10000，则IDF的值是lg(1000...
复制链接

扫一扫