TF-IDF是什么学习笔记（基础版）

最新推荐文章于 2024-06-13 23:22:01 发布

青风learing

最新推荐文章于 2024-06-13 23:22:01 发布

阅读量605

点赞数

分类专栏： python基本知识文章标签： python TF-IDF

python基本知识专栏收录该内容

13 篇文章 0 订阅

订阅专栏

TF—IDF是什么

TF-IDF的算法，目的是计算词的权重，由两部分组成，一部分是TF（词项频率），另一部分是IDF（逆向文档频率）。通俗的讲，就是，TF-IDF = TF * IDF。也就是说，我们在考虑词的权重的时候，不再只考虑这个词在文档中出现多少次。

TF

TF考虑了词项的类内代表性，其实，我也不懂什么叫类内代表性，总之，它就是像数数一样，看一个词在一个句子中出现多少次，然后计算频率。但是这个指标并不能完全反映文本类别的区分度，文档高频词极有可能在其他文档中也重复出现，例如“的”、“一”等。Term Frequency中文翻译就是词频。

举个例子：
这个词语在此文本出现的频率除以此文本词语的总个数即是词频。如“你们”在一个文本出现10次，此文本一共100个词语，那么“你们”的词频就是10/100=0.1。

IDF

考虑到TF的缺点之后，我们又引入了IDF，意思是逆向文档频率，考虑了词项的全局代表性，表示文档中总文档数目与文档中包含该词项数目的比值：
举个例子：
IDF的具体计算方式是总文本的数目除以包含该词语文件的数目再取对数，以达到给每个词语赋予不同权重的意义。我们一共有100个文本，其中10个中找到了我们想要的词语，那么我们的IDF值为log(100/10)= 1。

IDF值随着数字分母的变大而变小，也就是说当我们在总文本里找到越多的文本包含我们想要的词，这就证明这个词非常的普遍，并没有任何的指引性，导致我们的IDF值下降。极端的例子，如果说所有文件里都有我们想要查找的这个词语，那么分子分母相等再取对数，最后的结果为0，就代表在我们现有的文本或语料库里，这个词语没有任何特殊的意义和识别性。

最终我们的TF-IDF值就等于 TF值IDF值，例如词语“原子弹”的TF值是0.1，IDF值是2.8，那么它的TFIDF值为0.28。

如果我们有3个词语A、B、C,它们的TF-IDF值分别为0，28、0.53和0.77,那么我们加起来，这三个词语在文章中加起来的TF*IDF值就为1.58。

青风learing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF是什么学习笔记（基础版）

TF—IDF是什么TF-IDF的算法，目的是计算词的权重，由两部分组成，一部分是TF（词项频率），另一部分是IDF（逆向文档频率）。通俗的讲，就是，TF-IDF = TF * IDF。也就是说，我们在考虑词的权重的时候，不再只考虑这个词在文档中出现多少次。TFTF考虑了词项的类内代表性，其实，我也不懂什么叫类内代表性，总之，它就是像数数一样，看一个词在一个句子中出现多少次，然后计算频率。但是...
复制链接

扫一扫