TF-IDF学习笔记

最新推荐文章于 2024-04-13 04:31:46 发布

yizhi_amber

最新推荐文章于 2024-04-13 04:31:46 发布

阅读量210

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/yizhi_amber/article/details/80470714

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、简介

TF-IDF，英文全名term frequency–inverse document frequency。TF，Term Frequency，词频；IDF，Inverse Document Frequency，逆文本频率。

TF-IDF的核心思想是：如果某个词在一篇文章中出现的频率很高，但在其他文章中很少出现，即在语料库中出现频率不高，则认为这个词具有很好的类别区分能力，适合用来分类。因此TF-IDF实际上是tf乘以idf的值，即字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。因此，TF-IDF值比较大的词，即可作为该文章的关键词。

二、公式

TF = 某词w在文章中出现的次数 / 该文章中词数

IDF = log(语料库中文章总数 / 语料库中包含词w的文章总数 + 1）

TF-IDF = TF * IDF

现在已经可以清晰的看到TF-IDF和文章词频的正比关系，和在语料库中出现的频率的反比关系。

其中注意两点：

1. IDF的分母加1是为了防止语料库中不存在包含词w的文章，导致分母为0，出现值错误。

2. 为什么要对IDF取log？这一点还需进一步探索。