tf_idf

最新推荐文章于 2024-06-13 23:22:01 发布

weixin_43824178

最新推荐文章于 2024-06-13 23:22:01 发布

阅读量459

点赞数

分类专栏：深度学习 nlp

本文链接：https://blog.csdn.net/weixin_43824178/article/details/99600995

版权

深度学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

nlp

2 篇文章 0 订阅

订阅专栏

TF-IDF

TF-IDF（Term Frequency-InversDocument Frequency）是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语，同时保留影响整个文本的重要字词。计算方法如下面公式所示。

其中，式中tfidfi，j表示词频tfi,j和倒文本词频idfi的乘积。TF-IDF值越大表示该特征词对这个文本的重要性越大。
```
TF（Term Frequency）表示某个关键词在整篇文章中出现的频率。
IDF（InversDocument Frequency）表示计算倒文本频率。文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文档频率又称为逆文档频率，它是文档频率的倒数，主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。
下面公式是TF词频的计算公式。
```

在这里插入图片描述
下面公式是IDF的计算公式。

其中，|D|表示语料中文本的总数，表示文本中包含特征词ti的数量。为防止该词语在语料库中不存在，即分母为0，则使用作为分母。

示例
下面通过一个示例进行讲解TF-IDF权重计算的方法。
假设现在有一篇文章《贵州的大数据分析》，这篇文章包含了10000个词组，其中“贵州”、“大数据”、“分析”各出现100次，“的”出现500次（假设没有去除停用词），则通过前面TF词频计算公式，可以计算得到三个单词的词频，即：

在这里插入图片描述
现在预料库中共存在1000篇文章，其中包含“贵州”的共99篇，包含“大数据”的共19篇，包含“分析”的共“59”篇，包含“的”共“899”篇。则它们的IDF计算如下：

由IDF可以发现，当某个词在语料库中各个文档出现的次数越多，它的IDF值越低，当它在所有文档中都出现时，其IDF计算结果为0，而通常这些出现次数非常多的词或字为“的”、“我”、“吗”等，它对文章的权重计算起不到一定的作用。
同时计算TF-IDF值如下：
在这里插入图片描述
通过TF-IDF计算，“大数据”在某篇文章中出现频率很高，这就能反应这篇文章的主题就是关于“大数据”方向的。如果只选择一个词，“大数据”就是这篇文章的关键词。所以，可以通过TF-IDF方法统计文章的关键词。同时，如果同时计算“贵州”、“大数据”、“分析”的TF-IDF，将这些词的TF-IDF相加，可以得到整篇文档的值，用于信息检索。
TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是单纯以词频衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息

weixin_43824178

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
tf_idf

TF-IDFTF-IDF（Term Frequency-InversDocument Frequency）是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语，同时保留影响整个文本的重要字词。计算方法如下面公式所示。其中，式中tfidf...
复制链接

扫一扫

专栏目录