TF-IDF算法

爱挠静香的下巴

已于 2022-12-16 11:25:57 修改

阅读量1k

点赞数

分类专栏： NLP学习笔记文章标签：算法自然语言处理人工智能

于 2021-12-24 14:35:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzpl139/article/details/122127547

版权

NLP学习笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

1.TF（Term Frequence）：词频

即某个词在整个文本中出现的次数。通常归一化（词频/文本总词数），防止其偏向篇幅长的文章。

$TF_{w} = \frac{文本中w出现的次数}{文本总词数}$

2.IDF（Inverse Document Frequency）：逆向文档频率

如果包含词条t的文档越少，IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDFD的计算公式为：

$IDF_{w} = log(\frac{语料库文档总数}{包含词w的文档数+1})$

分母+1防止分母为0。

3.TF-IDF（Term Frequency-Inverse Document Frequency）

一种常用于信息检索的加权技术。评估一个词对于一个文档集，或者一个语料库中的一份文档的重要程度。

TF-IDF倾向于过滤掉常见的词语，保留重要的词语。公式：

$TF\times IDF$

4.TF与TF-IDF的关系

对于TF：一些通用的子词对于主题并没有太大的作用，一些出现频率较少的子词才能够表达文章的主题，所以单纯的使用TF是不合适的。比如菜谱中的“油”、“水”、“盐”等词出现频率很高，但并不能代表某个菜谱。

对于TF-IDF：一个子词在一篇文章中出现的次数越多，同时在所有文章中出现的次数越少，则这个词越能代表这篇文章。比如在一本菜谱中，宫保鸡丁中鸡丁这个词出现次数多，在其他几个比如番茄炒蛋，水煮牛肉这些菜谱中出现频率很低。“鸡丁”相比于“油”、“盐”等词更能够代表宫保鸡丁这个菜谱。

权重设计的规则为一个子词预测主题的能力越强，其权重越大；反之，则权重越小。所以在所有统计的文章中，一些子词只是在其中很少几篇文章中出现，那么这样的子词对文章的主题的作用很大，这些子词的权重应该设计的较大。比如“宫保”，”鸡丁“这些词权重应该更大。

爱挠静香的下巴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
TF-IDF算法

TF-IDF算法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱挠静香的下巴 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。