TF-IDF算法

1.TF(Term Frequence):词频

​ 即某个词在整个文本中出现的次数。通常归一化(词频/文本总词数),防止其偏向篇幅长的文章。

T F w = 文本中 w 出现的次数 文本总词数 TF_{w} = \frac{文本中w出现的次数}{文本总词数} TFw=文本总词数文本中w出现的次数

2.IDF(Inverse Document Frequency):逆向文档频率

​ 如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDFD的计算公式为:

I D F w = l o g ( 语料库文档总数 包含词 w 的文档数 + 1 ) IDF_{w} = log(\frac{语料库文档总数}{包含词w的文档数+1}) IDFw=log(包含词w的文档数+1语料库文档总数)

分母+1防止分母为0。

3.TF-IDF(Term Frequency-Inverse Document Frequency)

​ 一种常用于信息检索的加权技术。评估一个词对于一个文档集,或者一个语料库中的一份文档的重要程度。

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。公式:

T F − I D F = T F × I D F TF-IDF = TF\times IDF TFIDF=TF×IDF

4.TF与TF-IDF的关系

​ 对于TF:一些通用的子词对于主题并没有太大的作用,一些出现频率较少的子词才能够表达文章的主题,所以单纯的使用TF是不合适的。比如菜谱中的“油”、“水”、“盐”等词出现频率很高,但并不能代表某个菜谱。

​ 对于TF-IDF:一个子词在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,则这个词越能代表这篇文章。比如在一本菜谱中,宫保鸡丁中鸡丁这个词出现次数多,在其他几个比如番茄炒蛋,水煮牛肉这些菜谱中出现频率很低。“鸡丁”相比于“油”、“盐”等词更能够代表宫保鸡丁这个菜谱。

​ 权重设计的规则为一个子词预测主题的能力越强,其权重越大;反之,则权重越小。所以在所有统计的文章中,一些子词只是在其中很少几篇文章中出现,那么这样的子词对文章的主题的作用很大,这些子词的权重应该设计的较大。比如“宫保”,”鸡丁“这些词权重应该更大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱挠静香的下巴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值