了解文本相似度 TF-IDF吗

简单地说,就是你检索一个词,匹配出来的文章,网页太多了。比如 1000 个,这些内容再该怎么
呈现,哪些在前面哪些在后面。这需要也有个对匹配度的评分。

TF-IDF 就是干这个的。

  • TF = Term Frequency 词频,一个词在这个文档中出现的频率。值越大,说明这文档越匹配, 正向指标。
  • IDF = Inverse Document Frequency 反向文档频率,简单点说就是一个词在所有文档中都出
    现,那么这个词不重要。比如“的、了、我、好”这些词所有文档都出现,对检索毫无帮助。反 向指标。
  • 最后,TF-IDF 是词频和逆文档频率的乘积,表示一个词在一个文档中的重要性。公式为:
    TF-IDF(t,d)=TF(t,d)×IDF(t)
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值