TF-IDF和BM25

最新推荐文章于 2024-08-12 19:58:03 发布

需要重新演唱

最新推荐文章于 2024-08-12 19:58:03 发布

阅读量449

点赞数 8

分类专栏： RAG 文章标签： tf-idf 信息检索稀疏检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xycxycooo/article/details/140655728

版权

RAG 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

TF-IDF和BM25都是信息检索领域中常用的算法，用于评估一个词在一个文档集合或语料库中的重要性。它们都是基于词频和逆文档频率的概念，但具体的计算方法有所不同。下面我将详细介绍这两种算法。

TF-IDF（Term Frequency-Inverse Document Frequency）

TF-IDF是一种统计方法，用以评估一个词对于一个文档集或一个语料库中的其中一份文档的重要性。它由两部分组成：

词频（Term Frequency, TF）：指的是某一个词在文档中出现的频率。计算公式通常为：
[
\text{TF}(t, d) = \frac{\text{词} t \text{在文档} d \text{中出现的次数}}{\text{文档} d \text{中的总词数}}
]
逆文档频率（Inverse Document Frequency, IDF）：指的是一个词在所有文档中的普遍重要性。计算公式通常为：
[
\text{IDF}(t) = \log \left( \frac{N}{\text{包含词} t \text{的文档数}} \right)
]
其中，( N ) 是文档总数。

TF-IDF的最终计算公式为：
[
\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)
]

BM25（Best Match 25）

BM25是TF-IDF的一种改进版本，它在计算词频时考虑了文档长度和词频饱和度。BM25的计算公式如下：

[
\text{BM25}(t, d) = \text{IDF}(t) \times \frac{(\text{TF}(t, d) \times (k_1 + 1))}{\text{TF}(t, d) + k_1 \times (1 - b + b \times \frac{|d|}{\text{avgdl}})}
]

其中：

( k_1 ) 是一个调节参数，通常取值在1.2到2.0之间。
( b ) 是另一个调节参数，通常取值为0.75。
( |d| ) 是文档 ( d ) 的长度。
( \text{avgdl} ) 是所有文档的平均长度。

BM25通过引入这些参数，更好地处理了词频和文档长度的关系，使得其在实际应用中通常能获得比TF-IDF更好的效果。

总结

TF-IDF和BM25都是评估词在文档中重要性的有效方法，但BM25通过引入更多的参数和考虑文档长度等因素，通常能提供更精确的权重计算。在实际应用中，选择哪种算法取决于具体的应用场景和需求。

需要重新演唱

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
TF-IDF和BM25

TF-IDF和BM25都是评估词在文档中重要性的有效方法，但BM25通过引入更多的参数和考虑文档长度等因素，通常能提供更精确的权重计算。在实际应用中，选择哪种算法取决于具体的应用场景和需求。
复制链接

扫一扫

专栏目录

需要重新演唱

CSDN认证博客专家 CSDN认证企业博客

码龄5年

482: 原创

4434: 周排名

4923: 总排名

23万+: 访问

: 等级

9786: 积分

3710: 粉丝

4688: 获赞

4: 评论

4486: 收藏

私信

关注

热门文章

分类专栏

spring 付费 28篇
工作流付费 4篇
Redis 付费 22篇
mysql 8篇
web 104篇
springboot 2篇
计算机网络 1篇
maven 8篇
springmvc 7篇
数据库 1篇
java 91篇
javaweb基础 15篇
微服务 1篇
算法 4篇
linux 17篇
docker 13篇
SQL 43篇
llamaindex 28篇
Loading 8篇
prompt 1篇
微信小程序 2篇
RAG 7篇
Python 41篇
前端 10篇

最新评论

@RestController注解
深圳王哥: @RestController注解是Spring MVC中用于RESTful服务的关键，文章清晰地介绍了其概念和用法，还分享了实用的最佳实践，对开发者很有帮助。读完后，我对如何更高效地使用这个注解有了更深的理解。
人工智能时代，程序员如何保持核心竞争力？--- AI辅助编程对程序员工作的影响
2401_86346953: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
从0开始使用Spring Boot开发用户中心系统
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619244492。
分页查询--SQL
ha_lydms: 文章内容通俗易懂，大大提高了我对这个话题的理解。每次都能学到很多新知识，感谢博主的用心分享。期待更多精彩的内容！
Docker 镜像的命名规范
2401_85958889: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

需要重新演唱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。