TF-IDF 文本匹配实战详细教程

最新推荐文章于 2024-08-18 21:50:43 发布

计算机毕设论文

最新推荐文章于 2024-08-18 21:50:43 发布

阅读量347

点赞数

分类专栏：深度学习-自然语言处理nlp 文章标签：自然语言处理人工智能深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_55771290/article/details/127664767

版权

深度学习-自然语言处理nlp 专栏收录该内容

64 篇文章 88 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了TF-IDF的由来，包括其在信息检索领域的起源和发展，以及主要贡献者杰拉德·索尔顿和卡伦·琼斯的学术成就。TF-IDF原理包括词频（TF）和逆向文件频率（IDF）的概念，以及它们如何结合以衡量词语的重要性。此外，文章还展示了基于TF-IDF的文本相似性匹配项目，涉及数据介绍、文本预处理和代码实现。

摘要由CSDN通过智能技术生成

目录

TF-IDF的由来

把查询关键字（Query）和文档（Document）都转换成 “向量”，并且尝试用线性代数等数学工具来解决信息检索问题，这样的努力至少可以追溯到 20 世纪 70 年代。

1971 年，美国康奈尔大学教授杰拉德 · 索尔顿（Gerard Salton）发表了《SMART 检索系统：自动文档处理实验》（The SMART Retrieval System—Experiments in Automatic Document Processing）一文，文中首次提到了把查询关键字和文档都转换成 “向量”，并且给这些向量中的元素赋予不同的值。这篇论文中描述的 SMART 检索系统，特别是其中对 TF-IDF 及其变种的描述成了后续很多工业级系统的重要参考。

1972 年，英国的计算机科学家卡伦 · 琼斯（Karen Spärck Jones）在《从统计的观点看词的特殊性及其在文档检索中的应用》（A Statistical Interpretation of Term Specificity and Its Application in Ret