text retrieval week1

最新推荐文章于 2022-10-08 11:17:20 发布

xy773545778

最新推荐文章于 2022-10-08 11:17:20 发布

阅读量415

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xy773545778/article/details/79210706

版权

一、文本访问
1. 访问方式：pull push
pull: 用户通过搜索引擎等搜索访问，可满足用户的临时信息需求
pull模式下有两种技术：查询(搜关键词) 浏览(看相关主题信息)
push: 系统推荐信息给用户
二、文本检索
1. 文本检索vs数据库检索
这里写图片描述
2. 文本检索的公式化表达

最终任务就是要计算文档的相关性R’(q)
R’(q)计算方法：文档选择文档排序
（1）文档选择（绝对相关性）
输入为d文档，q查询，f函数输出为1或0，表示d和q是相关或不相关
这里写图片描述
该方法的局限性：很难确定0和1分类的界限；即使分类是准确的，我们还想把这些相关文件区分开，因为它们通常不同样相关。
（2）文档排序（相对相关性）
其中theta是人为给定的一个停止值，输出值将进行排序
这里写图片描述
3. 文本检索的模型

3-1 向量空间模型
(1) 概览

每一个词定义一个维度，每一个文档和查询都定义为一个向量，求文档和查询间的相关性就转化为两个向量之间的相似度。
(2) VSM框架的不足
没有说明如何准确定义这些基本概念如语义概念
没有说明应如何准确地将文档和查询放在这个空间中，即如何得到术语权重
没有给出如何定义相似度量方法
(3)最简单的实例化
维度：一个单词一个维度
向量：0和1表示该词在q/d中不出现或出现
相似度：点乘
这里写图片描述

练习
这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
text retrieval week1

一、文本访问 1. 访问方式：pull push pull: 用户通过搜索引擎等搜索访问，可满足用户的临时信息需求 pull模式下有两种技术：查询(搜关键词) 浏览(看相关主题信息) push: 系统推荐信息给用户二、文本检索 1. 文本检索vs数据库检索 2. 文本检索的公式化表达最终任务就是要计算文档的相关性R’(q) R’(q)计算方法：文档选择文...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。