text retrieval week1

一、文本访问
1. 访问方式:pull push
pull: 用户通过搜索引擎等搜索访问,可满足用户的临时信息需求
pull模式下有两种技术:查询(搜关键词) 浏览(看相关主题信息)
push: 系统推荐信息给用户
二、文本检索
1. 文本检索vs数据库检索
这里写图片描述
2. 文本检索的公式化表达
这里写图片描述
最终任务就是要计算文档的相关性R’(q)
R’(q)计算方法:文档选择 文档排序
(1)文档选择 (绝对相关性)
输入为d文档,q查询,f函数输出为1或0,表示d和q是相关或不相关
这里写图片描述
该方法的局限性:很难确定0和1分类的界限;即使分类是准确的,我们还想把这些相关文件区分开,因为它们通常不同样相关。
(2)文档排序(相对相关性)
其中theta是人为给定的一个停止值,输出值将进行排序
这里写图片描述
3. 文本检索的模型
这里写图片描述
3-1 向量空间模型
(1) 概览
这里写图片描述
这里写图片描述
每一个词定义一个维度,每一个文档和查询都定义为一个向量,求文档和查询间的相关性就转化为两个向量之间的相似度。
(2) VSM框架的不足
没有说明如何准确定义这些基本概念 如语义概念
没有说明应如何准确地将文档和查询放在这个空间中,即如何得到术语权重
没有给出如何定义相似度量方法
(3)最简单的实例化
维度:一个单词一个维度
向量:0和1表示该词在q/d中不出现或出现
相似度:点乘
这里写图片描述
这里写图片描述

练习
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值