一、文本访问
1. 访问方式:pull push
pull: 用户通过搜索引擎等搜索访问,可满足用户的临时信息需求
pull模式下有两种技术:查询(搜关键词) 浏览(看相关主题信息)
push: 系统推荐信息给用户
二、文本检索
1. 文本检索vs数据库检索
2. 文本检索的公式化表达
最终任务就是要计算文档的相关性R’(q)
R’(q)计算方法:文档选择 文档排序
(1)文档选择 (绝对相关性)
输入为d文档,q查询,f函数输出为1或0,表示d和q是相关或不相关
该方法的局限性:很难确定0和1分类的界限;即使分类是准确的,我们还想把这些相关文件区分开,因为它们通常不同样相关。
(2)文档排序(相对相关性)
其中theta是人为给定的一个停止值,输出值将进行排序
3. 文本检索的模型
3-1 向量空间模型
(1) 概览
每一个词定义一个维度,每一个文档和查询都定义为一个向量,求文档和查询间的相关性就转化为两个向量之间的相似度。
(2) VSM框架的不足
没有说明如何准确定义这些基本概念 如语义概念
没有说明应如何准确地将文档和查询放在这个空间中,即如何得到术语权重
没有给出如何定义相似度量方法
(3)最简单的实例化
维度:一个单词一个维度
向量:0和1表示该词在q/d中不出现或出现
相似度:点乘
练习