【Query处理学习笔记】搜索引擎查询推荐技术综述_中文信息学报2010_王斌

主要内容:对通用搜索引擎的查询推荐技术的方法、评价进行了总结

具体内容:

“查询推荐”的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting

查询推荐的任务:找出和用户查询相似的query,以便更好地表达用户查询意图,供用户便捷输入

三种技术方法:

1. 基于文档的方法:通过处理query搜索出来的文档,以此作为反馈,进一步理解用户意图,扩充query
(1)全局文档分析:方法如题目
(2)局部文档分析:说一个更通用的名字,是伪相关反馈,用搜索结果的前N篇文章作为文档集合,扩展query,从伪相关文档中进行降维是一个难点,LCA等
(3)基于语言学资源的分析:说白了就是用wordnet或者hownet或者wiki来做同义词扩展

2. 基于日志的方法:日志作为用户的点击行为的记录,能够忠实的反映用户的真实意图。
(1)基于session的方法
简单地说,就是用户搜了什么之后还搜索了什么。往往最后搜索的那个query是能够满足用户当时需求的query。
这个方法,session的判定是个难点
(2)基于click的方法:点击模型
<query, click1, click2....>,这样的query和点击向量组成的数据结构,可以用一些距离函数(如:余弦距离)来计算query之间的相似度
这种方法,用户click的url很多,造成向量的维度很多,降维仍然是一个问题,两种降维途径:1. 聚类;2. 矩阵分解
(3)基于时间分布的方法
即统计query的时间分布,如:在情人节那天搜索“巧克力”的人会比较多。不过这个一般只能作为补充。

评价方法:
基本思路还是人工建立评测集合(或者找国际标准评测集合,如trec),然后算准确率、召回率、NDCG等

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值