搜索引擎:第一章布尔查询学习笔记

第一章布尔查询学习笔记

 

倒排序记录

 

提取词              文档ID             对词排序                   去重

New                   1                          Forcasts                     Forcasts

Home                 1                          Home                          Home

Sales                  1                          In                                  In

Top                     1                          July                              July

Rise                    1                          New                             New

Forcasts            2                          Rise                             Rise

Sales                  2                          Sales                            Sales

In                        2                          Sales

July                     2

 

对词的排序时根据字母的顺序完成的。

 

布尔查询

Word / DocNum                 1                2                3                4

Think                                     1                0                0                0

Thank                                   1                1                0                1

For                                         0                1                0                1

Approach                             1                0                1                0

其中,前前页存在为1,0为不存在。

如果要找 Think and For,则只需要用1000 and 0101 =》 0000,整个文档没有同时此种存在的情况。

 

一些概念评价搜索的概念

正确率:返回的结果中真正和信息需求相关的文档所在百分比。

召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。

 

一个词条:在文档中出现的字符序列的一个实例。

一个词条:相同词条构成的集合。

 

词干还原:一个很粗略的去除单词两端词缀的启发式过程,并希望大部分时间它都能达到这个正确目的,这个过程也常常包括去除派送词缀。

 

词形归并:利用词汇表和词形分析来去除曲折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词源。

 

跳表:在链式结构中,设置跳表,可以快速的找到要插入的位置。

 
 
 

 

 


目的:可以快速的对数据进行合并。

跳表指针只对and类型的查询有用,而对or类型的查询不起作用。(对于复杂查询产生的中间结果调用hasskip(p)函数则永远返回false)。

跳表的位置一般为P的开方。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值