搜索引擎—原理、技术与系统

     前天学了一下lucene,感觉自己这方面的理论知识太欠缺了,所以又去下载了《搜索引擎—原理、技术与系统》这本电子看一下,补补相关原理性的东西,以便日后用lucene不至于那么迷惑。

  把今天的看的点知识,挑重要的记下来。

  1)搜索引擎是什么?

  “搜索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。

  网络搜索引擎:它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。(全引自《搜索引擎—原理、技术与系统》,呵呵,没有进行任何提炼)。

 

  2)网络搜索引擎的主要组成

  主要分为三个子系统:网页搜集,预处理和查询服务。

 

  3)网络搜索返回的主要结果

   最终提供给用户的是:三个元素(标题<title></title>,网址链接URL,摘要)结果集列表。

      “在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表”,强调:可以接受的时间匹配列表(需要rank).

 

    4)三个子系统的基本策略

  (1)网页搜集:提前抓取(crawl)-策略:定期搜集或增量搜集或折中。

   具体搜集:主动链接深度递归遍历求异收集或链接的宽度求异收集或折中。

  

  (2)预处理:关键词的提取,重复或转载网页的消除,链接分析,网页重要程度的计算。

  

  (3)查询服务:查询方式和匹配,结果排序,文档摘要。

     已得到了网页索引数据库:原始网页文档,URL和标题,编号,所含的重要关键词的集合(以及它们在文档中出现的位置信息),其他一些指标(例如重要程度,分类代码等)-倒排文件结构的索引数据库。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值