搜索引擎技术总结1

搜索引擎一般由搜索器,索引器,检索器和用户接口组成。
搜索器:日夜运行的程序搜集网络上各类新信息,更新旧信息--1.从一起始url以宽度优先或深度优先或启发式方式循环在网络中发现信息。2.将web空间按照域名,IP地址和国家名划分,每个搜索器负责一个子空间的穷经搜索。
索引器:理解搜索器搜索到的信息,抽取出索引项建立索引表。索引项有客观索引和内容索引。客观索引与文档语意无关如作者名时间等;内容索引如关键词及其权值。索引器采用集中式或分布式或即时索引算法。

检索器:根据用户查询在索引库中快速检出文档进行文档相关度评价,对结果进行排序,反馈文档的相关性。检索器常用模型有集合理论,代数,概率论和混合模型等。
用户接口
:输入查询,显示结果,提供相关性反馈机制。有简单接口和复杂接口之分。

搜索引擎一般分为:

基于机器人--由机器人,索引器和搜索器组成;

目录搜索引擎如yahoo---用户界面一般都是分级结构,用户一级一级访问,直至感兴趣目标。目录只保存对站点的描述,搜索也就只在描述中进行,因此站点动态变化不会影响搜索结果;

元搜索引擎---由检索请求提交机制,检索接口代理机制,检索结果显示机制组成,本身并没有存放网页信息的数据库,当用户查询关键词时,将请求转换成其他搜索引擎能接受的命令格式,并行地访问数个搜索引擎来查询此关键词,将结果排除排序后作为自己的结果呈现给用户。

相关技术:

搜索器---搜索机器人爬行页面是根据HTTP协议获取页面,有些相关技术可以提 高 页 面获取的速度及数量。如:
①有效的 利用HTTPL 1 的PERSISTENTC ONNECTION。平常与Web服务器一次连接下载一个文档,下载多个文档需建立多个连接。利用PERSISTENT CONNECTION一次连接可下载多个文档。同时,可在TCPV2协议上建立连接,使得建立连接的握手和传送请求在一个TCP包中完成。这两种方法能减少大量传送时间。

②有 效 的 利用HTTP1. 0,1.1的CONTENT NEGOTIATION,尽量获取非HTML, TXT格式的HTML版本。许多PDF, PS格式文件包含丰富的信息,但无法被INDEXER索引,因为在此类文件中抽取信息,需耗费大量时间。利用ACCEPT HEADER,信息服务器将尽量提供HTML,TXT版本。

索引器设计中的相关技术如下:

① 中文分词技术如何从中文句子中切分出合适的词汇,一直是中文处理的难题。中文分词有基于词典和基于统计的两种方法。前者速度快,分词准确,但依赖于完备的中文词典。后者根据词频等统计特性,不依赖于词典,但误差大。在实际的应用中,可以结合两者的特点。索引器采用基于词典的分词方法,后台程序能在搜索下来的Web文本中,利用统计的方法发现新词语,加入词典中。一些启发式的方法将用于发现专有名词,如公司名、地名、姓名等。

词典的设计INDEXOR查询词典很频繁,因此词典设计力求高效率。采用PAT TREE算法生成词典,能动态添加新词,并且非常有利于基于统计的中文分词方法。

关于网页的排序索引系统中权值计算模块其实就是一个网页排序的模块。排序方法主要是利用页面间的链接关系,描述链接的文本以及文本自身内容。一个文本在一组文本中的重要性不是自描述的,它应该由一组文本间相互引用关系决定。HONM. KLEINBERG提出了找HUB节点及AUTHORITATIVE节点的HITS迭代算法。它基于这样一个想法,HUB节点指向多AUTHORITATIVE节点,而AUTHORITATIVE节点被多个HUB节点指向。SOUMEN CHAKRABARTI在此基础上加以改进,利用描述链接的本内容(ANCHOR TEXT),精化了结果。JEFFREY DEAN提出TCO-CITATION的概念,来搜寻相关网页。一个网页的相关网页可能是下面几种:它所指向的节点A,所有指向它的节点B,它的兄弟节点,包括A所指向的节点,指向B的节点。在此基础上,再采用一些措施去掉一些不相关的节点,来使用HITS算法。而为了解决HITS算法的某些不足。]提出了PAGERANK算法,对整个INTERNET网页排序。在基于主题的搜索中,将文本与主题的相关度引入HITS算法,取得很好
的效果。基于HITS的各种算法已进行了实际运用,取得了很好的效果。如PAGERANK算法已运用于GOOGLE中。一般的HITS算法,适用于在用户的一次查询结果中精选出HUB, AUTHORITATIVE节点。而结合文本相关性HITS算法,适用于主题搜索,但是上述算法都是基于迭代实现,速度慢,只适合于批量更新模式下的排序或一次查询结果的精化。如果将用户网上冲浪的行为抽象为马尔可夫链,可实现线性的快速排序。

聚集式的搜索引擎(FOCUSED crawler) 主要有两方面的运用:I,在磁盘空间有限的情况下,搜索最有价值的网页;II,根据选定的主题,搜索相关的网面。它的结构与一般的搜索引擎类似。只不过INDEXERPARSER出链接后,将待搜索的URL按一定的规则排序,提供给。rawler继续搜索。

文本向量库和链接地图的建立。RAYMIE STATA提出了建立文本向量库 的 实 现方法,己实际应用于ALTA VISTA。它将搜索引擎文本库中的文本提取出特征向量,生成向量库提供快速查询。可应用于结果的排序和快速自动分类。

文本的自动归类技术。可以采用现有的目录层次,以及每一目录下的样 本 文 章,如RDF的目录及内容库,训练分类器,自动选出描述某一 类 目 的关键字组和权值,计算待分类文本的向量,通过计算内积的大小,判断相关性。文本自动归类法己有很多研究,YIMINGYA N G 提出了归类算法的评价方案,SOUMEN CHAKRABARTI将BA YE S算 法的层次类目归类法用于基于主题的搜索引擎。

发展前景:.网站内和企业局域网内搜索引擎的普及化;搜索引擎统计数据的应用。


 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值