全文搜索引擎的原理及组成
全文搜索引擎通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容并按事先设计好的动建立网页的索引。全文搜索引擎规则分析整理形成素引,供用户查询。全文检索自般由信息采集、索引和搜索三个部分组成。,依靠超链接和HTML代码分析获取网页信息内容,并按实现设计好的规则分析整理成索引,供用户查询。全文检索自动建立网页的检索。全文搜索引擎一般由信息采集、索引和搜索 三个部分组成。
信息采集
信息采集的工作由搜索器和分析器共同完成,搜索引擎利用自动检索机器人程序来查询网页上的超链接。“机器人”不断从一个网页转到另一个网页,从一个站点移动到另一个站点 ,将采集到的网页添加到网页数据库中。“机器人”每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果机器人”建立一个适当的初始网页集,从这个初始网页集出发,查遍所有链接,“机器人”将能够采集到整个Web空间的网页。搜索机器人有专门的搜索链接库,在搜索相同超链接时,会自动比对新旧网页内容和大小,如果一致, 则不采集。
索引
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则编排。 索引可以采用通用的大型数据库,也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分,涉及到网页结构分析、分词和排序等技术,好的索引能极大地提高检索速度。
检索
用户向搜索引擎发出查询要求,搜索引擎接受查询要求并向用户返回资料。有的系统在返回结果之前对网页的相关度进行计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级,返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。