全文搜索引擎

最新推荐文章于 2023-11-27 19:30:32 发布

weixin_45671134

最新推荐文章于 2023-11-27 19:30:32 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/weixin_45671134/article/details/103250249

版权

全文搜索引擎的原理及组成

全文搜索引擎通过自动的方式分析网页的超链接，依靠超链接和HTML代码分析获取网页信息内容并按事先设计好的动建立网页的索引。全文搜索引擎规则分析整理形成素引，供用户查询。全文检索自般由信息采集、索引和搜索三个部分组成。,依靠超链接和HTML代码分析获取网页信息内容，并按实现设计好的规则分析整理成索引，供用户查询。全文检索自动建立网页的检索。全文搜索引擎一般由信息采集、索引和搜索三个部分组成。
信息采集
信息采集的工作由搜索器和分析器共同完成，搜索引擎利用自动检索机器人程序来查询网页上的超链接。“机器人”不断从一个网页转到另一个网页，从一个站点移动到另一个站点 ,将采集到的网页添加到网页数据库中。“机器人”每遇到一个新的网页,都要搜索它内部的所有链接，所以从理论上讲，如果机器人”建立一个适当的初始网页集，从这个初始网页集出发，查遍所有链接，“机器人”将能够采集到整个Web空间的网页。搜索机器人有专门的搜索链接库，在搜索相同超链接时，会自动比对新旧网页内容和大小，如果一致，则不采集。
索引
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则编排。索引可以采用通用的大型数据库，也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词和排序等技术，好的索引能极大地提高检索速度。
检索
用户向搜索引擎发出查询要求，搜索引擎接受查询要求并向用户返回资料。有的系统在返回结果之前对网页的相关度进行计算和评估,并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级，返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。不同搜索引擎有不同的排序规则，因此在不同的搜索引擎中搜索相同关键词，排序是不同的。