全文搜索引擎

全文搜索引擎的原理及组成

全文搜索引擎通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容并按事先设计好的动建立网页的索引。全文搜索引擎规则分析整理形成素引,供用户查询。全文检索自般由信息采集、索引和搜索三个部分组成。,依靠超链接和HTML代码分析获取网页信息内容,并按实现设计好的规则分析整理成索引,供用户查询。全文检索自动建立网页的检索。全文搜索引擎一般由信息采集、索引和搜索 三个部分组成。
信息采集
信息采集的工作由搜索器和分析器共同完成,搜索引擎利用自动检索机器人程序来查询网页上的超链接。“机器人”不断从一个网页转到另一个网页,从一个站点移动到另一个站点 ,将采集到的网页添加到网页数据库中。“机器人”每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果机器人”建立一个适当的初始网页集,从这个初始网页集出发,查遍所有链接,“机器人”将能够采集到整个Web空间的网页。搜索机器人有专门的搜索链接库,在搜索相同超链接时,会自动比对新旧网页内容和大小,如果一致, 则不采集。
索引
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则编排。 索引可以采用通用的大型数据库,也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分,涉及到网页结构分析、分词和排序等技术,好的索引能极大地提高检索速度。
检索
用户向搜索引擎发出查询要求,搜索引擎接受查询要求并向用户返回资料。有的系统在返回结果之前对网页的相关度进行计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级,返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。

WuKong 全文搜索引擎。功能特性:高效索引和搜索(1M条微博500M数据28秒索引完,1.65毫秒搜索响应时间,19K搜索QPS)支持中文分词(使用sego分词包并发分词,速度27MB/秒)支持计算关键词在文本中的紧邻距离(token proximity)支持计算BM25相关度支持自定义评分字段和评分规则支持在线添加、删除索引支持持久存储可实现分布式索引和搜索采用对商业应用友好的Apache License v2发布示例代码:package main import (     "github.com/huichen/wukong/engine"     "github.com/huichen/wukong/types"     "log" ) var (     // searcher是协程安全的     searcher = engine.Engine{} ) func main() {     // 初始化     searcher.Init(types.EngineInitOptions{         SegmenterDictionaries: "github.com/huichen/wukong/data/dictionary.txt"})     defer searcher.Close()     // 将文档加入索引     searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"})     searcher.IndexDocument(1, types.DocumentIndexData{Content: "百度宣布拟全资收购91无线业务"})     searcher.IndexDocument(2, types.DocumentIndexData{Content: "百度是中国最大的搜索引擎"})     // 等待索引刷新完毕     searcher.FlushIndex()     // 搜索输出格式见types.SearchResponse结构体     log.Print(searcher.Search(types.SearchRequest{Text:"百度中国"})) } 标签:WuKongSearch
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值