Search Engine
文章平均质量分 78
zhouhong0801
路漫漫其修远兮,吾将上下而求索。
展开
-
网络蜘蛛
前言 搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。 用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了, 更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这 需由转载 2007-12-29 14:56:00 · 1090 阅读 · 1 评论 -
网友写的分析百度的分词方法
转载 2007-12-29 19:12:00 · 643 阅读 · 0 评论 -
排序技术
PageRankPageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了 A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。 计算PageRank值的公式: 其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页原创 2007-12-29 12:09:00 · 1049 阅读 · 0 评论 -
系统架构
搜索引擎技术和分类 搜索引擎的技术基础是全文检索技术。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点:1. 数据量:统全文检索系统面向的是转载 2007-12-29 18:48:00 · 403 阅读 · 0 评论