搜索引擎入门（二）

最新推荐文章于 2023-08-03 17:45:18 发布

ylf13

最新推荐文章于 2023-08-03 17:45:18 发布

阅读量830

点赞数

分类专栏：算法搜索引擎SE 文章标签：搜索引擎入门爬虫统计特性搜索引擎分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ylf13/article/details/14648537

版权

算法同时被 2 个专栏收录

71 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

申明：我也是刚开始学习搜索引擎，如果有不妥指出望指出，此系列博文只是记录我学习的历程罢了，不喜勿喷。

Author:元子

*********************************************************************

搜索引擎一般可以分为四个系统：

（1）下载系统

就是我们平时所说的爬虫，Crawler.

在Windows下，我们可以利用telnet实现网页的抓取，例如输入：

telnet http://www.sina.com.cn 80

进入telnet的对话：

Get /index.html

这样就可以得到网页了

在linux下，可以利用wget

wget http://www.sina.com.cn/index.html

申明：以上我没有实际测试，如果运行不了，稍微上网查询下具体用法，以前有用过可以的。

不过现在Java提供了很多开源的包，可以方便我们进行网页抓取，例如HttpClient apache下的一个项目，这个包相当与一个网页浏览器，几乎可以做到你想得到的，具体大家可以上网自行下载，如果你很懒，懒得和我一样。。。那就回复个邮箱，我发给你。。。

这个下载系统就是可以让我们下载到我们需要的网页。

（2）分析系统

分析系统负责抽取下载系统得到的网页数据，并进行PageRank和分词等等计算。

（3）索引系统

负责将分析系统处理后的网页对象索引入库，这个索引库将成为我们以后用户查询的目标地，这里索引系统的好坏决定来我们搜索引擎的响应速度，现在的谷歌和百度搜狗之所以能在毫秒级返回数据结果，可见他们的索引能力，当然这个速度是利用缓存的优势，这个后面我们在一起研究研究。

（4）查询系统

这个系统主要分析用户提交的查询词，根据查询词向索引系统发出查询请求。然后根据索引结果生成网页返回给用户。。

总结下：123这三个系统可以被称为离线系统，就是对于我们查询用户来说是透明的，他在我们还没有发出查询之前就已经准备好来。

因特网上的一些统计特性：

（1）因特网有人比喻程一个牙妹蝶型，（网页指向从左翅--》身体--》右翅）

蝴蝶左边翅膀的网页较少被别的网页引用，更多的是指向别的网页，所以这种网页是目录式的，他们更多的是方便我们上网冲浪

蝴蝶身体则是一般性网页，被众多网页指向，同时又指向别的网页

蝴蝶右边翅膀则是权威网页，一般都是别人指向它，它较少去引用别人的。

这种分类的好处是：以后pageRank会利用这个思想进行。

（2）有人统计，因特网的平均直径大约17次，这就是说点击17次网页，我们几乎可以达到我们想要去的任何网页，你信么？反正我信了，记得以前有人做过实验，人与人之间只需要通过6个朋友的朋友。。。就会发现他们是认识的。。

所以进行网页的宽度遍历比进行深度遍历更有价值

（3）网页呈现爆炸式增长，that's all

---------------------------------------------

预告：下篇我们将从第一个网页爬虫开始，先抓取一个网页试试

*********************************************************************

申明：我也是刚开始学习搜索引擎，如果有不妥指出望指出，此系列博文只是记录我学习的历程罢了，不喜勿喷。

Author:元子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ylf13 CSDN认证博客专家 CSDN认证企业博客

码龄14年

131: 原创

24万+: 周排名

103万+: 总排名

25万+: 访问

: 等级

3889: 积分

28: 粉丝

23: 获赞

13: 评论

120: 收藏

私信

关注

热门文章

分类专栏

最新评论

python矩阵运算
忆林520: 有点乱。。。
算法习题51：输入一个正数n，输出所有和为n连续正数序列
Lonely绿豆蛙: 虽然是一个简单题，但是做法细节真不少，为楼主补充数学方法的代码： [code=python] def fun0(n): # enum length of the range: k+1 for k in range(1, (int(math.sqrt(8 * n + 1) - 1) // 2)): t = (2 * n - k ** 2 - k) if t > 0 and (t / (2 * k + 2)).is_integer(): print_res(t // (2 * k + 2), t // (2 * k + 2) + k) [/code]
matlab并行运算(parallel computing)
qq_34828394: 请问出现这种情况怎么解决？"Found an interactive session. You cannot have multiple interactive sessions open simultaneously. To terminate the existing session, use 'delete(gcp)'"
算法习题51：输入一个正数n，输出所有和为n连续正数序列
qq_43506061 回复 qq_43506061: 这个其实就是类似以排序比排序稍微简单一点都是利用了指针的想法
算法习题51：输入一个正数n，输出所有和为n连续正数序列
qq_43506061: [code=java] public void test1(Integer sum){ //最外层for循环控制第一个指针 for(int i = 1; i < sum;i++){ //当前指针初始值 Integer result = i; //第二个指针 for(int j = i+1; j < sum;j++){ //结果累加 result = result + j; //累加到和传入的值相同输出结果 if(result == sum){ //结束 System.out.println(i+"----"+j); } } } } [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。