搜索引擎----网络爬虫

最新推荐文章于 2022-04-06 15:33:58 发布

xn4545945

最新推荐文章于 2022-04-06 15:33:58 发布

阅读量2k

点赞数 2

分类专栏： NLP/编译/Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xn4545945/article/details/8865724

版权

NLP/编译/Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

网络爬虫以叫网络蜘蛛（Spider或Crawler），网络机器人，是一个程序，会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然，更为高级的技术是把网页中的相关数据分类保存下来，成为搜索引擎的数据源。

基本架构图：

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

从技相来说，实现抓取网页可能并不是一件很困难的事情，困难的事情是对网页的分析和整理，那是一件需要有轻量智能，需要大量数学计算的程序才能做的事情。

爬虫 (Crawler) 原理：

学过数据结构的读者都知道有向图这种数据结构。如下图所示，如果将网页看成是图中的某一个节点，而将网页中指向其他网页的链接看成是这个节点指向其他节点的边，那么我们很容易将整个Internet上的网页建模成一个有向图。理论上，通过遍历算法遍历该图，可以访问到Internet上的几乎所有的网页。最简单的遍历就是广度优先以及深度优先。

在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。

参考：聚焦爬虫技术研究综述与互联网

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎----网络爬虫

网络爬虫以叫网络蜘蛛（Spider或Crawler），网络机器人，是一个程序，会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然，更为高级的技术是把网页中的相关数据分类保存下来，成为搜索引擎的数据源。基本架构图：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直
复制链接

扫一扫

专栏目录

xn4545945 CSDN认证博客专家 CSDN认证企业博客

码龄15年

102: 原创

9万+: 周排名

85万+: 总排名

95万+: 访问

: 等级

7930: 积分

457: 粉丝

248: 获赞

186: 评论

238: 收藏

私信

关注

热门文章

分类专栏

最新评论

解决：java.sql.SQLException: Access denied for user ''@'localhost' (using password: YES)
jsx____: 这种你就别记录了，你下次看见你不觉得自己很内啥吗？人家来查一顿是因为密码写错连不上吗？你哪怕写上是因为没授权其他IP也行。就算不是对症下药也算是正常吧。。。你密码写错了？？这你都你发个博客，真醉了。是你的问题你记录，你要知道人家百度是查问题，你弄个标题在这骗点击倒是真的。你直接标题改成密码打错了不好吗？？？真的是自己记录的话。百度一顿一个个都TM复制粘贴，恶不恶心？
vc6.0中出现Error spawning cl.exe 错误解决办法
对期末考试无语凝噎: 在哪里可以看到它的安装路径啊
Android---项目分享（附源码）
Z_LaoGuai: 网站打不能发我邮箱吗
【iOS】网页中调用JS与JS注入
Tisfy: 深得人心，正如古人云：种竹淇园远致君，生平孤节负辛勤。
数据结构---表达式求值
只想做打工人回复 Gxm :): 是不是括号错了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。