Crawler学习：1.Overview of Crawler

最新推荐文章于 2021-11-04 20:41:21 发布

有田十三

最新推荐文章于 2021-11-04 20:41:21 发布

阅读量759

点赞数

分类专栏：学习笔记 Crawler学习文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yooungt13/article/details/17321845

版权

学习笔记同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

声明：所有内容均为本人学习《自己动手写网络爬虫》心得，有任何疑问可以参考原文。

学习事由：

因为前段时间“照妖镜事件”以及近来云计算的学习，突然感觉到了大数据的魅力。

但是在小七强大的数据分析能力之下，体现的是其团队扎实的技术实力。

《数据的游戏：冰与火》中说道：在大数据时代下，数据象征着权利。

诚然，我们需要的不再是抛弃数据追求结果的数据小农，而是在大数据兵临城下处之泰然的数据大牛。

对于如此之多的数据，其中潜在的价值不言而喻。我们需要慧眼识珠的能力。

但慧眼识珠之前首先要具备得到数据的能力。

据小七团队成员透露，其数据来源是靠自己爬得。不明觉厉之感悠然而生。

遂利用闲暇之余，复习一下网络知识以及学习基础Crawler的实现。

最终目的利用Java实现一个简单的Crawler，具备网页抓取和分析能力即可。

磨刀不误砍柴工。实现之前，需要对爬虫有个基本的认识。

1.Crawler即Web Spider

官方解释：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

网络爬虫，见名知意，行走在万维网上的爬虫，寻找它需要的目标。

Crawler的实现是各大搜索引擎的核心，爬虫的实现就是为了实现在海量链接之中搜索到我们要找的内容。

2.回顾Url

URL 是URI 的一个子集。它是Uniform Resource Locator 的缩写，译为“统一资源定位符”。

通俗地说，URL 是Internet 上描述信息资源的字符串，主要用在各种WWW 客户程序和服务器程序上，特别是著名的Mosaic。

采用URL 可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

URL 的格式由三部分组成：
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址，如目录和文件名等。

第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的，第三部分有时可以省略。

3.Crawler原理

网页抓取，就是Crawler通过指定的URL，把URL地址中的网络资源读取出来保存至本地。

Crawler首先具备网页抓取的能力，其次还必须具备提取网页中其他超链接的能力。

Crawler通过一个网页中的超链接爬向另一个网页，如此进行网络资源搜索。

搜索的算法就如简单的，广搜，深搜。当然百度，谷歌的爬虫有其自己的爬虫算法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Crawler学习：1.Overview of Crawler

声明：所有内容均为本人学习《自己动手写网络爬虫》心得，有任何疑问可以参考原文。学习事由：因为前段时间“照妖镜事件”以及近来云计算的学习，突然感觉到了大数据的魅力。但是在小七强大的数据分析能力之下，体现的是其团队扎实的技术实力。《数据的游戏：冰与火》中说道：在大数据时代下，数据象征着权利。诚然，我们需要的不再是抛弃数据追求结果的数据小农，而是在大数据兵临城下处之泰然的数据
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。