网络爬虫入门(一):爬虫知识普及

在这里插入图片描述
本篇内容主要是为一些非计算机领域人员以及新入门爬虫领域的人员作简单的介绍,采用的话语比较直白,一些理解不当的地方欢迎大家指正

网络爬虫是什么?

想必很多人都听过网络爬虫,但其实并不太清楚爬虫到底是个什么东西。简单来说,爬虫其实就是一个自动从网上获取数据的程序,这个程序就像一个小虫子一样,在一个个的网站之间爬动,遇见他喜欢吃的(程序要求的)东西就吃掉(获取下来),遇见不喜欢的东西就忽略不理,最后把它这一趟吃的东西带回来交给我们,完成了它这一次的任务(数据采集)。

说到这里可能你就明白了,爬虫就是一个数据获取的程序,本质上它其实就是在模拟人的正常上网过程,把你在网上看到的、需要的内容自动下载存储到本地。既然是模拟,就说明你完全也可以自己来操作,只不过如果让你日日夜夜守在电脑前面,一个个链接的点进去,ctrl+c,ctrl+v的录入一条条数据,不用想就知道是一件极其痛苦的事情(再想想如果你一不留神看差了一条数据,就跟你涂答题卡时涂差了一行一样)。既然计算机的发明就是为了给人们解决问题提供方便的,为啥不好好利用呢?

为什么要学爬虫?

其实上面已经说到了一点,那就是爬虫解放了那些成天守在电脑前不断刷新页面查看数据的人,当然爬虫肯定有他更为深层的价值:

  1. 自动化获取数据,节约了程序开发人员的时间。这样他们有更多的时间和精力去思考如何设计程序,而不是去录入数据。
  2. 实时化获取数据,便于最快得到最新的数据。就好比你在携程上抢票一样,到点后如果晚一步票就被抢光了。数据也一样,有些数据需要及时获取。
  3. 为数据分析、机器学习提供数据。我们知道数据分析、机器学习的前提就是要有足够多的、高质量的数据。如果没有这些数据、再多的东西也不过是纸上谈兵。

一句话来说,真正有价值的是数据本身,爬虫只是为了更快更好的获取数据。

爬虫都能获取哪些数据?

理论上讲,我们日常在网上看到的所有数据都可以通过爬虫程序获取下来,像豆瓣上的电影评分、评论,淘宝中的商品价格评论以及很多社交媒体中的帖子内容,都可以通过爬虫获取下来。

但由于数据即金钱,很多公司也会格外注重自己数据的价值,因而对数据做了很多的保密工作,防止数据被随意的爬取滥用。关于反爬取后面再进行详细的讲解。

爬虫是否合法?

emmm…爬虫合法与否当然不能一概而论,就跟朋友间开玩笑一样,开的好就是促进感情,开不好就是友尽。万物皆有度,只能说爬虫目前还处于早期的拓荒时代,很多具体的法律法规尚未完善,但互联网不是法外之地,目前互联网世界在实际的应用磨合之后建立起了一个道德规范协议-------Robots协议,全称是“网络爬虫排除标准”,简单来说,Robots协议通过定义Allow和Disallow两个字段来规定哪些域名下的页面时可以访问,哪些域名下的页面不能访问,从而对爬虫做了一定的限制。目前,该协议是国际互联网界通行的道德规范,虽然没有写入法律,但身为互联网世界的好公民,我们设计的每一个爬虫都应该遵守这个协议。

一般来说,如果一个爬虫爬取下来的数据仅用作个人或者科研,基本不会存在什么问题,但倘若用作商业盈利范畴,就要就事论事,有些可能违反,有些也可能不违反。

爬虫实现的流程

既然说爬虫是模拟了人浏览网页的过程,那我们先来分析一下人的上网流程是怎样的:

  1. 打开浏览器,输入我们想要访问的页面地址(或者点击网站链接跳转)
  2. 浏览我们打开的网页,阅读一些信息
  3. 大脑记住我们阅读后的一些内容

可以发现,我们上网一共分为三步:①打开网页 ②阅读信息 ③记住相关内容

同理,爬虫大致上也做了这三件事情,它的流程是:①获取网页 ②解析页面 ③存储数据

  1. 获取页面:向请求地址发送一个页面请求,获取后台返回的整个页面信息(类似我们打开一个网页
  2. 解析页面:在页面中对数据进行解析,从中提取我们想要的数据内容(类似我们在网页中阅读信息
  3. 存储数据:把我们需要的数据内容存储到本地中(类似我们记住一些信息,存储在大脑中
    在这里插入图片描述
    以上是对爬虫最基本的概念论述,之后会对上述提及的内容进行进一步技术上的讲解,有兴趣的朋友可以继续关注。
  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值