【爬虫－反爬虫】系列一：基础之概述（1）

最新推荐文章于 2023-05-26 11:45:04 发布

zeng_working

最新推荐文章于 2023-05-26 11:45:04 发布

阅读量488

点赞数

基础之概述

http://blog.csdn.net/u010335393/article/details/50884923
2016-03-09 04:45

在了解爬虫前，应该先知道一些最本质的原则，这也是经常被人忽视的。

大家都知道，通过爬虫可以很方便的在开放网络中获取数据，如果你具备不错的数据挖掘功底，那么就可以提供一些有价值的服务。

像百度，谷歌，搜狐这些大公司，它们的搜索引擎就是一个永不停歇的数据挖掘机，会不停的收录那些新增的网络数据，只有这样才能在你查询的时候提供最新最全面的信息。

所以从这个角度上来讲，爬虫还是很正派的一个功能，比如我有一个网站，那么我会编写亲爬虫式的代码，这样就能更好的被搜索引擎发现~

爬虫 vs 传统的数据处理

跟传统的数据处理程序相比，爬虫程序只是多了一个获取网络数据的接口而已。

举个例子，我经常用perl来编写数据处理脚本，处理的数据都是本地文件，那么这就是一个传统的数据处理程序。

但如果这个数据是来自于网络的话，那就是一个爬虫行为了。

所以，爬虫最核心的问题是解决了怎么从网络中获取数据，如果你本身就有比较优秀的数据处理底子，那么只需要几分钟就能学会最简单的爬虫了。（将网址传入一个函数，这个函数返回网页内容）

爬虫与网页

很多人潜意识中有一个误解，认为爬虫就是获取网页数据，其实这个理解有点片面，从宏观上讲，爬虫针对的是网络上的一切数据，既可以来自于网站，也能来自于app。但从狭义上讲，绝大部分爬虫只专心解决某一类请求数据，那就是来自于http/https协议的请求。

只是说网页都是使用的http/https协议，所以爬虫库能轻松应对，那么换个角度，如果app也是使用http协议进行数据请求的话，你就应该知道，获取这些app数据本质上与网页数据并没有区别。

所以当有人问你，你就可以告诉它，之所以爬虫能获取网页数据，是因为爬虫使用了支持http协议的函数库，能模拟http请求。

http是无状态协议

每一个http请求都是一次独立的访问，所以这个请求本身必须携带足够证明其上下文环境的数据，一般是存放在cookie中。

如果不这样做，服务器就无法确定你是哪个状态下的请求：是登陆过的呢？还是未登陆过的？是登陆的A用户？还是B用户？

认识到这一点非常非常重要，通过它你能理解很多问题。

比如我在A电脑上访问一个请求，同样的，把这个请求复制到地球另一端的B电脑上，获取的数据也会跟你一样。你可能说，我在A电脑上是登录过的，但是B电脑明显没有登录，为什么还能获取到一样的数据？那么你就可以解释，因为请求本身就携带了能证明其登陆过的“证据”，所以只要有了这些证据，实际上我不必执行真正的登陆操作。

所以某些场合下，你是可以跳过登陆场景的，只是需要做一些准备操作，比如提前获取能证明你是登陆状态下的“证据”。

解释了这么多，希望你能看明白，因为这是反爬虫的最核心思想。

反爬虫所做的，就是尽一切力量去骗取服务器的信任。

爬虫姿势

理解了上面的内容，你就可以开始考虑自己的爬虫姿势了，好的姿势能让你事半功倍~常见的有如下几种。

直接访问网页

这是最基础的姿势，通过网址获取返回数据。如果这样就能满足你对数据的要求，那么建议你选择它，因为最简单。

调用异步接口

很多网页为了客户体验性，一开始并不会把所有数据都加载给客户，只在客户需要的时候才加载，这时候会异步调用服务器接口（ajax）获取数据。

绝大部分网站都会这样做，而且通过这种方式获取的数据一般都是最直接的json格式，基本上不需要你做任何额外处理，非常方便。怎么知道哪些是异步请求呢？可以通过如下方式查看异步请求。

打开chrom浏览器 =》进入网页 =》右击网页 =》审查元素 =》选择Network栏目 =》刷新网页 =》点击下方的XHR筛选

出来的都是异步加载请求。

你会发现，异步请求跟普通请求一模一样。

通过这种姿势能高性能的获取数据，但依赖于网站的接口规则，如果网站更改了参数规则，那么你也得同步调整。

借助虚拟浏览器模拟用户行为

这是最后的大招，不到万不得已不要使用，因为性能实在是太低，可能比异步接口慢上百倍。

这种姿势的核心思想是：Do it like a real man.

通过模拟用户的真实操作：如点击，移动鼠标等，最终达到获取数据的目的。

这也不难理解为什么它会很慢了，因为要模拟用户操作，爬虫就需要调用浏览器各种接口，通过层层传递直到触发真正的http请求。每个请求都这么搞一下，能不慢吗？尤其是模拟过程中需要不确定的等待返回，更是严重拉低性能。

我使用过的有phantomjs，它包含一个虚拟浏览器内核，也就是没有界面的浏览器（对于爬虫而言也并不需要界面），如果你要点击一个按钮，就把这个点击按钮的操作发送给浏览器即可。

这种姿势最常用在自动化测试方面，对于爬虫来说反而有点鸡肋了。

对于爬虫程序，主要是用前两种姿势~

本专题也不会针对第三种姿势做过多介绍，因为那属于工具范畴。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫－反爬虫】系列一：基础之概述（1）

基础之概述http://www.wtoutiao.com/p/158wjxK.html2016-03-09 04:45 在了解爬虫前，应该先知道一些最本质的原则，这也是经常被人忽视的。大家都知道，通过爬虫可以很方便的在开放网络中获取数据，如果你具备不错的数据挖掘功底，那么就可以提供一些有价值的服务。像百度，谷歌，搜狐这些大公司，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。