写之前稍微说一下我对爬与反爬关系的理解
一、什么是爬虫
爬虫英文是splider,也就是蜘蛛的意思,web网络爬虫系统的功能是下载网页数据,进行所需数据的采集。主体也就是根据开始的超链接,下载解析目标页面,这时有两件事,一是把相关超链接继续往容器内添加,二是解析页面目标数据,不断循环,直到没有url解析为止。举个栗子:我现在要爬取苏宁手机价格数据,爬取思路就是拿到第一页的url作为蜘蛛网的中心点开始,爬取当页的手机详情页面的价格信息以及下一页的url并添加进容器,这样循环往复只要存放url容器里有就会一直往下机械执行,直到尾页没有下一页,这就是个扩散的过程。
二、什么是反爬虫以及为什么要反
反爬虫就是根据请求的一定的访问特征进行特殊处理,比如封Ip,弹验证码,返回不对应信息等等。
至于反爬的原因大概有几点
1、爬虫占总PV值高,就相当于一大群僵尸用户在访问你的网站,如果不管制,平白浪费服务器资源
2、某些则是出于商业竞争问题必须反爬,不让自己的商业信息被对手批量获取。之前看到一个例子很贴切,两个to B公司对外售卖商品,而一家写了一个自动爬取对手网站商品价格并于己方商品价格对比,保持低于一定价格进行动态浮动的脚本,顾客在买之前肯定会对同行业价格进行了解,于是结果你们都懂,对方很快发现这边的公司动的手脚,于是一场哄哄烈烈爬与反爬的较量开始了
3、还有就是一些无人认领的爬虫,可能用的人都忘了它的存在,一直在辛勤的爬
三 、常见的一些反爬手段
1、根据ip访问频率以及数量上限封锁ip,那个用户会一秒访问页面几十次或者连续几小时每隔半秒访问一次,动作很明显,封就完事了。
2、还有就是加载页面时动态获取,而不是静态数据了。举个栗子,某东的价格信息是动态加载
3、还有就是