java爬虫进阶 —— ip池使用，iframe嵌套，异步访问破解

最新推荐文章于 2024-08-04 07:00:00 发布

紫荆王朝

最新推荐文章于 2024-08-04 07:00:00 发布

阅读量2.8k

点赞数

文章标签： iframe selenium

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wu18296184782/article/details/80269274

版权

本文介绍了爬虫与反爬虫的基本概念，阐述了常见的反爬手段，如IP封锁、动态加载和iframe嵌套等，并详细讲解了如何使用IP池、selenium和处理动态加载来破解这些反爬措施。

摘要由CSDN通过智能技术生成

写之前稍微说一下我对爬与反爬关系的理解

一、什么是爬虫

爬虫英文是splider，也就是蜘蛛的意思，web网络爬虫系统的功能是下载网页数据，进行所需数据的采集。主体也就是根据开始的超链接，下载解析目标页面，这时有两件事，一是把相关超链接继续往容器内添加，二是解析页面目标数据，不断循环，直到没有url解析为止。举个栗子：我现在要爬取苏宁手机价格数据，爬取思路就是拿到第一页的url作为蜘蛛网的中心点开始，爬取当页的手机详情页面的价格信息以及下一页的url并添加进容器，这样循环往复只要存放url容器里有就会一直往下机械执行，直到尾页没有下一页，这就是个扩散的过程。

二、什么是反爬虫以及为什么要反

反爬虫就是根据请求的一定的访问特征进行特殊处理，比如封Ip，弹验证码，返回不对应信息等等。

至于反爬的原因大概有几点

1、爬虫占总PV值高，就相当于一大群僵尸用户在访问你的网站，如果不管制，平白浪费服务器资源

2、某些则是出于商业竞争问题必须反爬，不让自己的商业信息被对手批量获取。之前看到一个例子很贴切，两个to B公司对外售卖商品，而一家写了一个自动爬取对手网站商品价格并于己方商品价格对比，保持低于一定价格进行动态浮动的脚本，顾客在买之前肯定会对同行业价格进行了解，于是结果你们都懂，对方很快发现这边的公司动的手脚，于是一场哄哄烈烈爬与反爬的较量开始了

3、还有就是一些无人认领的爬虫，可能用的人都忘了它的存在，一直在辛勤的爬

三、常见的一些反爬手段

1、根据ip访问频率以及数量上限封锁ip，那个用户会一秒访问页面几十次或者连续几小时每隔半秒访问一次，动作很明显，封就完事了。

2、还有就是加载页面时动态获取，而不是静态数据了。举个栗子，某东的价格信息是动态加载

3、还有就是

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。