常见的反爬机制

最新推荐文章于 2024-08-25 09:19:51 发布

水星哥@

最新推荐文章于 2024-08-25 09:19:51 发布

阅读量3.5k

点赞数 3

分类专栏：反爬笔记文章标签： python

本文链接：https://blog.csdn.net/xiaosashuixing/article/details/105814460

版权

笔记同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

反爬

1 篇文章 0 订阅

订阅专栏

常见的基础反爬

1、Headers反爬虫 ：Cookie、Referer、User-Agent   
解决方案: 通过F12获取headers,传给requests.get()方法        

2、IP限制 ：网站根据IP地址访问频率进行反爬,短时间内进制IP访问   
解决方案:         
	1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池        
	2、购买开放代理或私密代理IP        
	3、降低爬取的速度        

3、User-Agent限制 ：类似于IP限制   
解决方案: 构造自己的User-Agent池,每次访问随机选择(或者使用python库生成User—Agent)        

4、Ajax动态加载 ：从url加载网页的源代码后,会在浏览器执行JavaScript程序,这些程序会加载更多内容   
解决方案: F12或抓包工具抓包处理
 
5、对查询参数加密   
解决方案: 找到JS文件,分析加密算法,用Python实现加密执行JS文件中的代码,返回加密数据        

6、对响应内容做处理   
解决方案: 打印并查看响应内容,用xpath或正则做处理

7、js加密 时间戳 加密算法等等
解决方案：查看源代码做相应操作