常见的基础反爬
1、Headers反爬虫 :Cookie、Referer、User-Agent
解决方案: 通过F12获取headers,传给requests.get()方法
2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问
解决方案:
1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池
2、购买开放代理或私密代理IP
3、降低爬取的速度
3、User-Agent限制 :类似于IP限制
解决方案: 构造自己的User-Agent池,每次访问随机选择(或者使用python库生成User—Agent)
4、Ajax动态加载 :从url加载网页的源代码后,会在浏览器执行JavaScript程序,这些程序会加载更多内容
解决方案: F12或抓包工具抓包处理
5、对查询参数加密
解决方案: 找到JS文件,分析加密算法,用Python实现加密执行JS文件中的代码,返回加密数据
6、对响应内容做处理
解决方案: 打印并查看响应内容,用xpath或正则做处理
7、js加密 时间戳 加密算法等等
解决方案:查看源代码做相应操作