本文案例采集行行查网站的研究报告、城市精选、产业图谱等数据
网站链接:https://www.hanghangcha.com
本文内容仅供技术学习参考,如有侵权请联系作者删除。
采集风险
该网站需要通过微信扫码并绑定手机号进行登录,而且不开会员只能查看小部分数据。
我搞了10个号,通过小程序拉新开通了会员,采集了一段时间后都被封了。
封禁状态:账号无法进行登录
封禁策略:请求1次/ 2-5秒 ,采集三小时后被封
我感觉和脉脉一样,有专用的风控系统在定时进行爬虫检测,比如12:30,5:30进行大检测,每半小时小型检测。
检测范围:访问频率,访问规律
解决方案:多搞点号,请求频率放慢一点。
解密逻辑
下面进入正文,该网站返回的response都是加了密的。