基于python 一般常见的反爬策略
1 常见的请求方式 requests 一般都是脚本或者scrapy ,建议使用脚本 直接requests 请求就可以,scrapy 太重了
2 规则使用xpath pyquery 个有个的好处,看自己需要哪种
3 一般的2 to 2 网页 添加代理 ,加上超时 时间,添加headers 都能采集下来
4 有些网站反爬措施稍微厉害,需要你获取cookies ,一步一步的找规律 例如搜狗微信
的采集是要请求多个url 拿到里面的sunid 再通过 sunid 根据重定向的url 继续请求 再拼接 后 作为参数 传给新的url 拿到cookie 才会获取到真实的数据。
5 对于登陆才能采集的数据,则需要你依靠一些打码平台,来模拟请求进行登录后采集
6 对于动态的页面 ,或者实在找不到规律的 则需要 你解析一下js 或者使用 selenium 直接使用自动化操作。
其实对于采集 最重要就是代理 ,和cookies 只要代理的质量过关基本上所有的都能采集下来
优质代理:http://www.sunnet365.com/