常见反爬策略攻略

基于python 一般常见的反爬策略
1 常见的请求方式 requests 一般都是脚本或者scrapy ,建议使用脚本 直接requests 请求就可以,scrapy 太重了
2 规则使用xpath pyquery 个有个的好处,看自己需要哪种
3 一般的2 to 2 网页 添加代理 ,加上超时 时间,添加headers 都能采集下来
4 有些网站反爬措施稍微厉害,需要你获取cookies ,一步一步的找规律 例如搜狗微信
的采集是要请求多个url 拿到里面的sunid 再通过 sunid 根据重定向的url 继续请求 再拼接 后 作为参数 传给新的url 拿到cookie 才会获取到真实的数据。
5 对于登陆才能采集的数据,则需要你依靠一些打码平台,来模拟请求进行登录后采集
6 对于动态的页面 ,或者实在找不到规律的 则需要 你解析一下js 或者使用 selenium 直接使用自动化操作。
其实对于采集 最重要就是代理 ,和cookies 只要代理的质量过关基本上所有的都能采集下来
优质代理:http://www.sunnet365.com/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瓶瓶罐罐的

如果帮助到你了,请来点实际的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值