模拟登陆及IP知识相关学习

一、使用selenium模拟登陆163邮箱
注意一定要用google浏览器,我刚开始默认浏览器为QQ浏览器,然后就出现错误,还有chromedriver要下浏览器对应版本,否则可能无法作用。我是把下载后的ChromeDriver的可执行文件拖到了Python的Scripts目录下了,此外当然可以采用另一种方法即单独将其所在路径配置到环境变量。
好了,话不多说,直接上代码:
在这里插入图片描述
为了不必不同的用户输入账号密码时每次都要修改源代码,提高用户体验,我采用弹出输入框来输入账号代码,可能有人说这与直接在浏览器中不一样吗?实则还有很大区别,如果在模拟登陆之后还有其他自动采集信息等功能模块,然后再把整个程序封装之后,留输入框作为与外部接口,这将是一个小小的相对独立软件,可以给不同用户使用,而不必每次都要手动去源代码区域修改信息。以上仅我个人观点,很浅薄,有纰漏请读者指正!
二、IP学习
1、为什么会出现IP被封的情况?
原因是被爬取网站采取了一些反爬虫的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这种情况可以成为封IP,于是乎网站成功地把我们的爬虫封禁掉了。
2、如何应对IP被封的问题?
(1)修改请求头,模拟浏览器(而不是代码去直接访问)去访问,也就是伪装成浏览器而不让网站识别出我们是爬虫,这样就可以大大降低被封IP的概率了。
(2)采用代理IP并轮换。既然服务器检测的是某个IP单位时间的请求次数,那么我们借助某种方式来伪装IP,让服务器无法识别由我们本机发起的请求,不就可以成功防止封IP么?而这种方式就是使用代理IP。
(3)设置访问时间间隔。可以通过这样来使自己的IP访问不至于过于频繁,从而降低被封IP的概率。
3、抓取西刺代理,构建自己的代理池。
时间紧,DDL,多谢whenif博主的文章,我对着书边理解边照葫芦画瓢,我直接上代码:
在这里插入图片描述
在这里插入图片描述
运行结果:在这里插入图片描述
参考资料:Python3网络爬虫开发实战【崔庆才】著;
https://blog.csdn.net/weixin_42937385/article/details/88150379;
https://blog.csdn.net/weixin_43720396/article/details/88218204;
https://www.jianshu.com/p/ecf5353333f6。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值