模拟登陆及IP知识相关学习

最新推荐文章于 2020-10-13 11:11:29 发布

zpc1219

最新推荐文章于 2020-10-13 11:11:29 发布

阅读量256

点赞数

分类专栏：技术

本文链接：https://blog.csdn.net/zpc1219/article/details/89217312

版权

技术专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、使用selenium模拟登陆163邮箱
注意一定要用google浏览器，我刚开始默认浏览器为QQ浏览器，然后就出现错误，还有chromedriver要下浏览器对应版本，否则可能无法作用。我是把下载后的ChromeDriver的可执行文件拖到了Python的Scripts目录下了，此外当然可以采用另一种方法即单独将其所在路径配置到环境变量。
好了，话不多说，直接上代码：
在这里插入图片描述
为了不必不同的用户输入账号密码时每次都要修改源代码，提高用户体验，我采用弹出输入框来输入账号代码，可能有人说这与直接在浏览器中不一样吗？实则还有很大区别，如果在模拟登陆之后还有其他自动采集信息等功能模块，然后再把整个程序封装之后，留输入框作为与外部接口，这将是一个小小的相对独立软件，可以给不同用户使用，而不必每次都要手动去源代码区域修改信息。以上仅我个人观点，很浅薄，有纰漏请读者指正！
二、IP学习
1、为什么会出现IP被封的情况？
原因是被爬取网站采取了一些反爬虫的措施，比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了某个阈值，那么服务器会直接拒绝服务，返回一些错误信息。这种情况可以成为封IP，于是乎网站成功地把我们的爬虫封禁掉了。
2、如何应对IP被封的问题？
（1）修改请求头，模拟浏览器（而不是代码去直接访问）去访问，也就是伪装成浏览器而不让网站识别出我们是爬虫，这样就可以大大降低被封IP的概率了。
（2）采用代理IP并轮换。既然服务器检测的是某个IP单位时间的请求次数，那么我们借助某种方式来伪装IP，让服务器无法识别由我们本机发起的请求，不就可以成功防止封IP么？而这种方式就是使用代理IP。
（3）设置访问时间间隔。可以通过这样来使自己的IP访问不至于过于频繁，从而降低被封IP的概率。
3、抓取西刺代理，构建自己的代理池。
时间紧，DDL，多谢whenif博主的文章，我对着书边理解边照葫芦画瓢，我直接上代码：
在这里插入图片描述

运行结果：
参考资料：Python3网络爬虫开发实战【崔庆才】著；
https://blog.csdn.net/weixin_42937385/article/details/88150379；
https://blog.csdn.net/weixin_43720396/article/details/88218204；
https://www.jianshu.com/p/ecf5353333f6。