Datawhale爬虫学习Task 3

最新推荐文章于 2021-11-28 00:50:11 发布

真的有点难

最新推荐文章于 2021-11-28 00:50:11 发布

阅读量171

点赞数

本文链接：https://blog.csdn.net/weixin_46610876/article/details/105752347

版权

selenium

含义

1.selenium 是web自动化测试工具集，包括IDE、RC、（selenium1.0)、WebDriver(selenium2.0)，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。
2.Selenium IDE 是firefox浏览器的一个插件。提供简单的脚本录制、编辑与回放功能。
3.Selenium Grid 是用来对测试脚步做分布式处理。现在已经集成到selenium server中
4.Selenium Remote Control (RC) ：支持多种平台(Windows，Linux，Solaris)和多种浏览器(IE，Firefox，Opera，Safari)，可以用多种语言(Java，Ruby，Python，Perl，PHP，C#)编写测试用例
信息来源

应用背景

用代码的方式去模拟浏览器操作过程，框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时，浏览器自动按照脚本代码做出点击，输入，打开，验证等操作，就像真实用户所做的一样，从终端用户的角度测试应用程序。
信息来源

具体应用

准备工作

1.安装selenium (pip install selenium)
在这里插入图片描述
2.安装chromedriver(一个驱动程序，用于启动chrome浏览器）
查看自己Google的版本，右上侧点击自定义及控制>帮助>关于Googlechrom

下面是我的版本

chromedriver下载链接
之后将压缩包解压放到chrome目录下，并将此路径添加到环境变量
在这里插入图片描述

应用

1.导入模块>创建WebDriver实例>打开一个以页面>关闭浏览器
在这里插入图片描述

2.查找因素
在打开页面和关闭页面中间，就是各种操作！而查找元素这一点，和爬虫常见的HTML页面解析，定位到具体的某个元素基本一样，只不过，调用者是driver

3.页面交互
找到元素后，就是进行“交互”，如键盘输入（需提前导入模块）
在这里插入图片描述
4.等待页面加载
应用场景：含有ajax加载的page！因为在这种情况下，页面内的某个节点并不是在一开始就出现了，而在这种情况下，就不能“查找元素”，元素选择不到，就不好进行交互操作！等待页面加载这两个模块经常是一起导入的：
在这里插入图片描述
5.实例
爬取网易云音乐评论

信息来源

session和cookie

含义

静态网页
静态网页就是我们上一篇写的那种 html 页面，后缀为 .html 的这种文件，直接部署到或者是放到某个 web 容器上，就可以在浏览器通过链接直接访问到了，常用的 web 容器有 Nginx 、 Apache 、 Tomcat 、Weblogic 、 Jboss 、 Resin 等等，很多很多。举个例子：https://desmonday.github.io/，就是静态网页的代表，这种网页的内容是通过纯粹的 HTML 代码来书写，包括一些资源文件：图片、视频等内容的引入都是使用 HTML 标签来完成的。它的好处当然是加载速度快，编写简单，访问的时候对 web 容器基本上不会产生什么压力。但是缺点也很明显，可维护性比较差，不能根据参数动态的显示内容等等。有需求就会有发展么，这时动态网页就应运而生了动态网页
大家常用的某宝、某东、拼夕夕等网站都是由动态网页组成的。
动态网页可以解析 URL 中的参数，或者是关联数据库中的数据，显示不同的网页内容。现在各位同学访问的网站大多数都是动态网站，它们不再简简单单是由 HTML 堆砌而成，可能是由 JSP 、 PHP 等语言编写的，当然，现在很多由前端框架编写而成的网页小编这里也归属为动态网页。
无状态就是指 HTTP 协议对于请求的发送处理是没有记忆功能的，也就是说每次 HTTP 请求到达服务端，服务端都不知道当前的客户端（浏览器）到底是一个什么状态。客户端向服务端发送请求后，服务端处理这个请求，然后将内容响应回客户端，完成一次交互，这个过程是完全相互独立的，服务端不会记录前后的状态变化，也就是缺少状态记录。这就产生了上面的问题，服务端如何知道当前在浏览器面前操作的这个人是谁？其实，在用户做登录操作的时候，服务端会下发一个类似于 token 凭证的东西返回至客户端（浏览器），有了这个凭证，才能保持登录状态。

session和cookies

Session 是会话的意思，会话是产生在服务端的，用来保存当前用户的会话信息，而 Cookies 是保存在客户端（浏览器），有了 Cookie 以后，客户端（浏览器）再次访问服务端的时候，会将这个 Cookie 带上，这时，服务端可以通过 Cookie 来识别本次请求到底是谁在访问。
可以简单理解为 Cookies 中保存了登录凭证，我们只要持有这个凭证，就可以在服务端保持一个登录状态。
在爬虫中，有时候遇到需要登录才能访问的网页，只需要在登录后获取了 Cookies ，在下次访问的时候将登录后获取到的 Cookies 放在请求头中，这时，服务端就会认为我们的爬虫是一个正常登录用户。

应用

模拟登录163
在这里插入图片描述
信息来源

IP

IP被封的原因

网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问

应对套路

1.修改请求头，模拟浏览器（而不是代码去直接访问）去访问
2.采用代理IP并轮换
3.设置访问时间间隔

获取代理IP地址

从该网站获取： https://www.xicidaili.com/
inspect -> 鼠标定位：
要获取的代理IP地址，属于class = "odd"标签的内容
在这里插入图片描述代码来源

使用代理

1.proxies的格式是一个字典：
2.{‘http’: ‘http://IP:port‘,‘https’:'https://IP:port‘}
3.把它直接传入requests的get方法中即可
4.web_data = requests.get(url, headers=headers, proxies=proxies)

确认代理IP地址有效性

无论是免费还是收费的代理网站，提供的代理IP都未必有效，我们应该验证一下，有效后，再放入我们的代理IP池中，以下通过几种方式：访问网站，得到的返回码是200真正的访问某些网站，获取title等，验证title与预计的相同访问某些可以提供被访问IP的网站，类似于“查询我的IP”的网站，查看返回的IP地址是什么验证返回码

关于http和https代理

1.可以看到proxies中有两个键值对：
2.{‘http’: ‘http://IP:port‘,‘https’:'https://IP:port‘}
3.其中 HTTP 代理，只代理 HTTP 网站，对于 HTTPS 的网站不起作用，也就是说，用的是本机 IP，反之亦然。
4.如果是http代理，将使用本机IP进行访问，返回的是我的公网IP地址

真的有点难

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale爬虫学习Task 3

selenium含义1.selenium 是web自动化测试工具集，包括IDE、RC、（selenium1.0)、WebDriver(selenium2.0)，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。2.Selenium IDE 是firefox浏览器的一个插件。提供简单的脚本录制、编辑与回放功能。3.Selenium Grid 是用来对测试脚步做分布式处理。现在...
复制链接

扫一扫