前言
随着网站安全做的越来越好,不少网站,直接去爬取数据是无法爬出来的,必须要验证登陆,即登陆之后才能做后面的操作,因此需要解决的第一步就是登陆
登陆的常用方式:
1、使用request库,模拟post请求
2、使用框架自己集成的,比如在使用scrapy的时候,可以直接模拟登陆
3、使用selenium模拟浏览器登陆
前两种之前有大概的分享,下面使用selenium的方式模拟登陆
selenium简介
- Selenium最初是由ThoughtWorks公司一个叫Jason R. Huggins的工程师和他的团队开发出来
- Selenium是仅针对Web系统的一款自动化测试工具
- Selenium是免费的、开源的,很多公司选择Selenium和它是免费的有很大关系
- Selenium不是一个工具,它是一系列工具的总称
- Selenium支持多种编程语言
- Selenium支持多种浏览器
- Selenium可以运行在多个平台上
对于开发人员来说,使用Selenium的好处是显而易见的,通过使用selenium的API,可以提取并分析html上的页面元素,并模拟用户的操作行为,进行事件处