超级鹰验证码识别
反时间戳反爬机制
在自动化操作党课时发现,党课登录界面的验证码采用了时间戳反爬,在我获取到图片服务器地址后,再向这个地址发起请求时,会自动更改后面的时间戳,查网页源码发现:
![党课时间戳反爬.png 党课时间戳反爬.png](https://img-blog.csdnimg.cn/img_convert/328b1ff8e1ed795196db3d4f82aee09b.png)
于是采用selenium截屏操作进行验证码识别。
![selenium验证码截屏.png selenium验证码截屏.png](https://img-blog.csdnimg.cn/img_convert/5a4038c4682462541eeed3bd280a701b.png)
1.找到该元素
2.使用screenshot方法截屏
坑
在爬取表格的时候,用xpath解析数据时,不要写tbody,xpath在处理文档时候把他给剔除了,写上去会找不到元素
在自动化操作党课时发现,党课登录界面的验证码采用了时间戳反爬,在我获取到图片服务器地址后,再向这个地址发起请求时,会自动更改后面的时间戳,查网页源码发现:
于是采用selenium截屏操作进行验证码识别。
在爬取表格的时候,用xpath解析数据时,不要写tbody,xpath在处理文档时候把他给剔除了,写上去会找不到元素