![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Zhanwei Liu
开始的晚了就要更努力;一步一个脚印,慢慢积累。
展开
-
利用python的bs4和selenium库结合实现动态页面的爬取(爬取天气网上面的历史天气数据)
报告分析需要历史气象数据,查询到天气网上面有历史天气数据,从2011年到2018年,第一次接触爬虫,在网上找了爬取天气网历史数据的python源码,利用bs4库,但是实际操作中发现soup.select( )函数返回的列表总是[ ] (空),查询发现天气网目前使用的是javascript写的动态页面,可能是为了防止爬虫接入。经过查资料又找到了一种爬取动态页面的方法,经尝试方法有效,写个博客记录一下...原创 2018-12-17 13:01:37 · 3640 阅读 · 0 评论 -
IEDriverServer来操控sendkeys方式时,输入速度非常慢
通过调用64位IEDriverServer来操控sendkeys方式时,输入速度非常慢。网上说是64位有bug。 解决办法: 使用32位IEDriverServer。亲测有效。 IEDriverServer链接:http://selenium-release.storage.googleapis.com/index.html ...原创 2019-01-11 11:29:47 · 1551 阅读 · 0 评论 -
python爬虫界面登录-验证码(二)
继续刚才的说,刚才的pytesseract的安装目录通常都在python或者anaconda目录下的Lib\site-packages\pytesseract目录下。配置完之后就可以用了,用下面的代码就行验证码的保存和识别。 driver.save_screenshot('f://aa.png') # 截取当前网页,该网页有我们需要的验证码 imgelement = driver.find_...原创 2019-01-14 10:39:30 · 766 阅读 · 0 评论 -
python界面登录-验证码(三)
真的要好好学一下写作了,等好好的有条理的整理自己做过的工作才能方便的进行下一步的使用,能整理好自己的学习的东西才能提高效率,更加明确的进行下一步的工作提高自己的工作效率!!! 下一步就是在以下前提下进行网页的登录和课程的查询了: import os import time from bs4 import BeautifulSoup from selenium import webdriv...原创 2019-01-14 10:57:02 · 1550 阅读 · 0 评论