![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 92
记录爬虫学习笔记
江姐vior
这个作者很懒,什么都没留下…
展开
-
通过python的selenium爬取智塔链库的公司数据_20200526_
通过python的selenium爬取智塔链库的公司数据。 本文遇到了典型的常见的网页源码为代码的问题,这种网页源码不可直接读取信息,但是可以操纵浏览器将代码渲染为有价值信息,再通过xpath和html.etree读取信息。 尤其需要注意的是,一定要在读取打开网页后设置一定休眠时间再读取网页源码,否则读取到的数据可能为空值,如: self.browser.get(self.url) # 进行访问 time.sleep(2) # 延迟5秒,此语句非常重要 from selenium import webd原创 2020-05-26 16:08:46 · 235 阅读 · 0 评论 -
利用selenium实时监测交大经管学院前沿讲座更新状态_20200527_
利用selenium实时监测交大经管学院前沿讲座更新状态。 from selenium import webdriver # 导入selenium自动化测试模块 from lxml import html # 导入xpath解析模块 import time # 导入时间模块 etree = html.etree # 实例化etree from selenium.webdriver.common.keys import Keys from selenium.webdriver.chrome.options原创 2020-05-26 22:17:06 · 195 阅读 · 0 评论 -
通过selenium直接驱动浏览器爬取数据
通过selenium直接驱动浏览器爬取数据 import time from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.key原创 2020-05-26 16:03:19 · 782 阅读 · 3 评论