selenium
文章平均质量分 69
Kosmoo
最有用的语言是English,其次可能是Python
展开
-
selenium+python实现1688登录 —— iframe中元素获取
selenium+python实现1688登录 —— iframe中元素获取1. 背景在1688网站登录时,无法通过 browser.find_element_by_xpath 直接获取到用户名和密码的输入框。从网页源代码分析,发现这个网页是一个iframe嵌套的模式,所以按照传统的方式无法定位到表单元素。2. 环境python 3.6.1系统:win7IDE:pycharm安装过ch原创 2017-11-16 17:55:34 · 9088 阅读 · 1 评论 -
python + selenium多进程爬取淘宝搜索页数据
selenium操作chrome滑动滚动条的几种方法分析页面滚动条滑动self.driver.execute_script(“window.scrollTo(0,document.body.scrollHeight);”) # 将页面滚动条滑到底部 self.driver.execute_script(“arguments[0].scrollIntoView();”, el) # 向...原创 2018-07-24 17:52:25 · 4244 阅读 · 0 评论 -
python下selenium如何处理日期控件的几种方法
参考文章:https://blog.csdn.net/huilan_same/article/details/52385401# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepdriver = webdriver.Firefox()driver.get('http://ww...原创 2018-07-09 18:58:36 · 14304 阅读 · 1 评论 -
如何去除网页噪声提取数据(01) —— 去哪儿网
如何去除网页噪声提取数据(01) —— 去哪儿网1. 需求介绍今天的目标是爬取 “去哪儿网” 上的数据信息,去哪儿网上的数据是非常珍贵的,所以这个数据被保护的也很严格,不仅仅是原始数据获取较为困难,而且渲染后的数据也加入了大量的混淆。尽管难度很大,但是作为一直修炼千年的蜘蛛精,是没有爬不下来的数据滴。下面就看我如何织网,如何捕获猎物……呃,不对,是爬取数据……2. 环境...原创 2018-05-08 23:41:37 · 4324 阅读 · 0 评论 -
python + selenium + chrome 在实现back,forward,refresh时的注意事项
python + selenium + chrome 在实现back,forward,refresh时的注意事项1. 背景在使用selenium模拟浏览器时,经常会使用到导航栏的三个按钮:后退,前进,刷新。来达到在浏览过的页面之间进行切换。对应到selenium中的方法分别是:back(),forward(), refresh() 。但是如果直接使用之前定位到的元素,会出现一个问题,那原创 2018-02-06 11:15:27 · 5239 阅读 · 0 评论 -
selenium+python设置爬虫代理IP
selenium+python设置爬虫代理IP1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:第一,提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。第二,使用多线程原创 2017-11-24 17:35:51 · 117863 阅读 · 9 评论 -
selenium+python配置chrome浏览器的选项
selenium+python配置chrome浏览器的选项1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为。常用的行为有: 禁止图片和视频的原创 2017-12-29 17:54:49 · 89036 阅读 · 10 评论 -
python + selenium多进程分摊爬虫任务基础
python + selenium多进程分摊爬虫任务基础1. 背景现在有这样一个需求:爬取淘宝商品信息,具体的流程是,在搜索栏输入关键字,然后爬取搜索结果列表中的商品信息。分析这个需求会发现具有如下特点: 第一,淘宝请求url具有一定的反爬措施,构造起来困难 ——> 应对这种问题的方案就是采用selenium浏览器渲染技术去爬取。第二,实践发现,目前淘宝对这个爬取频率并没有做很原创 2018-01-03 16:34:43 · 18220 阅读 · 5 评论 -
chrome浏览器爬虫崩溃,怎么办?python + selenium + chrome + headless模式
chrome浏览器爬虫崩溃,怎么办?python + selenium + chrome + headless模式1. 背景在使用selenium + chrome浏览器渲染模式爬取数据时,如果并发任务过多,或者爬虫的运行时间很长,那么很容易出现浏览器崩溃的现象,如下: 这一般是资源消耗过大造成的(据说chrome浏览器有内存泄漏的情况)。那如何解决这个问题呢?这种情况下,我原创 2018-01-08 11:35:41 · 20472 阅读 · 3 评论 -
selenium+python处理广告弹窗
selenium+python实现1688网站验证码图片的截取1. 背景在使用浏览器渲染技术爬取网站信息时,经常会遇到一些弹出框(广告,警告框,验证码,登录窗口等)的干扰。一般来说,当这些窗口弹出时,就无法操作原始页面。不同的弹出框有不同的处理方案: 广告:直接关闭警告框:点击确定或者取消验证码:输入验证码,进行验证登录窗口:进行登录。下面以1688网站为例,记录几种类型的处理方式。 2原创 2017-11-23 11:40:19 · 102452 阅读 · 2 评论 -
selenium+python实现1688网站验证码图片的截取
selenium+python实现1688网站验证码图片的截取1. 背景在1688网站爬取数据时,如果访问过于频繁,无论用户是否已经登录,就会弹出如下所示的验证码登录框。 一般的验证码是类似于如下的元素(通过链接单独加载进页面,而不是嵌入图片元素):<img id="J_CheckCodeImg1" width="100" height="30" onmousedown="return false原创 2017-11-22 17:53:41 · 15868 阅读 · 0 评论