爬虫
yimenglin
这个作者很懒,什么都没留下…
展开
-
开源网络爬虫汇总
Awesome-crawler-cn互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新...交流讨论欢迎推荐你知道的开源网络爬虫,网页抽取框架.开源网络爬虫QQ交流群:322937592email address: liinux at qq.comPythonScrapy - 一种高效的屏幕,网页数据采集框架。d...转载 2018-11-19 13:54:40 · 1447 阅读 · 0 评论 -
走近代码之Python–爬虫框架Portia | 艾伯特
Portia --基于Scrapy的可视化数据采集框架走近代码之Python--爬虫框架Scrapy1框架特性基于 scrapy 内核可视化爬取内容,不需要任何开发专业知识动态匹配相同模板的内容2安装Windows 推荐使用 Docker 安装安装 Docker ToolBox启动 docker run -v /F/pywp/portia:/app/data/projects...转载 2018-12-25 10:16:34 · 4839 阅读 · 0 评论 -
爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用
昨天在爬取大众点评的时候,刚开始还好好的,但一会就把我的ip给封啦,所以我就想给自己弄一个ip池,这样我就可以继续爬啦。网上找了一堆代码,发现好多都是python2的,它们请求使用urllib2的库,这个库在python3中合并成urllib,所以很多方法调用都出现错误,所以我还是决定用requests。一、获得代理ipdef get_ip_list(obj): ...转载 2018-12-18 11:30:24 · 1001 阅读 · 2 评论 -
2.32 js几种定位方法总结
2.32 js几种定位方法总结前言本篇总结了几种js常用的定位元素方法,并用js点击按钮,对input输入框输入文本 一、以下总结了5种js定位的方法除了id是定位到的是单个element元素对象,其它的都是elements返回的是list对象1.通过id获取document.getElementById(“id”)2.通过name获取 document.getElement...转载 2018-12-28 17:24:55 · 5502 阅读 · 0 评论 -
2.33 定位的坑:class属性有空格
2.33 定位的坑:class属性有空格前言有些class属性中间有空格,如果直接复制过来定位是会报错的InvalidSelectorException: Message:The given selector u-label f-dn is either invalid or does not result in a WebElement. The following error occurre...转载 2018-12-28 17:20:18 · 329 阅读 · 0 评论 -
python selenium2 中的显示等待WebDriverWait与条件判断expected_conditions举例
python selenium2 中的显示等待WebDriverWait与条件判断expected_conditions举例 #coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver....转载 2018-12-28 16:32:03 · 318 阅读 · 0 评论 -
selenium的webdriver三种等待方式(显式等待WebDriverWait+implicitly_wait隐式等待+sleep强制等待)
隐式等待是等页面加载,不是等元素!!!1、显式等待 一个显式等待是你定义的一段代码,用于等待某个条件发生然后再继续执行后续代码。显式等待是等元素加载!!!from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.supp...转载 2018-12-28 16:24:17 · 350 阅读 · 0 评论 -
python re模块
re 正则表达式操作 本模块提供了类似于Perl的正则表达式匹配操作。要匹配的模式和字符串可以是Unicode字符串以及8位字符串。 正则表达式使用反斜杠字符('\')来表示特殊的形式或者来允许使用特殊的字符而不要启用它们特殊的含义。这与字符串字面值中相同目的的相同字符的用法冲突;例如,要匹配一个反斜线字面值,你必须写成'\\\\'作为模式字符串,因为正则表达式...转载 2018-12-11 14:31:43 · 198 阅读 · 0 评论 -
大规模爬虫流程总结
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有APIAPI是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用API接口的访问则处...转载 2018-11-19 16:11:48 · 280 阅读 · 0 评论 -
Python3网络爬虫开发实战] 7.2-Splash的使用
Python3网络爬虫开发实战] 7.2-Splash的使用 Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; 获取渲染后的页面的...转载 2019-07-25 15:44:41 · 752 阅读 · 0 评论