Python爬虫
文章平均质量分 51
静妍
这个作者很懒,什么都没留下…
展开
-
Python使用HTTP代理 Proxy
urllib2/urllib 代理设置urllib2是Python标准库,功能很强大,只是使用起来稍微麻烦一点。在Python 3中,urllib2不再保留,迁移到了urllib模块中。urllib2中通过ProxyHandler来设置使用代理服务器。proxy_handler = urllib2.ProxyHandler({'http': '121.193.143.249:80'})原创 2017-03-12 09:50:11 · 11663 阅读 · 1 评论 -
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)
最近,用Python爬虫,去中文小说网站抓取下。发现,在写入文件的时候,出现UnicodeEncodeError,但是打印显示问题。如这样:traceback (most recent call last): File "xioashuo.py", line 56, in f.write(chapter_name.encode('utf-8'))UnicodeEncodeE原创 2017-03-24 19:56:12 · 1038 阅读 · 0 评论 -
通过selenium控制浏览器滚动条
控制滚动条这个事情难为了我好久,查了无数篇文章,基本千篇一律,全是一个方法,但是在我这里就是没能成功,后来~~~先说一下我的解决方法吧目的:通过selenium控制浏览器滚动条原理:通过 driver.execute_script()执行js代码,达到目的 driver.execute_script("window.scrollBy(0,1000)"原创 2017-03-26 20:32:24 · 2357 阅读 · 1 评论 -
selenium对浏览器操作、鼠标操作等总结
1 控制浏览器Selenium 主要提供的是操作页面上各种元素的方法,但它也提供了操作浏览器本身的方法,比如浏览器的大小以及浏览器后退、前进按钮等。1.1 控制浏览器窗口大小在不同的浏览器大小下访问测试站点,对测试页面截图并保存,然后观察或使用图像比对工具对被测页面的前端样式进行评测。比如可以将浏览器设置成移动端大小(480x800),然后访问移动站点,对其样式进行评估转载 2017-03-26 20:25:00 · 16199 阅读 · 1 评论 -
Python 多线程与常见算法
多线程介绍我们之前所讲到的爬虫,都只有一个进程一个线程,我们称之为单线程爬虫。单线程爬虫每次只访问一个页面,不能充分利用电脑的网络带宽。一个页面最多也就几百KB,所以爬虫在爬取一个页面的时候,多出来的网速就浪费掉了。而如果我们可以让爬虫同时访问10个页面,就相当于我们的爬取速度提高了10倍。这个时候就需要使用多线程技术了。这里有一点要强调一下,Python这门语言在转载 2017-03-11 13:00:26 · 937 阅读 · 0 评论 -
高性能Python之:Queue,deque,queue对比
Python作为一门脚本语言,有着很多便捷易用的优秀特点,但他也有一个很大的缺陷,就是性能太差,这也是作为脚本语言不可避免的问题,这里我们来学习一些方法,提高Python的性能:为了大家测试方便,这里同时给了代码的图片版和文字版。queue是多线程中的使用的栈,但是Python 解释器有一个全局解释器锁(PIL),导致每个 Python 进程中最多同时运行一个线程,转载 2017-03-11 13:03:38 · 16213 阅读 · 3 评论 -
Python多线程编程
Threading 模块从 Python 1.5.2 版开始出现,用于增强底层的多线程模块 thread 。Threading 模块让操作多线程变得更简单,并且支持程序同时运行多个操作。注意,Python 中的多线程最好用于处理有关 I/O 的操作,如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作,那么你需要使用 Python 的 multiprocessin转载 2017-03-11 13:12:56 · 411 阅读 · 0 评论 -
UnicodeEncodeError: 'latin-1' codec can't encode characters
Python2.7 pymysql连接MySQL发现,中文不支持。于是,百度各种查、各种找资料,结果都没有解决。总结原因如下:1.数据库编码设置utf82.Python2.7默认使用的ascii,需要换成utf83.pymysql连接MySQL时,设置utf-8字符编码4.如果运行时提示pymysql编码设置错原创 2017-03-19 13:27:51 · 836 阅读 · 0 评论 -
关于Python的第三方库requests关闭SSL验证后,依然警告致使程序无法执行问题
注意:Python2.7环境,Python3自行搜索。程序中,已经关闭验证:requests.get(url, verify=False)但是,执行后,发出警告,中断程序:InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is stron原创 2017-03-14 20:10:47 · 12933 阅读 · 0 评论 -
python开源IP代理池--IPProxys
转载:http://www.cnblogs.com/qiyeboy/p/5693128.html今天博客开始继续更新,谢谢大家对我的关注和支持。这几天一直是在写一个ip代理池的开源项目。通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip。拥有庞大稳定的ip代理,在爬虫工作中将起到重要的作用,但是从成本的角度来说,一般稳定的ip池都很贵,因此我这个开源项目的意义就诞生了转载 2017-03-13 13:55:51 · 1917 阅读 · 0 评论 -
Python 批量获取代理服务器IP并测试
转载:http://blog.csdn.net/abcamus/article/details/52993711#-*-coding:utf-8 -*-import urllib2import BeautifulSoupimport codecsUser_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100转载 2017-03-13 13:13:16 · 5418 阅读 · 0 评论 -
Windows上利用Python自动切换代理IP的终极方案!
转载:http://www.jianshu.com/p/49c444d9a435文/solomonxie(简书作者)原文链接:http://www.jianshu.com/p/49c444d9a435著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。声明下:不同于网络上千百篇方法,下文是经过各种严格测试都通过的,同时也是一个实转载 2017-03-13 13:08:13 · 931 阅读 · 0 评论 -
Python3 从HTTP代理网站批量获取代理并筛选
转载:http://blog.csdn.net/u014595019/article/details/50166385最近在写爬虫,苦于不采用代理的情况下,默认的IP不出几分钟就被封了,故而只能寻找代理。原以为找到HTTP代理就万事大吉了,没想到从那个网站获取的代理大部分都是不能用的,只有少部分能用。。。故而无奈之下,只能从那些代理网站大量获取代理IP,然后再拿过来进行进一步的筛选,将有效转载 2017-03-13 12:14:41 · 1352 阅读 · 0 评论 -
Python爬虫使用代理proxy抓取网页
代理类型(proxy):透明代理 匿名代理 混淆代理和高匿代理. 这里写一些python爬虫使用代理的知识, 还有一个代理池的类. 方便大家应对工作中各种复杂的抓取问题。urllib 模块使用代理urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.原创 2017-03-12 13:45:41 · 3402 阅读 · 0 评论 -
Python3 urllib.error
urllib.error异常由urllib.request引发的主要分为三级异常:顶级异常urllib.error.URLError次级异常urllib.error.HTTPError虽然作为一个异常(URLError的子类),HTTPError也可以作为一个非特殊的类文件返回值(与urlopen()返回相同的东西)。这在处理异常HTTP错误(例如认证请求)时非原创 2017-03-12 13:34:08 · 884 阅读 · 0 评论 -
Python3 urllib.parse
urllib.parse分为URL parsing and URL quoting,即网址解析和网址引用。URL解析函数专注于将URL字符串拆分为其组件,或将URL组件组合到URL字符串中。urllib.parse.urlparse(urlstring,scheme='', allow_fragments=True)>>> from urllib.parse import原创 2017-03-12 13:05:42 · 1980 阅读 · 0 评论 -
Python3 urllib 笔记
urllib分为四大模块,前三项常用,具体使用方法需具体参考。Python2的urllib和urllib2,在Python3中合并为urlliburllib.urlopen() ==> urllib.request.urlopen()urllib2.urlencode() ==> urllib.parse.urlencode()原创 2017-03-12 12:44:56 · 509 阅读 · 0 评论 -
HTTP/TCP/IP协议简单了解
HTTP协议一丶什么是HTTP协议:HTTP协议是hypertexttransferprotocol(超文本传输协议)的简写,它是TCP/IP协议的一个应用层协议,用于定义WEB浏览器服务器之间交换数据的过程,客户端连上web服务器后,若想获得web服务器中的某个资源,需遵守一定的通讯格式,HTTP协议用于定义客户端与web服务器通讯的格式。二丶HTTP协议的版本有以下两种原创 2017-03-08 09:24:03 · 527 阅读 · 0 评论