python
文章平均质量分 61
zzk1995
这个作者很懒,什么都没留下…
展开
-
Python中的defer库
说到defer库,就必须先提到python中的一个比较特别的网络库twisted。 他与其他网络库不同的地方在于,对于很多用连接的并发,他不会使用多线程去实现。比如网络库同时发出10个请求,对于一般的多线程网络库,就会初始化10个线程,每个线程负责一个连接。当一个线程遇到了耗时操作(比如发出request之后等待response,或者向本地磁盘写数据),他就会阻塞。多线程网络库的问题在于,大量的线原创 2016-06-23 23:48:43 · 7049 阅读 · 0 评论 -
爬虫出现Forbidden by robots.txt
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用原创 2016-06-10 18:39:49 · 31727 阅读 · 4 评论 -
安装lxml时出现 Unable to find vcvarsall.bat
被这个错误搞了一下午,出这个错误一般都是安装scrapy图中安装lxml出错的,网上很多资料都说是没有安装vc 2008导致缺少组件便以失败,解决方法是安装vc2008或者安装mingw,试了一下都没效果,可能我这边环境比较复杂。最后知乎上看见一个解决方法比较简单: http://www.zhihu.com/question/26857761 就是首先用pip安装wheel,但后直接下载版本对应原创 2016-06-05 23:21:21 · 1477 阅读 · 0 评论 -
python实现线程池
参照c++的线程池,使用python的threading库实现线程池。import threadingimport time# 线程池的任务,包含一个可调用对象和一个参数数组class ThreadTask(object): def __init__(self, job, args=list()): self.task = job self.args =原创 2016-06-13 22:17:37 · 2069 阅读 · 0 评论 -
scrapy爬取使用jsonp技术的网页
爬取bilibili的视频页面时,发现一个问题,就是up主、视频title、视频超链接等都能爬取到,但是却无法直接爬取到其播放量、硬币数等等参数,通过抓包我们可以发现,bilibili.com直接返回的html页面中,这几个我们比较关心的参数都没有被渲染进来:<div class="v-title-info"> <div class="v-title-line"><i cla原创 2016-08-09 10:10:21 · 6168 阅读 · 1 评论 -
安装scrapy各种问题
安装scrapy最简单的还是通过pip插件,叫他自己安装,因为scrapy涉及到的python库实在是太多了,依赖非常复杂,不过就算是pip插件,在安装的时候也会出现各种问题,下面介绍下本渣遇到过的几个问题:1.首先是最恼火的Unable to find vcvarsall.bat这个问题的原因主要是python通过环境变量找到的编译器和本机安装的版本不同。解决方法可以使用这个(前提是装过vc++,原创 2016-07-16 15:03:21 · 5164 阅读 · 2 评论 -
scrapy-redis分布式爬虫原理分析
scrapy是python的一个非常好用的爬虫库,功能非常强大,但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来,人多力量大。而scrapy-redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 scrapy-原创 2016-06-29 23:01:24 · 18392 阅读 · 9 评论 -
tensorflow的数据输入
tensorflow有两种数据输入方法,比较简单的一种是使用feed_dict,这种方法在画graph的时候使用placeholder来站位,在真正run的时候通过feed字典把真实的输入传进去。比较简单不再介绍。比较恼火的是第二种方法,直接从文件中读取数据(其实第一种也可以我们自己从文件中读出来之后使用feed_dict传进去,但方法二tf提供很完善的一套类和函数形成一个类似pipeline一样的原创 2017-01-09 20:57:29 · 28402 阅读 · 11 评论