爬虫-scrapy
Captain_zp
扎根于土地,有志于学!
展开
-
爬虫-libxm2安装
1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题,比如检查编译器,库,头文件等,生成文件configure.scan,它是configure.ac的一个雏形。 2.aclocal (automake):根据已经安装的宏,用户定义宏和acinclude.m4文件中的宏将configure.ac文件所需要的宏集中定义到文件 aclocal.m4中。aclocal是一个原创 2015-11-26 15:52:16 · 1080 阅读 · 0 评论 -
scrapy爬虫之Image Pipeline
使用媒体管道(Media Pipleline) 过滤小图片 当我们用图片管道时,通过声明可允许的最小尺寸(设置IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH),过滤太小的图片。 例如: IMAGE_MIN_HEIGHT = 110 IMAGE_MIN_WIDTH = 110 注意:这些尺寸的限制不会影响缩略图生成 默认情况下,没有限制,所有的图片都会被处原创 2016-02-19 10:29:00 · 5518 阅读 · 0 评论 -
scrapy爬虫之错误 No module named PIL + IOError:decoder jpeg not available +PIL的安装
Scrapy遇到错误,发现少一个包PIL。 PIL的下载地址。 tar zxvf Imaging-1.1.7.tar.gz cd Imaging-1.1.7 python setup.py install原创 2016-02-19 16:33:27 · 2671 阅读 · 0 评论 -
scrapy爬虫之sublime Text 2在ubuntu下的安装
以Sublime Text 2为例:原创 2015-08-27 11:23:29 · 1421 阅读 · 0 评论 -
scrapy爬虫之Spider
Spider class scrapy.spider.Spider 这是最简单的爬虫基类,无论是Scrapy自带的其他爬虫还是我们自己写的爬虫,都必须继承该基类,它没有提供任何特殊的功能,它只是提供了 属性(string类型):name [必选项] 属性(list类型):start_urls [可选项] 方法:start_requests() :该方法默原创 2016-03-14 16:06:38 · 915 阅读 · 0 评论 -
scrapy爬虫之Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。 每个Item Pipeline组件(有时呈) 以下是item pipeline的一些典型应用: 清理HTML数据验证爬取的数据(检查item包含某些字段)查重(并丢弃)将爬取结果保存到数据库 写你自己的item pipeline(item组件)原创 2016-03-14 16:07:28 · 1190 阅读 · 0 评论