Scrapy源码分析
文章平均质量分 82
Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便,并且官网上说已经在实际生产中在使用了。Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。
张小琦
这个作者很懒,什么都没留下…
展开
-
Scrapy源码分析-持久化导出数据类Item Exporters(五)
当你抓取了你要的数据(Items),你希望能合适的保存爬取到的数据,或者说,生成一个带有爬取数据的”输出文件”(通常叫做”输出feed”),来供其他系统使用。Scrapy自带了Feed输出,并且支持多种序列化格式(serialization format)及存储方式(storage backends)。而Feed输出使用到了 ItemExporters。如果你是想单纯的将数原创 2014-07-20 18:41:52 · 6871 阅读 · 0 评论 -
Scrapy源码分析-Item Pipeline中文文档(四)
Item Pipeline当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。原创 2014-07-20 10:23:13 · 3890 阅读 · 0 评论 -
Scrapy源码分析-常用的爬虫类-CrawlSpider(三)
CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。原创 2014-07-20 09:22:39 · 6567 阅读 · 0 评论 -
Scrapy源码分析-所有爬虫的基类-Spider(二)
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。原创 2014-07-20 08:55:05 · 10032 阅读 · 0 评论 -
Scrapy源码分析-Spiders爬虫中文文档(一)
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成response,并原创 2014-07-19 19:33:35 · 11353 阅读 · 0 评论