今天来介绍一下python中的scrapy框架,看看他是如何来做爬虫的。
架构
在开始动手之前先引入一下架构的知识。这里主要介绍极大组件完成哪些功能,他们是如何写作的。
- Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
- Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
- Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
- Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器).
- Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
- Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
- Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)
准备工作
安装scarpy,我这里使用的是mac上安装直接运行
sudo pip install scrapy
我的开发环境用的是pycharm,在preference中选择如下,安装即可。
通过控制台命令建立第一个srcapy项目
scrapy startproject demo01
生成项目以后直接打开,如图所示
建立一个爬虫
这里还是通过命令行来建立爬虫。先进入刚才建立的项目demo01
再运行生成爬虫的例子
scrapy genspider baidu baidu.com
第一个baidu是爬虫的名字,第二个baidu.com是需要爬取的url地址。
此时会生成爬虫对应的文件
先去设置setting文件
把user agent配置起来,就是配置浏览器。这里的ROBOTSTXT文件会定义哪些数据需要爬取,哪些是不让爬取的。我们做测试暂时就不用这个规则文件。
# Obey robots.txt rules ROBOTSTXT_OBEY = False USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
设置完毕以后回到爬虫的spiders文件,在解析的位置加上一行代码。
def parse(self, response): print(response.text)
测试结果
通过命令行执行命令,查看爬虫结果。
scrapy crawl baidu
这里baidu就是爬虫的名字。查看结果发现返回的百度的html。
如果需要打端点用命令行的方式就不行了,需要建立一个python文件。加入以下的内容。
然后右键运行python文件。同样也可以看到结果。