90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践

最新推荐文章于 2024-05-01 17:58:32 发布

程序员尽欢

最新推荐文章于 2024-05-01 17:58:32 发布

阅读量355

点赞数

文章标签：程序员计算机 Python爬虫互联网自学编程

本文链接：https://blog.csdn.net/weixin_45249120/article/details/94566658

版权

今天来介绍一下python中的scrapy框架，看看他是如何来做爬虫的。

架构

在开始动手之前先引入一下架构的知识。这里主要介绍极大组件完成哪些功能，他们是如何写作的。

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

准备工作

安装scarpy，我这里使用的是mac上安装直接运行

sudo pip install scrapy

我的开发环境用的是pycharm，在preference中选择如下，安装即可。

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

通过控制台命令建立第一个srcapy项目

scrapy startproject demo01

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

生成项目以后直接打开，如图所示

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

建立一个爬虫

这里还是通过命令行来建立爬虫。先进入刚才建立的项目demo01

再运行生成爬虫的例子

scrapy genspider baidu baidu.com

第一个baidu是爬虫的名字，第二个baidu.com是需要爬取的url地址。

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

此时会生成爬虫对应的文件

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

先去设置setting文件

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

把user agent配置起来，就是配置浏览器。这里的ROBOTSTXT文件会定义哪些数据需要爬取，哪些是不让爬取的。我们做测试暂时就不用这个规则文件。

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

设置完毕以后回到爬虫的spiders文件，在解析的位置加上一行代码。

def parse(self, response):
 print(response.text)

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

测试结果

通过命令行执行命令，查看爬虫结果。

scrapy crawl baidu

这里baidu就是爬虫的名字。查看结果发现返回的百度的html。

如果需要打端点用命令行的方式就不行了，需要建立一个python文件。加入以下的内容。

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

然后右键运行python文件。同样也可以看到结果。