提问: 为什么使用scrapy框架来写爬虫 ?
在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。
1.scrapy 的基础概念:
scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。可以灵活的完成各种需求。
Python3.6 Scrapy安装
Scrapy框架官方网址:http://doc.scrapy.org/en/latest
打开终端,输入安装命令
pip install scrapy
直接使用命令安装不成功可以下载whl格式的包安装,安装whl格式包需要安装wheel库,
pip install wheel
安装完成后验证是否成功
wheel
scrapy的whl包地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
搜索 scrapy
因为scrapy框架基于Twisted,所以先要下载其whl包安装
地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
搜索 twisted 根据自己的版本下载
进行安装 xxxxxxxx是包的名字 进入whl包所在的路径,执行下面命令
pip install xxxxxxx.whl
scrapy包使用相同的方式进行安装,进入所在目录,执行
pip install Scrapy‑1.5.1‑py2.py3‑none‑any.whl
验证是否安装成功 终端输入 scrapy,出现下图信息安装成功
Anaconda
这种方法是一种比较简单的安装Scrapy的方法,Anaconda是包含了常用的数据科学库的Python发行版本,如果没有安装,可以到官网下载对应平台的包安装。
网址:https://www.anaconda.com/download/#windows
如果已经安装,可以直接使用conda命令安装
conda install Scrapy
基本使用
新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
明确目标 (编写items.py):明确你想要抓取的目标
制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
存储内容 (pipelines.py):设计管道存储爬取内容