Scrapy 框架

提问: 为什么使用scrapy框架来写爬虫 ?

           在python爬虫中:requests  +  selenium  可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。

1.scrapy 的基础概念:

  scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。可以灵活的完成各种需求。

Python3.6 Scrapy安装

Scrapy框架官方网址:http://doc.scrapy.org/en/latest

打开终端,输入安装命令

pip install scrapy

直接使用命令安装不成功可以下载whl格式的包安装,安装whl格式包需要安装wheel库,

pip install wheel

安装完成后验证是否成功

wheel

 

scrapy的whl包地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/  

搜索 scrapy

因为scrapy框架基于Twisted,所以先要下载其whl包安装

地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索  twisted     根据自己的版本下载

进行安装  xxxxxxxx是包的名字 进入whl包所在的路径,执行下面命令

pip install xxxxxxx.whl

scrapy包使用相同的方式进行安装,进入所在目录,执行

pip install Scrapy‑1.5.1‑py2.py3‑none‑any.whl

验证是否安装成功 终端输入 scrapy,出现下图信息安装成功

Anaconda

这种方法是一种比较简单的安装Scrapy的方法,Anaconda是包含了常用的数据科学库的Python发行版本,如果没有安装,可以到官网下载对应平台的包安装。

网址:https://www.anaconda.com/download/#windows

如果已经安装,可以直接使用conda命令安装

conda install Scrapy

基本使用

新建项目 (scrapy startproject xxx):新建一个新的爬虫项目

明确目标 (编写items.py):明确你想要抓取的目标

制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

存储内容 (pipelines.py):设计管道存储爬取内容

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值