1、scrapy的安装
命令: sudo apt-get install scrapy
或者: pip/pip3 install scrapy
2、创建scrapy的项目
1、 创建项目: scrapy startproject mySpider
2、生成一个爬虫: scrapy genspider itcast itcast.cn
3、提取数据: 根据网站结构在spider中实现数据采集相关内容
4、 保存数据: 使用pipeline进行数据后续处理和保存
3、创建scrapy爬虫
创建scrapy项目的命令:
scrapy startproject <项目名字>
示例:
scrapy startproject book
4、运行scrapy爬虫
命令:
在项目路径下执行:
scrapy genspider <爬虫名字> <允许爬取的域名>
5、scrapy定位以及提取数据或属性值的方法
1、response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操 作和列表
2、一样,但是有一些额外的方法额外方法extract():返回一个包含有字符串的列表额外方法
3、extract_first():返回列表中的第一个字符串,列表为空没有返回None
6、response响应对象的常用属性
-
response.url:当前响应的url地址
-
response.request.url:当前响应对应的请求的url地址
-
response.headers:响应头
-
response.requests.headers:当前响应的请求头
-
response.body:响应体,也就是html代码,byte类型
-
response.status:响应状态码