Scrapy框架简要概述(2)

1、scrapy的安装

                命令:   sudo apt-get install scrapy

                或者:  pip/pip3 install scrapy

2、创建scrapy的项目        

               1、 创建项目:     scrapy startproject mySpider

                2、生成一个爬虫:     scrapy genspider itcast itcast.cn

                3、提取数据:     根据网站结构在spider中实现数据采集相关内容

               4、 保存数据:     使用pipeline进行数据后续处理和保存

3、创建scrapy爬虫

                创建scrapy项目的命令:     

                        scrapy startproject <项目名字>

                示例:     

                        scrapy startproject book

4、运行scrapy爬虫

                命令:     

                        在项目路径下执行:     

                                scrapy genspider <爬虫名字> <允许爬取的域名>

5、scrapy定位以及提取数据或属性值的方法

        1、response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操                作和列表

        2、一样,但是有一些额外的方法额外方法extract():返回一个包含有字符串的列表额外方法

        3、extract_first():返回列表中的第一个字符串,列表为空没有返回None

6、response响应对象的常用属性

  • response.url:当前响应的url地址

  • response.request.url:当前响应对应的请求的url地址

  • response.headers:响应头

  • response.requests.headers:当前响应的请求头

  • response.body:响应体,也就是html代码,byte类型

  • response.status:响应状态码


Scrapy框架简要概述(1)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值