scrapy 常用笔记

最新推荐文章于 2024-03-26 13:44:58 发布

zzz_strive

最新推荐文章于 2024-03-26 13:44:58 发布

阅读量77

点赞数

分类专栏：爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzz_strive/article/details/124205868

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scrapy的安装：pip install scrapy
创建scrapy的项目: scrapy startproject github
创建scrapy爬虫：在项目目录下执行 scrapy genspider git1 github.com
运行scrapy爬虫：在项目目录下执行 scrapy crawl git1
解析并获取scrapy爬虫中的数据：
1. response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
2. extract() 返回一个包含有字符串的列表
3. extract_first() 返回列表中的第一个字符串，列表为空没有返回None
重载请求
```
   def start_requests(self):
```

构造post请求:

  yield scrapy.FormRequest(
         url='https://github.com/session',
         callback=self.login,
         formdata=post_data
     )

scrapy管道的基本使用:
1. 完善pipelines.py中的process_item函数
2. 在settings.py中设置开启pipeline
```
  ITEM_PIPELINES = {
    # 包名.文件名.类名
    'myspider.pipelines.MyspiderPipeline': 300,
  }
```
response响应对象的常用属性
1. response.url：当前响应的url地址
2. response.request.url：当前响应对应的请求的url地址
3. response.headers：响应头
4. response.requests.headers：当前响应的请求头
5. response.body：响应体，也就是html代码，byte类型
6. response.status：响应状态码
建模
1. 在items中定义模型
2. 导入job中
pipeline中常用的方法：
process_item(self,item,spider):
- 管道类中必须有的函数
- 实现对item数据的处理
- 必须return item
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次
根据相应spider执行相应的pipeline。
```
  if spider.name == 'job':
```
中间件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy 常用笔记

scrapy
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。