scrapy 常用笔记

  1. scrapy的安装:pip install scrapy

  2. 创建scrapy的项目: scrapy startproject github

  3. 创建scrapy爬虫:在项目目录下执行 scrapy genspider git1 github.com

  4. 运行scrapy爬虫:在项目目录下执行 scrapy crawl git1

  5. 解析并获取scrapy爬虫中的数据:

    1. response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
    2. extract() 返回一个包含有字符串的列表
    3. extract_first() 返回列表中的第一个字符串,列表为空没有返回None
  6. 重载请求

       def start_requests(self):
    
  7. 构造post请求:

      yield scrapy.FormRequest(
             url='https://github.com/session',
             callback=self.login,
             formdata=post_data
         )
    
  8. scrapy管道的基本使用:

    1. 完善pipelines.py中的process_item函数
    2. 在settings.py中设置开启pipeline
      ITEM_PIPELINES = {
        # 包名.文件名.类名
        'myspider.pipelines.MyspiderPipeline': 300,
      }
    
  9. response响应对象的常用属性

    1. response.url:当前响应的url地址
    2. response.request.url:当前响应对应的请求的url地址
    3. response.headers:响应头
    4. response.requests.headers:当前响应的请求头
    5. response.body:响应体,也就是html代码,byte类型
    6. response.status:响应状态码
  10. 建模

    1. 在items中定义模型
    2. 导入job中
  11. pipeline中常用的方法:

  12. process_item(self,item,spider):

    • 管道类中必须有的函数
    • 实现对item数据的处理
    • 必须return item
  13. open_spider(self, spider): 在爬虫开启的时候仅执行一次

  14. close_spider(self, spider): 在爬虫关闭的时候仅执行一次

  15. 根据相应spider执行相应的pipeline。

      if spider.name == 'job':
    
  16. 中间件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值