学习爬虫day08

本文介绍了Scrapy框架的使用,包括XPath提取、CrawlSpider规则设定、代理IP判断、下载中间件的实现、模拟登陆方法以及Scrapy_redis的配置与分布式爬虫的应用。重点讲解了如何处理url不完整、请求去重、增量爬虫和断点续爬的策略。
摘要由CSDN通过智能技术生成

在使用xpath.extract()去出来有空格

  • xpath.extract_first().strip()

crawlspider 的使用 代码在 f005中

  • 创建爬虫

    • scrapy genspider -t crawl 爬虫名 allow_domain
  • 指定 start_url ,对应的响应会进过 rules 提取 url 地址

  • 完善 rules, 添加Rule

    • Rule(LinkExtractor(allow=r'info/1055/\d+\.htm'), callback='parse_item',follow=True),
      • LinkExtractor : 链接提取器, 提取url地址
      • allow : 正则匹配url地址
      • callback : 提取出来url地址的response会交给callback处理
      • follow : 当前url地址的响应是否重新经过rels来提取url地址
      • callback 和 follow 如果不使用的话可以删掉
      • 匹配链接可以使用xpath/css等,只要写到类的一层就可以了
        • restrict_css
        • restrict_xpath
  • 注意点

    • url 地址不完整, crawlspider 会自动补充完整之后在请求
    • parse 函数不能定义, 他有特殊的功能要实现
    • callback : 链接提取器提取出来的url地址对应的响应交给他处理
    • follow : 链接提取器提取出来的url地址对应的响应是否继续被rules来过滤

判断代理ip是否可用

  • 使用request发送请求

下载中间件 代码在f005中

  • 需要自己定义的方法有:
    • process_request(request,spider)

      • 添加代理池,USER_AGENT池
      • 即在发送请求的时候调用
      • 不用返回数据,即不用return
    • process_excepyion(request,exception,spider)

      • 发生异常后处理异常
      • 要有返回值(request),返回None、request、response对象,返回None时,会经过其他中间件
    • process_response(request,response,spider)

      • 当下载器完成http请求,传递响应给引擎时调用
      • 要有返回值(return),返回request、response对象,一般返回response

scrapy模拟登陆 f006

  • 直接携带cookie

  • 找到发送post请求的url地址,带上信息,发送请求

    • settings种有一个参数为COOKIES_ENABLED,会保存上一次的cookie然后下一次请求会带上
    • 查看 cookies 的传递过程可以在settings中将COOKIES_DEBUG设置成True
  • strat_url请求是strat_request方法来做的

    • 模拟登陆的时候可以重新定义一个start_request方法来做登陆
  • scrapy 发送 post 请求

    • scrapy.FromRequest()
      • post url地址
      • 回调函数 callback
      • 数据 formdata
    • scrapy.FormRequest.from_response
      • 如果 post
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值