scrapy的安装与爬取图片

安装scrapy

  • 今天在工作的电脑上安装scrapy,遇到了不可描述的问题,头大的很,一顿顿的伤害差点就奔溃了,不过最后还是顺利的安装成功了

  • 最主要是windows系统,我们用的是家庭版的,不是开发版的,这个系统中缺失了一些开发工具,一般都是Twisted没有安装,下面这个网站下载,然后pip install Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl 安装

  • 我的python是3.7,window64位,就选择这版本下载
    我的python是3.7,window64位
    成功安装了Twisted在这里插入图片描述
    接下来准备安装scrapy受不了自己了,居然打错字,浪费了那么多的时间。
    pip install Scrapy 就可以安装成功了,主要就是Twisted的安装,

那么我们开始学一些scrapy的基本操作

基本操作

  • 创建一个scrapy项目
    • cmd 文件夹里面输入命令 scrapy startproject newspider
    • scrapy startproject是创建scrapy项目的固定格式,后面的minespider是你要创建的项目名称,可根据你的需求来取名,最好做到见名知意。
    • 成功后的现实显示在这里插入图片描述
    • 接下来创建spider文件
      • 在我们第一步创建的scrapy项目中,将要创建的蜘蛛文件放在spiders文件夹下,不要问问什么,固定格式
      • 创建之前
        在这里插入图片描述
  • 在文件夹中输入
  • 创建命令 :
    #crawl 这是模板创建名为bd 的spider文件,这里的名字不能与上面的baidu名字一样否则会出错
scrapy genspider -t crawl bd baidu.com

在这里插入图片描述

  • 在spider文件夹中创建了新的文件bd
  • 新的文件里面以根据文件模板创建好了基本的框架,我们直接可以使用了
  • 看图中的注释

在这里插入图片描述

继续看图中的注释
设置请求头的时候,有些网站不支持跨域请求,需要设置’Referer’
在这里插入图片描述

  • 图片的下载scrapy内建好的,可以直接引用管道文件
    • from scrapy.pipelines.images import ImagesPipeline,这是图片的管道文件的位置,只要变成这样‘scrapy.pipelines.images.ImagesPipeline’就可以在里面使用了
      在这里插入图片描述

在spider文件中导入from scrapy.pipelines.images import ImagesPipeline,图片管道文件

在这里插入图片描述

在这里插入图片描述
今天先讲到这里吧,讲了这么久,居然忘记讲scrapy的执行逻辑了,好尴尬,明天再捋一捋

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值