安装scrapy
-
今天在工作的电脑上安装scrapy,遇到了不可描述的问题,头大的很,一顿顿的伤害差点就奔溃了,不过最后还是顺利的安装成功了
-
最主要是windows系统,我们用的是家庭版的,不是开发版的,这个系统中缺失了一些开发工具,一般都是Twisted没有安装,下面这个网站下载,然后pip install Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl 安装
-
我的python是3.7,window64位,就选择这版本下载
成功安装了Twisted
接下来准备安装scrapy受不了自己了,居然打错字,浪费了那么多的时间。
pip install Scrapy 就可以安装成功了,主要就是Twisted的安装,
那么我们开始学一些scrapy的基本操作
基本操作
- 创建一个scrapy项目
- cmd 文件夹里面输入命令 scrapy startproject newspider
- scrapy startproject是创建scrapy项目的固定格式,后面的minespider是你要创建的项目名称,可根据你的需求来取名,最好做到见名知意。
- 成功后的现实显示
- 接下来创建spider文件
- 在我们第一步创建的scrapy项目中,将要创建的蜘蛛文件放在spiders文件夹下,不要问问什么,固定格式
- 创建之前
- 在文件夹中输入
- 创建命令 :
#crawl 这是模板创建名为bd 的spider文件,这里的名字不能与上面的baidu名字一样否则会出错
scrapy genspider -t crawl bd baidu.com
- 在spider文件夹中创建了新的文件bd
- 新的文件里面以根据文件模板创建好了基本的框架,我们直接可以使用了
- 看图中的注释
继续看图中的注释
设置请求头的时候,有些网站不支持跨域请求,需要设置’Referer’
- 图片的下载scrapy内建好的,可以直接引用管道文件
- from scrapy.pipelines.images import ImagesPipeline,这是图片的管道文件的位置,只要变成这样‘scrapy.pipelines.images.ImagesPipeline’就可以在里面使用了
- from scrapy.pipelines.images import ImagesPipeline,这是图片的管道文件的位置,只要变成这样‘scrapy.pipelines.images.ImagesPipeline’就可以在里面使用了
在spider文件中导入from scrapy.pipelines.images import ImagesPipeline,图片管道文件
今天先讲到这里吧,讲了这么久,居然忘记讲scrapy的执行逻辑了,好尴尬,明天再捋一捋