安装包
scrapy 需要
- visual C++ Build Tools
- twisted
- pywin32
后两个直接在终端里用pip install + 包名即可
visual C++ Build Tools
为什么要安装这个?
由于在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。
下载地址为
https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=BuildTools&rel=15
如果显示这个
这是因为系统没有安装.Net Framework或者安装的版本太低。此时下载并安装一个4.5.1或以上版本的.Net Framework即可。安装好.Net Framework以后,Microsoft Visual C++Build Tools应该就可以正常安装了。
使用
- 使用scrapy 创建工程的命令
scrapy startproject <工程名>
- 不能用scrapy 作为工程名
- 不能用已经安装的任何第三方库作为工程名
否则会出现错误,出现错误的原理是是由于Python在导入库的时候,会优先从当前工程文件夹中寻找满足条件的文件或者文件夹,如果工程的名称本身就为scrapy,那么Python就无法找到正常的Scrapy库的文件。
- 创建完成后敲入
cd 工程名
scrapy genspider 爬虫名字 网址
爬虫名字与工程名不能重复,网址就是想要爬取的网站,可以修改为任何网站,有的时候,网页打不开是因为只输了一级域名,很可能需要输入二级域名
爬虫已经创建完成,pycharm中会出现对应scrapy工程,在spiders文件夹下有一个刚刚输入的爬虫名字
- 修改遵循robot协议的选项
scrapy 爬虫是默认遵循robot协议的,因此需要专门修改下参数
- 打开settings.py文件夹
- 修改ROBOTSTXT_OBEY = True 改为False
- 运行爬虫
scrapy crawl example
注意!
scrapy 爬虫是不能直接在pycharm中运行的,一定要在命令行中运行
如果一定要使用编译器的情况下运行
- 将main.py放在工程的根目录下再运行
scrapy中使用xpath
scrapy和lxml使用xpath的不同之处在于,scrapy中使用xpath要加上.extract()方法,如果不适用该方法,那么xpath获取的结果是保存再一个selector list中,直到调用.extract()方法,才会将结果以列表的形式生成出来
这个SelectorList非常有意思,它本身很像一个列表。可以直接使用下标读取里面的每一个元素,也可以像列表一样使用for循环展开,然后对每一个元素使用.extract()方法。同时,又可以先执行SelectorList的.extract()方法,得到的结果是一个列表,接下来既可以用下标来获取每一个元素,也可以使用for循环展开。
scrapy中的工程结构
对于开发Scrapy爬虫来说,需要关心的内容如下。
(1)spiders文件夹:存放爬虫文件的文件夹。
(2)items.py:定义需要抓取的数据。
(3)pipelines.py:负责数据抓取以后的处理工作。
(4)settings.py:爬虫的各种配置信息。
在有spiders和settings.py这两项的情况下,就已经可以写出爬虫并保存数据了。
但是为什么还有items.py和pipelines.py这两个文件呢?这是由于Scrapy的理念是将数据爬取和数据处理分开。items.py文件用于定义需要爬取哪些内容。每个内容都是一个Field
pipelines.py文件用于对数据做初步的处理,包括但不限于初步清洗数据、存储数据等。