scrapy库安装及简单入门

最新推荐文章于 2024-04-30 12:14:09 发布

钢铁大脑袋

最新推荐文章于 2024-04-30 12:14:09 发布

阅读量1k

点赞数

文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/weixin_45615277/article/details/122763820

版权

安装包

scrapy 需要

visual C++ Build Tools
twisted
pywin32
后两个直接在终端里用pip install + 包名即可

visual C++ Build Tools

为什么要安装这个？
由于在Scrapy的依赖库文件中，pywin32和Twisted的底层是基于C语言开发的，因此需要安装C语言的编译环境。
下载地址为
https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=BuildTools&rel=15

如果显示这个
在这里插入图片描述

这是因为系统没有安装.Net Framework或者安装的版本太低。此时下载并安装一个4.5.1或以上版本的.Net Framework即可。安装好.Net Framework以后，Microsoft Visual C++Build Tools应该就可以正常安装了。

使用

使用scrapy 创建工程的命令
scrapy startproject <工程名>

不能用scrapy 作为工程名
不能用已经安装的任何第三方库作为工程名
否则会出现错误，出现错误的原理是是由于Python在导入库的时候，会优先从当前工程文件夹中寻找满足条件的文件或者文件夹，如果工程的名称本身就为scrapy，那么Python就无法找到正常的Scrapy库的文件。

创建完成后敲入
cd 工程名scrapy genspider 爬虫名字网址
爬虫名字与工程名不能重复，网址就是想要爬取的网站，可以修改为任何网站，有的时候，网页打不开是因为只输了一级域名，很可能需要输入二级域名

爬虫已经创建完成，pycharm中会出现对应scrapy工程，在spiders文件夹下有一个刚刚输入的爬虫名字

修改遵循robot协议的选项
scrapy 爬虫是默认遵循robot协议的，因此需要专门修改下参数

打开settings.py文件夹
修改ROBOTSTXT_OBEY = True 改为False

运行爬虫
scrapy crawl example

注意！
scrapy 爬虫是不能直接在pycharm中运行的，一定要在命令行中运行

如果一定要使用编译器的情况下运行

scrapy中使用xpath

scrapy和lxml使用xpath的不同之处在于，scrapy中使用xpath要加上.extract（）方法，如果不适用该方法，那么xpath获取的结果是保存再一个selector list中，直到调用.extract（）方法，才会将结果以列表的形式生成出来

这个SelectorList非常有意思，它本身很像一个列表。可以直接使用下标读取里面的每一个元素，也可以像列表一样使用for循环展开，然后对每一个元素使用.extract()方法。同时，又可以先执行SelectorList的.extract()方法，得到的结果是一个列表，接下来既可以用下标来获取每一个元素，也可以使用for循环展开。

scrapy中的工程结构

对于开发Scrapy爬虫来说，需要关心的内容如下。
（1）spiders文件夹：存放爬虫文件的文件夹。
（2）items.py：定义需要抓取的数据。
（3）pipelines.py：负责数据抓取以后的处理工作。
（4）settings.py：爬虫的各种配置信息。
在有spiders和settings.py这两项的情况下，就已经可以写出爬虫并保存数据了。
但是为什么还有items.py和pipelines.py这两个文件呢？这是由于Scrapy的理念是将数据爬取和数据处理分开。items.py文件用于定义需要爬取哪些内容。每个内容都是一个Field
pipelines.py文件用于对数据做初步的处理，包括但不限于初步清洗数据、存储数据等。