scrapy库安装及简单入门

安装包

scrapy 需要

  • visual C++ Build Tools
  • twisted
  • pywin32
    后两个直接在终端里用pip install + 包名即可

visual C++ Build Tools

为什么要安装这个?
由于在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。
下载地址为
https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=BuildTools&rel=15

如果显示这个
在这里插入图片描述

这是因为系统没有安装.Net Framework或者安装的版本太低。此时下载并安装一个4.5.1或以上版本的.Net Framework即可。安装好.Net Framework以后,Microsoft Visual C++Build Tools应该就可以正常安装了。

使用

  1. 使用scrapy 创建工程的命令
    scrapy startproject <工程名>
  • 不能用scrapy 作为工程名
  • 不能用已经安装的任何第三方库作为工程名
    否则会出现错误,出现错误的原理是是由于Python在导入库的时候,会优先从当前工程文件夹中寻找满足条件的文件或者文件夹,如果工程的名称本身就为scrapy,那么Python就无法找到正常的Scrapy库的文件。
  1. 创建完成后敲入
    cd 工程名scrapy genspider 爬虫名字 网址
    爬虫名字与工程名不能重复,网址就是想要爬取的网站,可以修改为任何网站,有的时候,网页打不开是因为只输了一级域名,很可能需要输入二级域名

爬虫已经创建完成,pycharm中会出现对应scrapy工程,在spiders文件夹下有一个刚刚输入的爬虫名字

  1. 修改遵循robot协议的选项
    scrapy 爬虫是默认遵循robot协议的,因此需要专门修改下参数
  • 打开settings.py文件夹
  • 修改ROBOTSTXT_OBEY = True 改为False
  1. 运行爬虫
    scrapy crawl example

注意!
scrapy 爬虫是不能直接在pycharm中运行的,一定要在命令行中运行

如果一定要使用编译器的情况下运行

  • 将main.py放在工程的根目录下再运行

scrapy中使用xpath

scrapy和lxml使用xpath的不同之处在于,scrapy中使用xpath要加上.extract()方法,如果不适用该方法,那么xpath获取的结果是保存再一个selector list中,直到调用.extract()方法,才会将结果以列表的形式生成出来

这个SelectorList非常有意思,它本身很像一个列表。可以直接使用下标读取里面的每一个元素,也可以像列表一样使用for循环展开,然后对每一个元素使用.extract()方法。同时,又可以先执行SelectorList的.extract()方法,得到的结果是一个列表,接下来既可以用下标来获取每一个元素,也可以使用for循环展开。

scrapy中的工程结构

对于开发Scrapy爬虫来说,需要关心的内容如下。
(1)spiders文件夹:存放爬虫文件的文件夹。
(2)items.py:定义需要抓取的数据。
(3)pipelines.py:负责数据抓取以后的处理工作。
(4)settings.py:爬虫的各种配置信息。
在有spiders和settings.py这两项的情况下,就已经可以写出爬虫并保存数据了。
但是为什么还有items.py和pipelines.py这两个文件呢?这是由于Scrapy的理念是将数据爬取和数据处理分开。items.py文件用于定义需要爬取哪些内容。每个内容都是一个Field
pipelines.py文件用于对数据做初步的处理,包括但不限于初步清洗数据、存储数据等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值