Scrapy的安装与简单使用

Scrapy的安装与简单实例(1)

简单的小爬虫任务实现之后,我们可以尝试使用框架来编写爬虫。使用框架可以减少重复代码的编写,提高爬虫开发的效率以及规模。scrapy是目前最受欢迎,社区活跃程度最高的爬虫框架。这篇博文将简单介绍Scrapy的安装以及一个最简单的爬虫。

Scrapy的安装

Scrapy的安装可以使用pip install Scrapy语句实现,但是使用Scrapy的前提是我们需要安装lxml、OpenSSL等库。这些库的安装较为繁琐,在网上我看到使用Anaconda安装可以极大的简化这一个过程。

安装Anaconda

在下方一位博主的帮助之下安装好Anaconda之后.打开Anaconda,使用语句conda install scrapy

Anaconda安装Scrapy

创建项目

进入打算存储代码的目录,打开cmd,输入如下命令Scrapy startproject myscrapy创建一个项目(myscrapy就是所要创建的项目的名字)

创建myscrapy项目

可以看到目录中产生了一个myscrapy项目,打开之后有

创建好的项目

编写第一个爬虫

接着输入命令行中提示的语句

cd myscrapy
scrapy genspider example example.com

其中,example是爬虫的名称,example.com是待爬取的网站

可以看到在spider目录下创建了一个example.py文件,在其中编写一个最简单的爬虫。

在这里插入图片描述
用idle打开example.py文件,可以看到如下代码:

import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass

其中:
name是爬虫的名称,每一个爬虫的名字都不一样
allowed_domians是运行爬虫访问的列表
start_urls 表示爬虫从哪一个网址开始爬取
parse是将每一个URL完成下载之后的Response对象作为唯一参数提交给该函数

我们按照格式输入需要采集的网址,对于parse我们将内容暂时输出

import scrapy


class ExampleSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["runoob.com"]
    start_urls = [
        "http://www.runoob.com/xpath/xpath-examples.html",
        "http://www.runoob.com/bootstrap/bootstrap-tutorial.html"
        ]

    def parse(self, response):
        print(response)

可以看到,爬虫名字是dmoz,爬取的网站是菜鸟教程,分别爬取Xpath和Bootstrap教程。

爬取结果

爬取结果
Scrapy的进一步内容还在进一步学习,欢迎指错,催更。

参考书籍
《python网络爬虫开发从入门到精通》刘延林编著 (P252-P255)
《python数据分析与大数据处理从入门到精通》朱春旭编著(P119-P125)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

用python的研究生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值