Scrapy的安装与简单使用

最新推荐文章于 2023-07-12 09:30:00 发布

用python的研究生

最新推荐文章于 2023-07-12 09:30:00 发布

阅读量226

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45600501/article/details/108020833

版权

文章目录

Scrapy的安装与简单实例（1）

简单的小爬虫任务实现之后，我们可以尝试使用框架来编写爬虫。使用框架可以减少重复代码的编写，提高爬虫开发的效率以及规模。scrapy是目前最受欢迎，社区活跃程度最高的爬虫框架。这篇博文将简单介绍Scrapy的安装以及一个最简单的爬虫。

Scrapy的安装

Scrapy的安装可以使用pip install Scrapy语句实现，但是使用Scrapy的前提是我们需要安装lxml、OpenSSL等库。这些库的安装较为繁琐，在网上我看到使用Anaconda安装可以极大的简化这一个过程。

安装Anaconda

在下方一位博主的帮助之下安装好Anaconda之后.打开Anaconda,使用语句conda install scrapy

Anaconda安装Scrapy

创建项目

进入打算存储代码的目录,打开cmd，输入如下命令Scrapy startproject myscrapy创建一个项目（myscrapy就是所要创建的项目的名字）

创建myscrapy项目

可以看到目录中产生了一个myscrapy项目，打开之后有

创建好的项目

编写第一个爬虫

接着输入命令行中提示的语句

cd myscrapy
scrapy genspider example example.com

其中，example是爬虫的名称，example.com是待爬取的网站

可以看到在spider目录下创建了一个example.py文件，在其中编写一个最简单的爬虫。

在这里插入图片描述
用idle打开example.py文件，可以看到如下代码：

import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass

其中：
name是爬虫的名称，每一个爬虫的名字都不一样
allowed_domians是运行爬虫访问的列表
start_urls 表示爬虫从哪一个网址开始爬取
parse是将每一个URL完成下载之后的Response对象作为唯一参数提交给该函数

我们按照格式输入需要采集的网址，对于parse我们将内容暂时输出

import scrapy


class ExampleSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["runoob.com"]
    start_urls = [
        "http://www.runoob.com/xpath/xpath-examples.html",
        "http://www.runoob.com/bootstrap/bootstrap-tutorial.html"
        ]

    def parse(self, response):
        print(response)

可以看到，爬虫名字是dmoz，爬取的网站是菜鸟教程，分别爬取Xpath和Bootstrap教程。

爬取结果

爬取结果
Scrapy的进一步内容还在进一步学习，欢迎指错，催更。

参考书籍
《python网络爬虫开发从入门到精通》刘延林编著（P252-P255）
《python数据分析与大数据处理从入门到精通》朱春旭编著（P119-P125）

用python的研究生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Scrapy的安装与简单使用

文章目录Scrapy的安装与简单实例（1）Scrapy的安装创建项目编写第一个爬虫爬取结果Scrapy的安装与简单实例（1）简单的小爬虫任务实现之后，我们可以尝试使用框架来编写爬虫。使用框架可以减少重复代码的编写，提高爬虫开发的效率以及规模。scrapy是目前最受欢迎，社区活跃程度最高的爬虫框架。这篇博文将简单介绍Scrapy的安装以及一个最简单的爬虫。Scrapy的安装Scrapy的安装可以使用pip install Scrapy语句实现，但是使用Scrapy的前提是我们需要安装lxml、Open
复制链接

扫一扫