Python爬虫——scrapy安装和使用

最新推荐文章于 2023-04-07 01:18:06 发布

原创最新推荐文章于 2023-04-07 01:18:06 发布 · 5.2k 阅读

67 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

python 专栏收录该内容

10 篇文章

订阅专栏

7.4 一个item包含多级页面的数据（电影天堂）

8 CrawlSpider（读书网）

9 数据入库（读书网）

10 日志信息和日志等级

11 scrapy的post请求（百度翻译）

1.scrapy是什么？

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

2.安装scrapy

CMD进入python编辑器所在的Scripts目录下。

pip install scrapy -i https://pypi.douban.com/simple

安装过程中可能出现的错误：

报错1：building 'twisted.test.raiser' extension

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++

Build Tools": http://landinghub.visualstudio.com/visual‐cpp‐build‐tools

解决办法:

下载twisted库，网址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

注意：cp后面是 python版本，amd64代表64位

下载对应版本，下载完成后使用 pip install twisted的路径进行安装

安装完成后在进行安装scrapy。

报错2：提示升级pip指令：python.exe ‐m pip install ‐‐upgrade pip

解决办法：运行指令python.exe ‐m pip install ‐‐upgrade pip 即可。

报错3： win32错误。

scrapy startproject scrapy_baidu

解决办法：运行指令 pip install pypiwin32

3.scrapy项目的创建以及运行

scrapy项目不能使用之前的方式创建，只能通多命令窗口的方式进行创建。

首先我们使用命令窗口进入项目需要放到的路径下面。

3.1 输入命令创建项目。切记 scrapy的项目名不能以数字开头，不能存在汉字。

scrapy startproject scrapy_baidu

此时我们查看pycharm编辑器，会看到出现如下内容。

3.2 创建爬虫文件。

要在spiders文件夹中去创建爬虫文件

进去创建文件的目录 cd 项目的名字\项目的名字\spiders

创建爬虫的文件 scrapy genspider 爬虫文件的名字要爬取的网页

cd scrapy_baidu\scrapy_baidu\spiders

scrapy genspider baidu http://www.baidu.com

创建文件成功后，查看pycharm中spiders目录下新生成一个文件，并且修改文件如下图所示。

3.3 修改文件settings.py

3.4 运行爬虫文件

scrapy crawl 爬虫的名字

scrapy crawl baidu

4.response的属性和方法

response.text 获取的是响应的字符串

response.body 获取的是二进制数据

response.xpath() 可以直接使用xpath方法来解析response中的内容

response.extract() 提取seletor对象的data属性值

response.extract_first() 提取seletor列表的第一个数据

5.scrapy工作原理

6. scrapy shell

Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。

一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

6.1 安装ipython

pip install ipython

6.2 使用

安装完成后，打开命令窗口，输入命令：

scrapy shell www.baidu.com

7. yield实例

7.1 管道封装（当当网）

7.1.1 创建项目

查看pycharm

7.1.2 修改文件items.py（定义数据结构）

class ScrapyDangdangItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 通俗的说就是你要下载的数据有什么

#     爬取图片
    src = scrapy.Field()
    # 名字
    name = scrapy.Field()
    # 价格
    price = scrapy.Field()

7.1.3 编写爬虫代码（dang.py）

import scrapy


class DangSpider(scrapy.Spider):
    name = 'dang'
    allowed_domains = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']
    # http://category.dangdang.com/ 我默认链接最后的斜杆删除，要之后获取不到数据
    start_urls = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']

    def parse(self, response):
        # pipelines     下载数据
        # items         定义数据结构的
        # src = //ul[@id="component_59"]/li//img/@src
#         alt = //ul[@id="component_59"]/li//img/@alt
#         price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
#       所有的seletor的对象 都可以再次调用xpath方法
        li_list = response.xpath('//ul[@id="component_59"]/li')

        print("=======================")

        for li in li_list:
            # 第一张图片和其他的图片的标签属性是不一样的
            # 第一张图片的src是可以使用的，其他图片的地址是data-original
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()

            name = li.xpath('.//img/@alt').extract_first()
            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()

            print(src,name,price)

命令窗口运行命令：scrapy crawl dang 可以查看到下面界面。

7.1.4 保存并且下载我们刚才爬取到的数据。

首先，我们需要在settings.py文件中打开管道的设置。

其次，编写文件dang.py

import scrapy

from scrapy_dangdang.items import ScrapyDangdangItem


class DangSpider(scrapy.Spider):
    name = 'dang'
    allowed_domains = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']
    # http://category.dangdang.com/ 我默认链接最后的斜杆删除，要之后获取不到数据
    start_urls = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']

    def parse(self, response):
        # pipelines     下载数据
        # items         定义数据结构的
        # src = //ul[@id="component_59"]/li//img/@src
#         alt = //ul[@id="component_59"]/li//img/@alt
#         price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
#       所有的seletor的对象 都可以再次调用xpath方法
        li_list = response.xpath('//ul[@id="component_59"]/li')

        print("=======================")

        for li in li_list:
            # 第一张图片和其他的图片的标签属性是不一样的
            # 第一张图片的src是可以使用的，其他图片的地址是data-original
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()

            name = li.xpath('.//img/@alt').extract_first()
            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()

            # 爬取到的数据放到对象里面
            book = ScrapyDangdangItem(src=src,name=name,price=price)

#              yield 是一个类似 return 的关键字，迭代一次遇到yield时就返回yield后面(右边)的值。
#             获取一个book就将book交给pipelines（管道）
            yield book

最后，我们编写文件pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

# 如果想使用管道的话 那么就必须在settings中开启管道
class ScrapyDangdangPipeline:
    # 在爬虫文件开始之前就执行的方法
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')



    # item就是yield后面的book对象
    def process_item(self, item, spider):
        # 以下这种模式不推荐   因为每次传递过来一个对象那么就打开一次文件  文件的操作的过于频繁
        #
        #
        # # 1.write方法必须要写一个字符串，而不能是其他对象
        # # 2.w模式 会每一个对象都打开一次文件 覆盖之前的内容
        # with open('book.json','a',encoding='utf-8')as fp:
        #     fp.write(str(item))

        self.fp.write(str(item))

        return item

    # 在爬虫文件结束之后就执行的方法
    def close_spider(self,spider):
        self.fp.close()

此时，我们在命令窗口使用命令（scrapy crawl dang）运行向，项目时，就可在项目中看到爬取的数据所在的文件了。

7.2 多条管道下载

在上面代码的基础上修改文件 pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

# 如果想使用管道的话 那么就必须在settings中开启管道
class ScrapyDangdangPipeline:
    # 在爬虫文件开始之前就执行的方法
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')



    # item就是yield后面的book对象
    def process_item(self, item, spider):
        # 以下这种模式不推荐   因为每次传递过来一个对象那么就打开一次文件  文件的操作的过于频繁
        #
        #
        # # 1.write方法必须要写一个字符串，而不能是其他对象
        # # 2.w模式 会每一个对象都打开一次文件 覆盖之前的内容
        # with open('book.json','a',encoding='utf-8')as fp:
        #     fp.write(str(item))

        self.fp.write(str(item))

        return item

    # 在爬虫文件结束之后就执行的方法
    def close_spider(self,spider):
        self.fp.close()

import urllib.request

# 多条管道开启 下载图片
# 1.定义管道类
# 2.在settings中开启管道  'scrapy_dangdang.pipelines.DangDangDownloadPipeline':301
class DangDangDownloadPipeline:
    def process_item(self, item, spider):
        url = 'http:' + item.get('src')
        filename ='./books/' + item.get('name') + '.jpg'

        urllib.request.urlretrieve(url=url,filename=filename)

        return item

其次配置文件settings.py

在项目的spiders目录下面新建文件夹book，然后使用命令（scrapy crawl dang）运行项目时，就可在项目中看到爬取的数据所在的文件了。

7.3 多网页下载

编写文件dang.py

import scrapy

from scrapy_dangdang.items import ScrapyDangdangItem


class DangSpider(scrapy.Spider):
    name = 'dang'
    # 如果多也下载的话，那么必须要调整的是allowed_domains 的范围  一般情况下只写域名
    allowed_domains = ['category.dangdang.com']
    # http://category.dangdang.com/ 我默认链接最后的斜杆删除，要之后获取不到数据
    start_urls = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']

    base_url = 'http://category.dangdang.com/pg'
    page = 1

    def parse(self, response):
        # pipelines     下载数据
        # items         定义数据结构的
        # src = //ul[@id="component_59"]/li//img/@src
#         alt = //ul[@id="component_59"]/li//img/@alt
#         price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
#       所有的seletor的对象 都可以再次调用xpath方法
        li_list = response.xpath('//ul[@id="component_59"]/li')

        print("=======================")

        for li in li_list:
            # 第一张图片和其他的图片的标签属性是不一样的
            # 第一张图片的src是可以使用的，其他图片的地址是data-original
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()

            name = li.xpath('.//img/@alt').extract_first()
            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()

            # 爬取到的数据放到对象里面
            book = ScrapyDangdangItem(src=src,name=name,price=price)

#              yield 是一个类似 return 的关键字，迭代一次遇到yield时就返回yield后面(右边)的值。
#             获取一个book就将book交给pipelines（管道）
            yield book

#             每一页的爬取业务逻辑全都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法即可
#               第二页请求：http://category.dangdang.com/pg2-cp01.01.02.00.00.00.html
#               第二三请求：http://category.dangdang.com/pg3-cp01.01.02.00.00.00.html
        if self.page < 100:
            self.page = self.page+1
            url = self.base_url + str(self.page) + '-cp01.01.02.00.00.00.html'

            # 怎么去调用parse方法
            # scrapy.Request就是scrapy的get请求
            # url就是请求地址  callback就是你要执行的那个函数，主意不需要加圆括号
            yield  scrapy.Request(url=url,callback=self.parse)

使用命令（scrapy crawl dang）运行项目时，就可在项目中看到爬取的数据所在的文件了。

7.4 一个item包含多级页面的数据（电影天堂）

按照上面方法新建项目

items.py——定义数据结构

import scrapy


class ScrapyMovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    src = scrapy.Field()

修改配置文件——settings.py

编写管道——pipelines.py

class ScrapyMoviePipeline:

    def open_spider(self,spider):
        self.fp = open('movie.json','w',encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item


    def close_spider(self,spider):
        self.fp.close()

编写爬虫代码——mv.py

import scrapy
from scrapy_movie.items import ScrapyMovieItem


class MvSpider(scrapy.Spider):
    name = 'mv'
    allowed_domains = ['www.ygdy8.net']
    start_urls = ['https://www.ygdy8.net/html/gndy/china/index.html']

    def parse(self, response):
        # 要第一页的电影名字 和第二页相对应电影的图片
        a_list = response.xpath('//div[@class="co_content8"]//td[2]//a[2]')

        print('==============================')
        for a in a_list:
            # 获取第一页的name 和 要点击的链接
            name = a.xpath('./text()').extract_first()
            href = a.xpath('./@href').extract_first()

            # 第二页的地址
            url = 'https://www.ygdy8.net' + href

            # 对第二页的链接发起访问   meta表示传递给parse_second方法的数据
            yield  scrapy.Request(url=url,callback=self.parse_second,meta={'name':name})

    def parse_second(self,response):

        # 注意 如果拿不到数据的情况下 一定要检查xpath语法是否正确
        src = response.xpath('//div[@id="Zoom"]//img/@src').extract_first()
        # 接收到请求的那个meta参数的值
        name = response.meta['name']

        movie = ScrapyMovieItem(src = src,name = name)

        yield movie

使用命令（scrapy crawl mv）运行项目时，就可在项目中看到爬取的数据所在的文件了。

8 CrawlSpider（读书网）

CrawlSpider可以定义规则，再解析html内容的时候，可以根据链接规则提取出指定的链接，然后再向这些链接发送请求。所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSpider是非常合适的

创建项目，创建爬虫文件

scrapy startproject scrapy_readbook

cd scrapy_readbook\scrapy_readbook\spiders

scrapy genspider -t crawl read https://www.dushu.com/book/1188.html

items.py——定义数据结构

import scrapy


class ScrapyReadbookItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    src = scrapy.Field()

修改配置文件——settings.py

编写管道——pipelines.py

class ScrapyReadbookPipeline:

    def open_spider(self, spider):
        self.fp = open('book.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

编写爬虫代码——read.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_readbook.items import ScrapyReadbookItem

class ReadSpider(CrawlSpider):
    name = 'read'
    allowed_domains = ['www.dushu.com']
    start_urls = ['https://www.dushu.com/book/1188_1.html']

    rules = (
        Rule(LinkExtractor(allow=r'/book/1188_\d+\.html'),
                           callback='parse_item',
                           follow=False),
    )

    def parse_item(self, response):

        img_list = response.xpath('//div[@class="bookslist"]//img')

        for img in img_list:
            name = img.xpath('./@alt').extract_first()
            src = img.xpath('./@data-original').extract_first()
            book = ScrapyReadbookItem(name=name,src=src)
            yield book

使用命令（scrapy crawl read）运行项目时，就可在项目中看到爬取的数据所在的文件了。

9 数据入库（读书网）

在上面项目（读书网）基础上，继续完善实现数据入库的操作。

为了更好的模拟生产环境，这里使用虚拟机中的数据库，数据库安装教程可以参考：linux环境安装mysql8.0以及使用Navicat连接Linux中的mysql_朂後哋箹萣的博客-CSDN博客

新建数据库，并且创建表

mysql -uroot -p自己密码
create database spider01 charset=utf8;
use spider01;
create table book(id int primary key auto_increment,name varchar(128),src varchar(128));

同时也可可以使用xshell连接数据库，这样方便之后的数据查看。

本虚拟机ip为192.168.10.102。准备工作完成。

修改配置文件——settings.py

DB_HOST = '192.168.10.102'
# 端口号是一个整数
DB_PORT = 3306
DU_USER = 'root'
DB_PASSWORD = '1171127310'
DB_NAME = 'spider01'
# utf-8的-不允许写
DB_CHARSET = 'utf8'

编写管道——pipelines.py，并且配置进settings.py中（如上图）

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class ScrapyReadbookPipeline:

    def open_spider(self, spider):
        self.fp = open('book.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

# 加载settings文件
from scrapy.utils.project import get_project_settings

import pymysql

class MysqlPipeline:

    def open_spider(self,spider):
        settings = get_project_settings()

        self.host = settings['DB_HOST']
        self.port = settings['DB_PORT']
        self.user = settings['DU_USER']
        self.password = settings['DB_PASSWORD']
        self.name = settings['DB_NAME']
        self.charset = settings['DB_CHARSET']

        self.connect()

    def connect(self):
        self.conn = pymysql.connect(
            host=self.host,
            port=self.port,
            user=self.user,
            password=self.password,
            db=self.name,
            charset=self.charset
        )

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        sql = 'insert into book(name,src) values("{}","{}")'.format(item['name'],item['src'])
        # 执行sql语句
        self.cursor.execute(sql)
        # 提交
        self.conn.commit()
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

上面文件pipelines.py中使用到了pymysql，若没有安装，安装步骤为：cmd进入到python安装目录下的Scripts下，使用下面命令安装即可使用。

pip install pymysql -i https://pypi.douban.com/simple

使用命令（scrapy crawl read）运行项目时，就可在项目中看到爬取的数据所在的文件了，同时打开数据库可以看到爬取的数据存放到数据库表中了。

此时，该项目完成了把读书网前13页数据爬取下来并且保存在数据库中的操作，若想把所有的书都爬取下来保存在数据库中，我们此时只需要修改文件read.py即可。

10 日志信息和日志等级

创建项目，创建爬虫文件

修改settings.py文件

11 scrapy的post请求（百度翻译）

创建项目，创建爬虫文件

编写爬虫代码——testpost.py

import scrapy
import json

class TestpostSpider(scrapy.Spider):
    name = 'testpost'
    allowed_domains = ['fanyi.baidu.com']
    # post请求 如果没有参数 那么这个请求将没有任何意义
    # 所以start_urls 也没有用
    # 所以parse也没有用
    # start_urls = ['http://fanyi.baidu.com/']
    #
    # def parse(self, response):
    #     pass

    def start_requests(self):
        url = 'https://fanyi.baidu.com/sug'

        data = {
            'kw': 'final'
        }

        yield scrapy.FormRequest(url=url,formdata=data,callback=self.parse_second)

    def parse_second(self,response):
        content = response.text
        print('===========================')
        obj = json.loads(content)
        print(obj)

运行效果：