Scrapy入门

scrapy入门

目标:

创建一个Scrapy项目。
创建一个Spider来抓取站点和处理数据。
通过命令行将抓取的内容导出。
将抓取的内容保存的到MongoDB数据库。

创建项目:

创建一个Scrapy项目,项目文件可以直接用scrapy命令生成,命令如下所示:

scrapy startproject tutorial

文件夹结构如下所示:

在这里插入图片描述

  • scrapy.cfg #Scrapy 部署时的配置文件
  • tutorial #项目的模块,需要从这里引入
  • items.py #Items的定义,定义爬取的数据结构
  • middlewares.py #Middlewares的定义,定义爬取时的中间件
  • pipelines.py #Pipelines的定义,定义数据管道
  • settings.py #配置文件
  • spiders #放置Spiders的文件夹

创建Spider

spider是自己定义的类,Scrapy用它来从网页里抓取内容,并解析抓取的结果。这个类必须继承Scrapy提供的Spider类scrapy.Spider,还要定义Spider的名称和起始请求,以及怎样处理爬取后的结果的方法。

也可以使用命令行创建一个Spider。比如要生成Quotes这个Spider,可以执行如下命令:

cd tutorial 
scrapy genspider quotes quotes.toscrape.com

进入tutorial文件夹,然后执行genspider命令

  • quotes:spider名称
  • quotes.toscrape.com:网站域名

创建好后的spider代码:

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        pass

里面有三个属性——name、allowed_domains、start_urls和一个parse方法。

  • name:它是每个项目唯一的名字,用来区分不同的Spider;
  • allowed_domains:它是允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉。
  • start_urls:它包含了Spider在启动时爬取的url列表,初始请求是由它来定义的。
  • parse:它是Spider的一个方法。当start_urls里面的链接构成的请求完成下载执行后,返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求
  • response:start_urls里的链接构成的请求下载后得到的响应。

创建ltem

Item是保存爬取数据的容器,它的使用方法和字典类似。不过,相比字典,Item多了额外的保护机制,可以避免拼写错误或者定义字段错误。
创建Item需要继承scrapy.Item类,并且定义类型为scrapy.Field的字段。
定义Item,将items.py修改如下:

import scrapy

class QuotelItem(scrapy.Item):
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

解析Response

在parse()方法中,我们可以直接对response变量包含的内容进行解析,比如浏览请求结果的网页源代码,或者进一步分析源代码内容,或者找出结果中的链接而得到下一个请求。
可以选择CSS或者Xpath选择器进行内容提取。

parse()方法改下如下:

def parse(self, response):
    quotes = response.css('.quote')
    for quote in quotes:
        text = quote.css('.text::text').extract_first()
        author = quote.css('.author::text').extract_first()
        tags = quote.css('.tags .tag:: text').extract()

首先利用选择器选取所有的class名为quote的标签,并将其赋值为quotes变量,然后利用for循环对每个quote遍历,解析每个quote的内容。

  • extract_first():获取结果列表的第一个元素
  • extract():获取整个结果列表

使用Item

Item可以理解为一个字典,不过在声明的时候需要实例化。然后依次用刚才解析的结果赋值Item的每一个字段,最后将Item返回即可。

QuotesSpider的改写如下所示:

# -*- coding: utf-8 -*-
import scrapy
from tutorial.items import QuotelItem

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        quotes = response.css('.quote')
        for quote in quotes:
            item=QuotelItem()
            item["text"] = quote.css('.text::text').extract_first()
            item["author"] = quote.css('.author::text').extract_first()
            item["tags"] = quote.css('.tags .tag::text').extract()
            yield item
        next = response.css('.pager .next a::attr("href")').extract_first()     #提取下一页的链接
        url = response.urljoin(next)    #将下一页的链接与主网址结合成一个完整的链接
        yield scrapy.Request(url=url, callback=self.parse)

首页的所有内容被解析出来,并被赋值成了一个个Quoteltem然后返回到item进行下一步处理

scrapy.Request():用于构造请求

  • url:它是请求链接。
  • callback:它是回调函数。当指定了该回调函数的请求完成执行之后,获取到响应,引擎会将该响应作为参数传递给这个回调函数。回调函数进行解析或生成下一个请求,如果不指定回调函数,则会默认调用parse作为回调函数。

urljoin():该方法可以将相对URL构造成一个绝对的URL。

例如,获取到的下一页地址是/page/2,urljoin()方法处理后得到的结果就是:http//quotes.toscrape.com/pae/20

运行

进入spider所在的目录进行命令:

scrapy crawl quotes
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

首先,Scrapy输出了当前的版本号以及正在启动的项目名称。接着输出了当前settings.py中一些重写后的配置。然后输出了当前所应用的Middlewares和Pipelines,Middlewares默认是启用的,可以在settings.py中修改。Pipelines默认是空,同样也可以在settings.py中配置。
接下来就是输出各个页面的抓取结果了,爬虫一边解析,一边翻页,直至将所有内容抓取完毕,然后终止。
最后,Scrapy输出了整个抓取过程的统计信息,如请求的字节数、请求次数、响应次数、完成原因等。

保存到文件

Scrapy提供的Feed Exports可以轻松将抓取结果输出。

例如,我们想将上面的结果保存成JSON文件,可以执行如下命令

scrapy crawl quotes -o quotes.json

输出格式还支持很多种,例如csv,xml,pickle,marshal等,还支持fp,s3等远程输出,另外还可以通过自定义ItemExporter来实现其他的输出。

使用Item Pipeline

如果想进行更复杂的操作,如将结果保存到MongoDB数据库,或者筛选某些有用的Item,则可以定义Item Pileline来实现。

Item Pipeline为项目管道。当Item生成后,它会自动被送到Item Pipeline进行处理,我们常用Item Pipeline来做如下操作。

  • 清理HTML数据。
  • 验i爬取数据,检查爬取字段。
  • 查重并丢弃重复内容。
  • 将爬取结果保存到数据库。

要实现Item Pipeline很简单,只需要定义一个类并实现process_item())方法即可。启用Item Pipeline后,Item Pipeline会自动调用这个方法。process_item()方法必须返回包含数据的字典或Item对象,或者抛出Dropltem异常

process_item()方法有两个参数。

  • item:每次Spider生成的Item都会作为参数传递过来。
  • spider:就是Spider的实例。

修改项目里的pipelines.py文件:

增加一个TextPipeline类

from scrapy.exceptions import DropItem
class TextPipeline(object):
    def __init__(self):
        self.limit =50
    def process_item(self,item,spider):
        if item['text']:
            if len(item['text'])>self.limit:
                item['text']= item['text'][0:self.limit].rstrip()+'...'
                return item
            else:
                return DropItem('Missing Text')

增加一个另一个类MongoPipeline

import pymongo
class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        name = item.__class__.__name__
        self.db[name].insert(dict(item))
        return item

    def close_spider(self, spider):
        self.client.close()

MongoPipeline类实现了API定义的另外几个方法:

  • from_crawler:它是一个类方法,用@classmethod标识,是一种依赖注入的方式。它的参数就是crawler,通过crawler我们可以拿到全局配置的每个配置信息。在全局配置settings.py中,我们可以定义MONGO_URI和MONGO_DB来指定MongoDB连接需要的地址和数据库名称,拿到配置信息之后返回类对象即可。所以这个方法的定义主要是用来获取settings.py中的配置的。
  • open_spider:当Spider开启时,这个方法被调用。
  • close_spider:当Spider关闭时,这个方法会调用。

在settings.py中设置MongoDB的连接信息和使用定义好的Pipline

ITEM_PIPELINES = {
   'tutorial.pipelines.TextPipeline': 300,
   'tutorial.pipelines.MongoPipeline': 400,
}

MONGO_URI='localhost'
MONGO_DB='tutorial'

ose_spider:当Spider关闭时,这个方法会调用。

在settings.py中设置MongoDB的连接信息和使用定义好的Pipline

ITEM_PIPELINES = {
   'tutorial.pipelines.TextPipeline': 300,
   'tutorial.pipelines.MongoPipeline': 400,
}

MONGO_URI='localhost'
MONGO_DB='tutorial'

赋值ITEM_PIPELINES字典,键名是Pipeline的类名称,键值是调用优先级,是一个数字,数字越小则对应的Pipeline越先被调用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值