大数据时代下的Scrapy爬虫框架

本文介绍了大数据时代下Scrapy爬虫框架的重要性,详细阐述了Scrapy的定义、安装步骤,并通过实战项目——爬取豆瓣电影TOP250电影信息,展示了Scrapy的使用过程,包括items.py、pipelines.py和douban_spider.py的配置与运行结果。
摘要由CSDN通过智能技术生成


前言

随着大数据时代的来临,数据对一个企业越来越重要,没有数据的支撑,那么这个企业必然会落后于其它企业,那么怎么样获取数据呢?本篇文章将告诉你如何从互联网上抓取有用的数据并持久化存储

一、Scrapy是什么?

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

二、使用步骤

1.安装Scrapy

pip install scrapy

2.创建Scrapy项目

scrapy startproject 项目名

3.Scrapy架构图

在这里插入图片描述
Item Pipeline:可以简称为数据结构,即要存储的数据的结构,可以理解为面向对象中的类,这个模块在Spiders模块解析后,会进行回调。
Spiders:数据解析模块,即在此模块中,只是做对数据的解析,并提取链接信息发送给Scheduler模块进行排队。
Downloader:下载模块,只做数据请求,并将返回的数据放入Spiders中解析。
Scheduler:队列模块,只负责对请求的链接进行排序并发送给Downloader.

三.实战项目:爬取豆瓣电影TOP250电影信息

1.items.py

该模块对应items模块

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy
class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    ##电影序号
    movie_number=scrapy.Field()
    ##电影名字
    movie_name=scrapy.Field()
    ##电影信息
    movie_tostar=scrapy.Field()
    ##星级
    movie_star
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值