SparkStreaming使用之DStream

18 篇文章 0 订阅
1 篇文章 0 订阅

SparkStreaming使用之DStream

前言

概念:
实时数据处理 和 离线数据处理的区别:
在于数据处理延迟的长短:实时是毫秒级别,离线数据处理则是小时或者天
批量数据处理与流式处理方式的区别:
侧重点在于 :数据的处理方式,批量则是一批次处理,流式则是来一个处理一个

一、SparkStreaming是什么?

SparkStreaming 是Spark 中用于处理实时计算的模块。
类似SparkSql中封装的DataFrame 和 DataSet一样,SparkStreaming中也封装了RDD,叫DStreaming
SparkStreaming 属于准实时,微批次的实时处理框架
准实时(把数据RDD封装成DStream来处理,本质上还是需要离线计算,只是把离线计算的数据量小化,这样计算就快一些,秒级)
微批次(批量计算数据大,微批次上,时间按秒来算,数据量小)

二、DStream是什么?

DStream:Discretized Stream,离散化流,SparkStreming中基础抽象数据格式,封装的RDD

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在Exector上的数据采集器,采集数据后,安装时间格式采集数据,封装成一个一个RDD,然后把RDD传给SparkStreamingContext后封装成DStream

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值