零基础开发spark实时计算程序(2)

主要问题

处理流式数据的两种方法

静态数据的几种格式

要介绍流式数据的处理,首先要介绍spark的几种静态的数据结构:RDD、dataset和dataframe。
简单来讲,RDD是spark最基础的数据,可以看出一行行独立的数据,每一行内部是封闭的黑箱,在MapReduce之前不知道是啥(MapReduce是hadoop的一种计算模型,浅显一点理解就是做筛选统计之类的活的,就是下图紫色的过程)。

图出自https://blog.csdn.net/MrZhangBaby/article/details/88840635,看不清可以点进去看

在这里插入图片描述
Dataset是整理过的RDD,同样可以理解为一行行的数据,只是里面更有序(有了固定的结构schema)
Dataframe就是Python和R里的那种dataframe,也就是最常见的带表头的表,是Dataset的特例,链接里的图就很形象

https://blog.csdn.net/weixin_42702831/article/details/82492421

RDD
在这里插入图片描述
Dataframe
在这里插入图片描述
Dataset
在这里插入图片描述或者是在这里插入图片描述

流式数据的2种处理方式

从文件里读数据,读一次就产生一个静态数据,而像日志之类的记录这种不断增长的数据,可以看做是一个瀑布流,源源不断的增长。针对这种流式数据(data stream)的处理,要么用flink(flink其实是处理流式数据更专业的方法,和spark、kafka一样都是apache的顶级项目,阿里开源的blink就是包含于flink的),要么用spark,这里由于自身原因使用spark。用spark一般有2种方法

  • RDD转Dstream
    因为RDD是最基础的数据格式,所以数据流最开始就是不断增长的RDD。不断增长怎么统计计算呢?切片!举个栗子,按照5分钟的间隔,将间隔内的数据增量作为整体(一个batch)进行计算。切片的原理很简单,可是5分钟的间隔感觉不够实时,那按微积分的思想,切成0.1s的间隔,就可以看成实时数据了。。。事实上batch的划分还是受限于数据量和可用资源,分的越细,耗费的资源自然就越大。官方文档里给的例子是1秒,想来应该是够用的。
    在这里插入图片描述
  • RDD转Dataframe
    Dstream是Discretized Streams的缩写,顾名思义,是离散的。处理过程是先将整体打散,分别处理,然后再合起来。而RDD转Dataframe使用StructureStreaming,将不断增长的数据,变换为一张不断增长的具有结构(structure或者说schema)的大表,进而可以把它当成写SQL一样,直接处理当前时间的整体。如下图所示。
    在这里插入图片描述

计算结果输出到kafka

使用RDD的Dstream(旧接口)

其实官方的例子已经很完善了,这里尽可能简化一下项目的代码,贴一些注释,可以结合着文档的例子看看。

已删除
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值