主要问题
处理流式数据的两种方法
静态数据的几种格式
要介绍流式数据的处理,首先要介绍spark的几种静态的数据结构:RDD、dataset和dataframe。
简单来讲,RDD是spark最基础的数据,可以看出一行行独立的数据,每一行内部是封闭的黑箱,在MapReduce之前不知道是啥(MapReduce是hadoop的一种计算模型,浅显一点理解就是做筛选统计之类的活的,就是下图紫色的过程)。
图出自https://blog.csdn.net/MrZhangBaby/article/details/88840635,看不清可以点进去看
Dataset是整理过的RDD,同样可以理解为一行行的数据,只是里面更有序(有了固定的结构schema)
Dataframe就是Python和R里的那种dataframe,也就是最常见的带表头的表,是Dataset的特例,链接里的图就很形象
https://blog.csdn.net/weixin_42702831/article/details/82492421
RDD
Dataframe
Dataset
或者是
流式数据的2种处理方式
从文件里读数据,读一次就产生一个静态数据,而像日志之类的记录这种不断增长的数据,可以看做是一个瀑布流,源源不断的增长。针对这种流式数据(data stream)的处理,要么用flink(flink其实是处理流式数据更专业的方法,和spark、kafka一样都是apache的顶级项目,阿里开源的blink就是包含于flink的),要么用spark,这里由于自身原因使用spark。用spark一般有2种方法
- RDD转Dstream
因为RDD是最基础的数据格式,所以数据流最开始就是不断增长的RDD。不断增长怎么统计计算呢?切片!举个栗子,按照5分钟的间隔,将间隔内的数据增量作为整体(一个batch)进行计算。切片的原理很简单,可是5分钟的间隔感觉不够实时,那按微积分的思想,切成0.1s的间隔,就可以看成实时数据了。。。事实上batch的划分还是受限于数据量和可用资源,分的越细,耗费的资源自然就越大。官方文档里给的例子是1秒,想来应该是够用的。
- RDD转Dataframe
Dstream是Discretized Streams的缩写,顾名思义,是离散的。处理过程是先将整体打散,分别处理,然后再合起来。而RDD转Dataframe使用StructureStreaming,将不断增长的数据,变换为一张不断增长的具有结构(structure或者说schema)的大表,进而可以把它当成写SQL一样,直接处理当前时间的整体。如下图所示。
计算结果输出到kafka
使用RDD的Dstream(旧接口)
其实官方的例子已经很完善了,这里尽可能简化一下项目的代码,贴一些注释,可以结合着文档的例子看看。
已删除