零基础开发spark实时计算程序(2)

最新推荐文章于 2020-09-30 21:21:16 发布

yiyizhl

最新推荐文章于 2020-09-30 21:21:16 发布

阅读量116

点赞数

分类专栏：实时计算

本文链接：https://blog.csdn.net/yiyizhl/article/details/103069584

版权

实时计算专栏收录该内容

3 篇文章 0 订阅

订阅专栏

主要问题

处理流式数据的两种方法

静态数据的几种格式

要介绍流式数据的处理，首先要介绍spark的几种静态的数据结构：RDD、dataset和dataframe。
简单来讲，RDD是spark最基础的数据，可以看出一行行独立的数据，每一行内部是封闭的黑箱，在MapReduce之前不知道是啥（MapReduce是hadoop的一种计算模型，浅显一点理解就是做筛选统计之类的活的，就是下图紫色的过程）。

图出自https://blog.csdn.net/MrZhangBaby/article/details/88840635，看不清可以点进去看

在这里插入图片描述
Dataset是整理过的RDD，同样可以理解为一行行的数据，只是里面更有序（有了固定的结构schema）
Dataframe就是Python和R里的那种dataframe，也就是最常见的带表头的表，是Dataset的特例，链接里的图就很形象

https://blog.csdn.net/weixin_42702831/article/details/82492421

RDD
在这里插入图片描述
Dataframe

Dataset
或者是

流式数据的2种处理方式

从文件里读数据，读一次就产生一个静态数据，而像日志之类的记录这种不断增长的数据，可以看做是一个瀑布流，源源不断的增长。针对这种流式数据（data stream）的处理，要么用flink（flink其实是处理流式数据更专业的方法，和spark、kafka一样都是apache的顶级项目，阿里开源的blink就是包含于flink的），要么用spark，这里由于自身原因使用spark。用spark一般有2种方法

RDD转Dstream
因为RDD是最基础的数据格式，所以数据流最开始就是不断增长的RDD。不断增长怎么统计计算呢？切片！举个栗子，按照5分钟的间隔，将间隔内的数据增量作为整体（一个batch）进行计算。切片的原理很简单，可是5分钟的间隔感觉不够实时，那按微积分的思想，切成0.1s的间隔，就可以看成实时数据了。。。事实上batch的划分还是受限于数据量和可用资源，分的越细，耗费的资源自然就越大。官方文档里给的例子是1秒，想来应该是够用的。
RDD转Dataframe
Dstream是Discretized Streams的缩写，顾名思义，是离散的。处理过程是先将整体打散，分别处理，然后再合起来。而RDD转Dataframe使用StructureStreaming，将不断增长的数据，变换为一张不断增长的具有结构（structure或者说schema）的大表，进而可以把它当成写SQL一样，直接处理当前时间的整体。如下图所示。

计算结果输出到kafka

使用RDD的Dstream（旧接口）

其实官方的例子已经很完善了，这里尽可能简化一下项目的代码，贴一些注释，可以结合着文档的例子看看。

已删除

yiyizhl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础开发spark实时计算程序(2)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入i欢迎使用...
复制链接

扫一扫