Kafka小记(二)

最新推荐文章于 2024-07-13 19:14:58 发布

七月流火_2567

最新推荐文章于 2024-07-13 19:14:58 发布

阅读量107

点赞数 5

分类专栏： spark 文章标签： kafka SparkStreaming

本文链接：https://blog.csdn.net/zhy_2117/article/details/84146569

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、Kafka分区和消费者的关系
Kafka分区继承了一个接口，实现的是PartitionAssignor，这个接口下面有两个类，RoundRobinAssignor和RangeAssignor两种算法实现
第一种轮循方法更优
二、文件的存储机制
在这里插入图片描述存储机制图

三、文件的传输机制
在这里插入图片描述
传输机制图
四、Spark Streaming简介
DStream 是一个数据抽象
在内部，一个DStream是通过一系列的RDDs来表示。

Spark Streaming，其实就是Spark提供的一种对大数据实时计算的框架，它的底层实现，是基于我们学过的SparkCore的，底层还是使用的是算子操作，也就是RDD。
DStream的中文叫“离散流”，然后，它分批次提交任务，但是，底层调用的是RDD的一些算子操作，通过调用算子操作，生成新的DStream

在这里插入图片描述
从上图可以看出，一个DStream对应的是时间维度上的多个RDD
但是，从单个时间维度来看，DStream和RDD是一对一的关系
五、Kafka的receive方式实现WC
这种方式使用的是receive来获取数据，Receive是使用Kafka高层的ConsumerAPI来实现的

	Spark-Streaming	Storm	Flink
处理效率	有延迟	高	高
吞吐量	高	低	高
处理数据	离线+实时	实时	离线+实时
操作算子	多	少	多
扩展性	强，如机器学习/图计算	弱	弱

七月流火_2567

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kafka小记(二)

一、Kafka分区和消费者的关系Kafka分区继承了一个接口，实现的是PartitionAssignor，这个接口下面有两个类，RoundRobinAssignor和RangeAssignor两种算法实现第一种轮循方法更优二、文件的存储机制存储机制图三、文件的传输机制传输机制图四、Spark Streaming简介DStream 是一个数据抽象在内部，一个DStream是...
复制链接

扫一扫