spark
Sigmund_Y
此人很懒,什么都没有写,是的!!!
展开
-
23Spark大合集
一、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?**Kafka 分布式的单位是 Partition。**如何保证消息有序,需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织,所以默认可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 ke...原创 2020-04-25 13:00:51 · 387 阅读 · 0 评论 -
14checkpoint在Spark中的应用及分析
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkpoint用来保存DStreamGraph以及相关配置信息,以便在Driver崩溃重启的时候能够接着之前进度继续进行处理...原创 2020-04-19 12:16:31 · 219 阅读 · 0 评论 -
13SparkStreaming动态感知kafka某个topic下partition
说明SparkStreaming动态感知kafka某个topic下partition,需要对kafka版本区分来看。kafka 0.8版本结论:kafka 0.8版本和Spark Streaming结合的DirectStream这种形式的API里面,是不支持kafka新增分区或者topic检测的。所以如果想读取新的分区中的数据,那么就得重新启动Spark Streaming应用。结合spa...原创 2020-04-19 11:29:14 · 673 阅读 · 0 评论 -
12Spark写数据到Kafka及使用kafka调优
之前讲述了spark如何从kafka中消费数据,这次来将一下spark如何将数据写入到kafka中。一、spark写消息到kafka中直接在spark或者sparkstreaming每一批次处理结束后,在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。**不推荐:**因为每一个partition都要与kafka建立一次连接。代码如下:...原创 2020-04-19 10:57:36 · 1251 阅读 · 0 评论 -
11SparkStreaming消费kafka以及offset提交
spark streaming流式处理kafka中的数据,第一步是先把数据接收过来,转换为spark streaming中的数据结构Dstream。接收数据的方式有两种:1.利用Receiver接收数据,2.直接从kafka读取数据。一、Receiver方式消费kafka这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接口。对于所有的接收器...原创 2020-04-19 00:49:35 · 961 阅读 · 0 评论 -
10SparkStreaming中的反压机制
反压(Back Pressure)机制主要用来解决流处理系统中,处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。一、SparkStreaming体系结构Spark Streaming 1.5 以前的体系结构数据是源源不断的通过 receiver 接收,当数据被接收后,其将这些数据存储在 Block Manager 中;为了不丢失数据,其还将数据备份到其他的 Block ...原创 2020-04-18 22:45:46 · 461 阅读 · 0 评论