Spark分布式计算框架之SparkStreaming
流式数据处理
yj2434
贪财好色,一身正气
展开
-
spark streaming + kafka 保证精确一次消费Topic
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本参考:https://www.jianshu.com/p/667e0f58b7b9原创 2021-01-07 22:12:18 · 958 阅读 · 0 评论 -
kafka_2.12-2.6.0介绍及安装教程
kafka_2.12-2.6.0介绍及安装教程1.Kafka 介绍1.1 kafka 是什么?使用场景?1.2 kafka 生产消息、存储消息、消费消息1.3 kafka 的特点2 kafka使用2.1 kafka 集群搭建1.Kafka 介绍1.1 kafka 是什么?使用场景?Kafka 是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔 7 天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。1.2 ka原创 2020-11-27 02:50:34 · 844 阅读 · 0 评论 -
Driver HA高可用 实现
Driver HA(Standalone 或者 Mesos)因为 SparkStreaming 是 7*24 小时运行,Driver 只是一个简单的进程,有可能挂掉,所以实现 Driver 的 HA 就有必要(如果使用的 Client 模式就无法实现 Driver HA ,这里针对的是 cluster 模式)。Yarn 平台 cluster 模式提交任务,AM(AplicationMaster)相当于 Driver,如果挂掉会自动启动AM。这里所说的 DriverHA 针对的是 Spark sta原创 2020-11-06 23:29:20 · 179 阅读 · 0 评论 -
SparkStreaming foreachRDD&transform&updateStateByKey&renduceByKeyAndWindow算子
1. foreachRDDoutput operation 算子,必须对抽取出来的 RDD 执行 action 类算子,代码才能执行。2. transformtransformation 类算子可以通过 transform 算子,对 Dstream 做 RDD 到 RDD 的任意操作。代码示例:import org.apache.spark.{SparkConf}import org.apache.spark.streaming.{Durations, StreamingConte原创 2020-11-06 19:33:08 · 183 阅读 · 1 评论 -
SparkStreaming介绍及mapreduce/fink框架对比
计算框架对比:1. SparkStreaming 简介SparkStreaming 是流式处理框架,是 Spark API 的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume,Twitter, ZeroMQ 或者 TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。2. SparkStreaming 与 Storm原创 2020-11-06 15:49:34 · 465 阅读 · 0 评论