spark Streaming 容错
文章平均质量分 78
xnlej
这个作者很懒,什么都没留下…
展开
-
spark Streaming +kafka 数据容错之 hbase保存offset
spark streaming 用direct 的方式有优势,但是也容易丢失数据,只能保证at least one ,不能保证exactly one ,要想保证后者,只能手动保存kafka的offset数据。实现方面参考了一位大神的java代码,把它改写成scala 代码,并修复相关bug。在此基础上进一步实现了事务机制import java.net.URLDecoderimport原创 2018-01-11 18:12:22 · 2536 阅读 · 4 评论 -
spark streaming 广播变量的测试
最近写的一个流式的程序需要从redis 中获取变量信息,并广播,其中redis里面的信息是变动的,要求广播变量也要跟着改变,下面是测试代码:val dStream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topic...原创 2018-02-26 18:28:51 · 2755 阅读 · 0 评论 -
spark streaming 定时状态清除
最近遇到一个问题:用sparkstreaming的updateStateBykey算子保存当天状态,要求零点清除状态,为了解决这个问题想到了三个思路:1 零点重启程序,重启之后spark内存中的数据会被清除#!/bin/bashNum=`ps aux|grep SparkSubmit|grep xxxxxx|wc -l`if [ $Num -eq 1 ];then PID=`ps aux|g...原创 2018-03-16 10:41:36 · 3214 阅读 · 0 评论