![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
边跳舞边打代码的仔
有所为、有所爱、有所期待。
展开
-
Spark读写操作之mongoDB
Spark读写操作在官方文档上的实例已经说明的很清楚,但是没有关于mongo的读写操作,看了一些资料发现mongo已经做了兼容spark的读写工具包,这里我简单记录一下入读mongo的代码如下:object ReadMongo { val resultalltotal = "bigdata.resutlalltotal" def main(args : Array[String]):...原创 2019-11-22 17:14:14 · 730 阅读 · 0 评论 -
Spark Streaming单词统计,并装换成Spark Sql
1. 先启动nc,监听9999端口这里我是使用nc在windows系统上开启的服务端,使用命令:nc -lp 99992. 编写Spark Streaming代码object DF_SQL_InStreaming { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("lo...原创 2019-11-21 11:39:20 · 130 阅读 · 0 评论 -
Spark Streaming :输出操作/持久化操作
Output Operations on DStreamsDstream允许将数据输出到外部系统的文件系统中(hdfs:// file:/// 等),只需要对DStream调用如下方法:Output OperationMeaningprint()在运行streaming应用的spark节点上,打印该DStream上每个数据块的前10个元素saveAsTextFi...原创 2019-08-23 15:37:12 · 412 阅读 · 0 评论 -
Spark解决数据倾斜的八种方法
方案一:使用Hive ETL预处理场景:若Hive表中数据不均匀,且业务中会频繁用Spark对Hive表分析;思路:用Hive对数据预处理(对key聚合等操作),原本是Spark对Hive的原表操作,现在就是对Hive预处理后的表操作;原理:从根源解决了数据倾斜,规避了了Spark进行Shuffle类算子操作。但Hive ETL中进行聚合等操作会发生数据倾斜,只是把慢转移给了Hive ETL...转载 2019-09-06 16:39:50 · 395 阅读 · 0 评论 -
Spark Streaming 消费kafka 将offset存储到redis中做故障恢复
文章转自:http://lxw1234.com/archives/2018/02/901.htm故障恢复如果Spark Streaming程序因为停电、网络等意外情况终止而需要恢复,则直接重启即可;如果因为其他原因需要重新计算某一时间段的消息,可以先删除Redis中对应时间段内的Key,然后从原始日志中截取该时间段内的消息,当做新消息添加至Kafka,由Spark Streaming程序重...原创 2019-09-10 10:53:59 · 574 阅读 · 0 评论