- 博客(6)
- 收藏
- 关注
原创 【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch
简单的写了一个sparkstreaming入es的demo,直接看代码吧:package sparkimport kafka.{PropertiesScalaUtils, RedisKeysListUtils}import kafka.streamingRedisHive.{dbIndex, kafkaStreams}import org.apache.kafka.common.se...
2018-08-30 10:07:39 5966 9
原创 hive中udf的开发
首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数,首先UDF必须用java语言编写,Hive本身就是用java写的,sparksql中UDF的使用移...
2018-08-25 18:33:23 1202
原创 【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析
今天主要来说一下reparation和coalesce的用法和区别:先看一下下面的代码吧:package testimport org.apache.spark.{SparkConf, SparkContext}object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkCo...
2018-08-25 17:44:38 17775 3
原创 【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount
最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通.添加依赖: <dependency> <groupId>org.apache.spark</groupId> ...
2018-08-19 22:25:04 2765 9
原创 【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义
最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)...
2018-08-15 18:38:43 9614 22
原创 【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?
在实际的项目中,有时候我们需要把一些数据实时的写回到kafka中去,一般的话我们是这样写的,如下:kafkaStreams.foreachRDD(rdd => { if (!rdd.isEmpty()) { rdd.foreachPartition(pr => { val properties = new Properties()...
2018-08-05 17:17:52 5627 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人