2018年08月_JasonLee实时计算

原创【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch

简单的写了一个sparkstreaming入es的demo,直接看代码吧:package sparkimport kafka.{PropertiesScalaUtils, RedisKeysListUtils}import kafka.streamingRedisHive.{dbIndex, kafkaStreams}import org.apache.kafka.common.se...

2018-08-30 10:07:39 5966 9

原创 hive中udf的开发

首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数,首先UDF必须用java语言编写，Hive本身就是用java写的,sparksql中UDF的使用移...

2018-08-25 18:33:23 1202

原创【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析

今天主要来说一下reparation和coalesce的用法和区别:先看一下下面的代码吧:package testimport org.apache.spark.{SparkConf, SparkContext}object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkCo...

2018-08-25 17:44:38 17775 3

原创【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通.添加依赖: <dependency> <groupId>org.apache.spark</groupId> ...

2018-08-19 22:25:04 2765 9

原创【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)...

2018-08-15 18:38:43 9614 22

原创【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?

在实际的项目中,有时候我们需要把一些数据实时的写回到kafka中去,一般的话我们是这样写的,如下:kafkaStreams.foreachRDD(rdd => { if (!rdd.isEmpty()) { rdd.foreachPartition(pr => { val properties = new Properties()...

2018-08-05 17:17:52 5627 4

JasonLee实时计算

原创【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch

原创 hive中udf的开发

原创【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析

原创【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

原创【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义

原创【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?

空空如也

空空如也

原创 【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch

原创 hive中udf的开发

原创 【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析

原创 【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

原创 【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义

原创 【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?

空空如也

空空如也

原创【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch

原创【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析

原创【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

原创【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义

原创【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?