自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JasonLee实时计算

Stay hungry Stay foolish

  • 博客(6)
  • 收藏
  • 关注

原创 【Spark实战系列】sparkstreaming 实时写数据到 elasticsearch

简单的写了一个sparkstreaming入es的demo,直接看代码吧:package sparkimport kafka.{PropertiesScalaUtils, RedisKeysListUtils}import kafka.streamingRedisHive.{dbIndex, kafkaStreams}import org.apache.kafka.common.se...

2018-08-30 10:07:39 5966 9

原创 hive中udf的开发

首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数,首先UDF必须用java语言编写,Hive本身就是用java写的,sparksql中UDF的使用移...

2018-08-25 18:33:23 1202

原创 【Spark实战系列】spark 中 reparation 和 coalesce 的用法和区别以及源码分析

今天主要来说一下reparation和coalesce的用法和区别:先看一下下面的代码吧:package testimport org.apache.spark.{SparkConf, SparkContext}object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkCo...

2018-08-25 17:44:38 17775 3

原创 【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通.添加依赖: <dependency> <groupId>org.apache.spark</groupId> ...

2018-08-19 22:25:04 2765 9

原创 【Spark实战系列】sparkstreaming 同时消费多个 topic 的数据实现 exactly-once 语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)...

2018-08-15 18:38:43 9614 22

原创 【Spark实战系列】sparkstreaming 写入 kafka 性能上不去该如何优化?

在实际的项目中,有时候我们需要把一些数据实时的写回到kafka中去,一般的话我们是这样写的,如下:kafkaStreams.foreachRDD(rdd => { if (!rdd.isEmpty()) { rdd.foreachPartition(pr => { val properties = new Properties()...

2018-08-05 17:17:52 5627 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除