2018年09月_JasonLee实时计算

原创【Spark实战系列】sparkstreaming 实时写入 hive 后合并小文件问题

今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两...

2018-09-28 19:16:39 9378 6

原创 java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

最近在项目中遇到一个错,搞了很长时间才找到原因,记录一下,主要报错的代码如下:val rdd1 = r.filter(x=>x.value().contains("history_price")).map(y=>{ val json = JSONObject.fromObject(y.value()) json.remove("hi...

2018-09-22 12:43:03 5052

原创【Spark实战系列】sparkstreaming 中 UpdateStateByKey 和 mapWithState 算子的使用(spark的状态管理)

今天我们主要来说一下sparkstreaming带状态的操作,updateStateByKey和mapWithState这两个方法,先看一下官网的介绍:UpdateStateByKey操作该updateStateByKey操作允许您在使用新信息持续更新时保持任意状态。要使用它，您必须执行两个步骤。定义状态 - 状态可以是任意数据类型。定义状态更新功能 - 使用函数指定如...

2018-09-16 21:46:18 2365

原创 spark的广播变量和累加器的用法

今天我们主要来说一下spark的广播变量和累加器的具体使用,先来看一下官网的介绍:共享变量通常,当在远程集群节点上执行传递给Spark操作(例如map,reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作.这些变量将复制到每台计算机,并且远程计算机上的变量更新不会传播回驱动程序.支持跨任务的通用,读写共享变量效率低下.但是,Spark确实为两种常见的使用模式提供了两种有限类型...

2018-09-16 12:00:02 3501

原创【Flink实战系列】Flink+kafka+redis 实时计算 wordcount

上一篇中我们在本地跑了一个wordcount,今天我们写一个流式的计算wordcount,读取kafka的数据进行实时的计算,把结果写入redis中;pom文件如下:<dependency> <groupId>org.apache.flink</groupId> <artifactId>fli...

2018-09-08 23:23:02 9405

原创【Flink实战系列】Flink 最简单的 wordcount 示例

在上一篇中已经把flink的集群搭建好了,然后我们就先来写一个wordcount示例,直接看代码吧:pom文件如下:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifac...

2018-09-07 23:24:31 4060 6

原创【Flink实战系列】Flink 集群的搭建 Standalone 模式教程

今天我们来说一下flink,大家可能对flink还不是特别的熟悉,其实它是一个很早的项目,只是在2016年的时候才被大家所注意到,现在已经被很多公司所使用,作为一个后起之秀,或者说流计算的新贵,为什么它能得到大家的认可呢,Flink把批处理当作流处理中的一种特殊情况.在Flink中,所有的数据都看作流.这是一个很好的抽象.再加上它完善的checkpoint机制,使得它对状态的管理非常的细致.所以能...

2018-09-07 23:17:41 6638

原创【Spark实战系列】sparkstreaming 的 reduceByKeyAndWindow 窗口函数的用法详解

今天我们主要来说一下spark中reduceByKeyAndWindow窗口函数的使用方法;先看一下官网的图片吧:这个是sparkstreaming提供的窗口计算,允许你在一个滑动的窗口中进行计算,所有这些窗口操作都需要两个参数 -windowLength和slideInterval。(窗口长度-窗口的持续时间,滑动间隔- 执行窗口操作的间隔)比如说我们现在要每隔2秒,统计前3...

2018-09-02 15:55:19 8506 7

JasonLee实时计算