![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
XLMN
这个作者很懒,什么都没留下…
展开
-
用redis管理direct模式下的offset
/** * 封装redis的操作工具类 */object _03StreamingWithDirectRedisOps { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("StreamingWithDirectRedis") ...原创 2019-07-31 21:49:16 · 955 阅读 · 0 评论 -
spark入门案例和基于DataFrame创建SparkSql
/** * sparkSql入门案例 * SparkSession的构建依赖SparkConf,我们可以基于SparkSession来获得SparkContext,或者SQLContext或者HiveContext。 */object SparkSql01 { def main(args: Array[String]): Unit = { //设置日志级别 Lo...原创 2019-08-04 20:03:38 · 193 阅读 · 0 评论 -
spark性能调优
spark开发调优1、避免创建重复的RDD对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。2、尽可能的复用同一个RDD对于多个RDD的数据有重叠或者包含的情况,我们应该尽量复用一个RDD,这样可以尽可能地减少RDD的数量,从而尽可能减少算子执行的次数。3、对于多次使用的RDD进行持久化对多次使用的RDD进行持久化。此时Spark就会根据你的持久化策略,将RDD...原创 2019-07-28 14:36:37 · 242 阅读 · 0 评论 -
saprk资源调优
spark资源调优3. 资源调优 理解资源调优,说白了就是为spark程序提供合理的内存资源、cpu资源等。所以需要知道有哪些参数可以设置这些资源。3.1. spark-submit脚本spark-submit脚本参数详解:–conf PROP=VALUE手动给sparkConf指定相关配置,比如–conf spark.serializer=org.apache.spark....原创 2019-07-28 14:37:06 · 110 阅读 · 0 评论 -
spark的数据倾斜和优化
数据倾斜4.1. 什么是数据倾斜,现象是什么? 所谓数据倾斜(data skew),其实说白了,由于数据分布不均匀造成计算时间差异很大,产生了一些列异常现象。 常见的现象有两种:个别task作业运行缓慢 大多数的task运行都很快速,但是极个别的task运行非常缓慢,甚至是正常task运行时间好多倍。莫名其妙的OOM异常这是一种相对比较少见的现象,正常运行的task...原创 2019-07-20 22:24:53 · 198 阅读 · 0 评论 -
spark的suffer过程
5. spark shuffle what is shuffle? spark/mr作业在执行过程中,数据重排的过程,主要发生在mr的话,就在map输出和reduce输入的过程,如果在spark就发生在窄依赖阶段和宽依赖阶段。 shuffle操作是分布式计算不可避免的一个过程,同事也是分布式计算最消耗性能的一个部分。5.1. spark shuffle执行过程 在spark中由...原创 2019-07-20 22:22:40 · 653 阅读 · 0 评论 -
spark之Action操作算子
package com.meng.nan.day717import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDD//常见的行动算子// foreach(循环遍历),collect(转换为Array数组),r...原创 2019-07-20 20:40:20 · 310 阅读 · 0 评论 -
sparka排序算法
package com.meng.nan.day720import java.util.Comparatorimport java.util.function.ToIntFunctionimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{Spark...原创 2019-07-20 20:39:08 · 207 阅读 · 0 评论 -
spark之广播变量
package com.meng.nan.day720import org.apache.log4j.{Level, Logger}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject...原创 2019-07-20 20:37:57 · 133 阅读 · 0 评论 -
spark二次排序
package com.meng.nan.day720import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.catalyst.expressions....原创 2019-07-20 20:36:16 · 131 阅读 · 0 评论 -
spark分组求topN
在mr、hive中投处理过的操作,分组的topn 比如要从10个文件,每个文件都有100w个数字,找出最大的10数字。 比如有很多部分,比如研发部、设计部、市场部、行政部等等,要求找出每个部分年龄最小的三个小姐姐。 这就是分组TopN的问题。object _03SparkGroupTopNOps {def main(args: Array[String]): Uni...原创 2019-07-20 20:34:38 · 876 阅读 · 0 评论 -
spark自定义累加器
package com.meng.nan.day720import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.util.AccumulatorV2import scala.collection.mutableobject ...原创 2019-07-20 20:32:51 · 118 阅读 · 0 评论 -
spark常见转换算子(transformation)的操作
package com.meng.nan.day717import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport scala.collection.mutable.ArrayBuffer//常见...原创 2019-07-20 09:17:57 · 563 阅读 · 0 评论 -
spark的groupByKey、reduceByKey的算子简单使用
package com.meng.nan.day717import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, Partitioner, SparkConf, SparkContext}import scala.collection....原创 2019-07-20 09:15:57 · 317 阅读 · 0 评论 -
spark入门基础
spark学习spark是一款全栈的计算引擎,基于RDD(弹性式分布式数据集)主要基于内存计算RDD的解释:弹性:数据主要基于内存存储,如果内存不够,磁盘顶上。数据集:就是一个普通的scala的不可变的集合(Array, Map,Set)分布式:这个集合是分布式的,这个集合RDD被拆分成多个Partition(分区)存储在不同的机器里面。RDD不存储数据,数据存储在各个partition...原创 2019-07-16 22:56:08 · 113 阅读 · 0 评论 -
sparkStreaming与kafka的整合
sparkStreaming整合kafka基于Direct方式整合kafkapackage spark.com.test.day04import kafka.serializer.StringDecoderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache....原创 2019-07-08 08:49:00 · 222 阅读 · 0 评论 -
SparkStreaming的幂等操作
幂等操作 所谓的幂等操作,简单点,就是说,无论你执行多少次的操作,对于用户而言都是一次操作/** */object _04KafkaOffsetIdempotent { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("test").setMaster("...原创 2019-08-01 10:06:48 · 984 阅读 · 0 评论