![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
木_头人
这个作者很懒,什么都没留下…
展开
-
Spark内存管理
1.Spark 内存介绍在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD...原创 2019-12-31 09:36:31 · 227 阅读 · 0 评论 -
Spark shuffle及宽窄依赖
Spark shuffle 发展ShuffleManager发展概述 负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager,也即shuffle管理器。 在Spark1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文...原创 2019-12-31 09:08:40 · 590 阅读 · 0 评论 -
Spark 运行模式
1.Spark运行模式分类Spark常用运行模式 local yarn-client yarn-cluster standalone-client standalone-cluster 本地模式 Spark单机运行,一般用于开发测试。 Standalone模式 构建一个由Master+Slave构成的Spark集群,Spa...原创 2019-12-30 11:16:30 · 353 阅读 · 0 评论 -
Spark性能优化指南——高级篇
转载 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行...转载 2019-10-16 14:46:26 · 232 阅读 · 0 评论 -
Spark源码编译安装
1.安装环境软件准备spark-2.4.4.tgz源码jdk-8u144-linux-x64.tar.gz JDK1.8以上 apache-maven-3.3.9-bin.tar.gzscala-2.11.8.tgzhadoop-2.6.0-cdh5.15.1.tar.gz1.1 安装jdktar -xf jdk-8u144-linux-x64.tar.gz -C /us...原创 2019-09-24 21:10:22 · 200 阅读 · 0 评论 -
Spark RDD
RDD介绍RDD全称resilient distributed dataset(弹性分布式数据集)。他是一个弹性分布式数据集,是spark里面抽象的概念。代表的是一个不可变的,集合里面的元素可以分区的支持并行化的操作。RDD五大特性及对应的方法1)A list of partitions 一系列的partition protected def getPartitions: Arr...原创 2019-09-25 10:36:10 · 154 阅读 · 0 评论 -
Spark RDD算子
1.TransformationsmapReturn a new RDD by applying a function to all elements of this RDD.scala> val rdd = sc.parallelize(List(1,2,3,4,5))rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollecti...原创 2019-09-25 14:22:34 · 177 阅读 · 0 评论 -
IDEA运行spark报java.lang.reflect.InvocationTargetException
在IDEA运行Spark碰到报错19/9/25 17:15:44 ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot be instantiated19/9/25 17:15:44 ERROR SparkContext: Error initializing SparkConte...原创 2019-09-27 15:20:20 · 2230 阅读 · 1 评论 -
spark history-server
1.前提每一个SparkContext都会启动一个网页UI,当我们完成spark作业或者任务异常终止之后,这个网页的UI就不可用了,如何在任务结束后仍然能看到我们的任务等相关信息,这时候就需要history-server。2.配置编辑spark-defaults.conf配置文件spark.eventLog.enabled truespark.eventLog.dir...原创 2019-10-09 15:40:58 · 371 阅读 · 0 评论