性能调优
XiaodunLP
祝福自己.^_^
展开
-
Spark性能调优----解决数据倾斜(对以前的记录的补充总结吧)
数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hi...原创 2019-03-26 00:35:14 · 359 阅读 · 0 评论 -
Spark2.1 内存管理详解
本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Ex...原创 2019-04-05 20:12:07 · 1318 阅读 · 1 评论 -
Spark之坑坑坑----troubleshooting
Spark之troubleshooting 1.yarn-client模式引起网卡流量激增问题? 一个Driver和Executor中的task频繁进行通信,通信消息特别多,通信的频率特别高,运行完一个stage,接着运行下一个stage,又是频繁的通信。 解决:yarn-cluster ...原创 2019-03-26 00:45:02 · 426 阅读 · 0 评论 -
Spark性能调优----Shuffle调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 • shuffle过程中常出现的问题 常见问题一:reduce oom? 问题...原创 2019-03-26 00:38:04 · 350 阅读 · 0 评论 -
Spark数据本地化----如何达到性能调优的目的
Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK_LOC...原创 2019-03-26 00:13:17 · 328 阅读 · 0 评论 -
Spark性能调优之资源分配
性能优化王道就是给更多资源! 机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考...原创 2019-03-25 20:56:53 · 613 阅读 · 0 评论 -
Spark性能调优----JVM调优
Spark性能调优之JVM调优 通过一张图让你明白以下四个问题 1.JVM GC机制,堆内存的组成 2.Spark的调优为什么会和JVM的调优会有关联?--因为...原创 2019-03-26 00:17:16 · 490 阅读 · 0 评论 -
Spark性能调优----合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置...原创 2019-03-26 00:27:10 · 1860 阅读 · 0 评论 -
Spark性能调优----代码方面的优化
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(cache,persist,checkpoint) 如何选择一种最合适的持久化策略? 默认MEMORY_O...原创 2019-03-26 00:29:09 · 417 阅读 · 0 评论 -
Hive----Hive的优化常用小结
基础回顾 H i v e 数据管理 hive的表本质就是Hadoop的目录/文件 hive默认表存放路径一般都是在你工作目录的hive目录里面,按表名做文件夹分开,如果你 有分区表的话,分区值是子文件夹,可以直接在其它的M/R job里直接应用这部分数据 Name HDFS Directory Table mobile_user...原创 2019-04-06 15:13:06 · 550 阅读 · 0 评论