Spark内存调优

最新推荐文章于 2024-02-24 16:47:58 发布

.Mr Zhang

最新推荐文章于 2024-02-24 16:47:58 发布

阅读量565

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/zhangtikang134/article/details/104037593

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

由于Spark是基于内存计算的，所以集群中资源（比如CPU、带宽、内存）都会成为瓶颈。当集群内存够用时，网络带宽往往成为瓶颈。内存优化主要从两个方面考虑：一个是数据序列化（提升网络性能，减少内存使用等），一个是内存优化

数据序列化

序列化在分布式应用程序中占用重要地位。Spark提供两种序列化库：

Java serialization 拿来就用，但是太慢了。
Kryo serialization 比Java serialization更快，压缩效果更好。缺点是不支持所有Serializable 类型，需要另外把自定义的序列化类进行注册。

启用Kryo 时，需在SparkConf 中设置参数

conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

设置的序列化器不仅仅应用于worker之间的数据shuffle，也用于序列化RDDs到磁盘。
官方推荐在网络敏感的应用中使用Kryo

从Spark2.0.0开始，Kryo序列化器在shuffle中已经对基础数据类型、基础数据类型的数组类型、字符串做了支持。只不过你自己定义的Kryo类需要使用registerKryoClasses 来注册：

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Kryo document链接
如果你的对象很大，需要设置一下spark.kryoserializer.buffer参数，使缓存能够装下你的对象。当然也可以不注册定义类，Kryo照样能用，但是它必须为每一个对象记住全类名，这是很浪费的。

内存优化

众所周知，java对象一般大小一般是原始数据大小的2-5倍，因为：

每一个java对象都有一个16字节的对象头（包含很多信息，比如指向class对象的指针）
java字符串要比原始数据多出约40字节，用于被保存其他数据，比如长度。而且每个char使用2字节来保存，因为内部使用UTF-16来编码。这样10个char组成的字符串要占60字节的空间。
其他常用集合类，比如HashMap、LinkedList使用了链表结构，每一个wrapper对象对应每一个entry，比如Map.Entry，这些对象不仅含有对象头，还包含8个字节的指针指向连表的下一个对象。
基础类型的集合类中的基础类型数据通常是包装类

Spark的内存主要使用在两个地方：
计算内存：用于shuffle、连接、排序、聚合等中间过程
存储内存：用于cache、集群中分发数据比如广播变量

计算内存与存储内存共享一个区域（M），如果计算内存不用，则存储内存会贪婪地耗尽所有内存，反之亦然。计算内存在必要的时候踢出一些存储内存，知道存储内存降低到一个阈值（R），也就是说存储内存至少有R的内存可以用，而计算内存无法使用。如果不用cache，应用程序将使用所有内存用于计算，避免不必要的磁盘溢写。这里有几个相关的配置，大多数情况下保持默认是比较不错的选择：

spark.memory.fraction 代表M占整个堆空间的比例，默认0.6。剩下的40%用于用户数据结构、spark内部元数据、防范突如其来的大数据集造成OOM。
spark.memory.storageFraction 代表R占M的比例，默认0.5。

spark.memory.fraction 应设置与JVM 老年代和永久代占用空间适配。

怎么确定一个对象的大小呢？
确定一个RDD的大小时，可以将它cache一下，然后再UI上查看Storege页面。
确定一个普通对象大小事，可以使用Spark提供的伴生对象SizeEstimator的estimate 方法，可用来测量广播变量的大小。
怎么优化数据结构呢？
首先避免使用java特性过了头，比如基于指针的数据结构、包装类等。
1.设计数据结构，优先使用数组、基础类型，而不是java或scala集合类。官网推荐fastutil库来提供基础类型的集合类，并且它与java标准集合类兼容。
2.避免使用很多小对象、指针引用的嵌套结构
3.尽量使用数值ID或枚举来代替字符串型key
4.如果机器内存小于32GB，设置JVM参数-XX:+UseCompressedOops 开启压缩指针（指针从8字节压缩到4字节）。通常在spark-env.sh中添加。
如果以上优化还不能高效利用内存，可考虑在内存中序列化对象
比如RDD的持久化中选择序列化的级别，比如MEMORY_ONLY_SER，当然也相应降低了一些访问速度。推荐使用Kryo。

Java垃圾回收优化

垃圾回收的代价跟java对象的数量成正比。使用的对象数目越少，代价越小。比如前面提到的，将数据对象序列化以后成为一个字节数组以后，有且仅有一个对象。

GC优化的第一步就是收集gc频率以及gc耗时数据。可以通过给java虚拟机参数添加-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps。详情可参考配置。这样就可以在worker上看到job的gc情况。而调优的对象一般是Executor，不是Driver。

GC优化的目标就是保证长期存活RDDs被存储在老年代，而新生代有足够的的空间来存放短命对象。这样就可以避免收集临时对象时出现full GC。我们可以这么做：
1.通过收集的GC数据，检查是否有大量GC出现。如果一些Task完成前，出现很多次full GC，说明堆内存空间不足。
2.如果有很多minor GC 而没有很多major GC，分配多一些内存给Eden将有帮助，比如配置成原来的4 /3倍，同样也可以成比例的给survivor。
3.如果老年代快满了，那么可以调低spark.memory.fraction参数，最好再减少cache的对象数目，或者减少年轻代内存也是可选项。如果还不行，可以调整虚拟机NewRatio，大多数虚拟机默认为2（老年代占2/3的堆空间），使其大到超过spark.memory.fraction。
4.试用G1（-XX:+UseG1GC），在某些场景下可以提升性能。
5.如果从HDFS上读取数据，可根据HDFS的block大小计算内存用量。比如压缩的block经过解压缩以后，大小是原来的2 ~ 3倍，并且有3 ~ 4个Task需要运行，那么Eden的大小应该为4 * 3 * 128MB

.Mr Zhang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark内存调优

由于Spark是基于内存计算的，所以集群中资源（比如CPU、带宽、内存）都会成为瓶颈。当集群内存够用时，网络带宽往往成为瓶颈。所有优化主要从两个方面进行：一个是数据序列化（提升网络性能，减少内存使用等），一个是内存优化数据序列化序列化在分布式应用程序中占用重要地位。Spark提供两种序列化库：Java serialization 拿来就用，但是太慢了。Kryo serialization...
复制链接

扫一扫