day47：DT大数据梦工厂性能优化day47

最新推荐文章于 2016-11-10 21:11:28 发布

黄色沙琪玛

最新推荐文章于 2016-11-10 21:11:28 发布

阅读量331

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/zhanglin200508/article/details/50749456

版权

spark 专栏收录该内容

47 篇文章 0 订阅

订阅专栏

以下内容整理来源于DT大数据梦工厂，微博地址：http://weibo.com/ilovepains

优化数据结构：减少内存
1、java 对象是16个字节（例如指向对象的指针等元数据信息），如果对象中只有一个int
的property，则此时会占据20个字节，也就是说对象的原数据占用了大部分的空间，所有
在封装数据的时候尽量不要使用对象！例如说明使用JSON格式来封装数据
2、Java中的基本数据类型会自动的封箱操作，例如int会自动变成Integer，这会额外增加对象头的
空间占用
3、java 的String 在实际占用内存方法要额外使用40个字节（String内部使用char[]来保存字符序列）
另外需要注意的是String中的字符是2个字节（UTF-16），如果内部有5个字节的话，实际上会占用50
个字节。
4、java中的集合List， HashMap 等其内部一般使用链表来实现，具体每个数据使用Entry等这些也
非常消耗内存
5、优先使用原生数组，尽可能不要直接使用ArrayList， HashMap， LinkedList 等数据结构
例如说List<Integer> list = new ArrayList<Integer> 需要考虑替换为int[] array = new int[]
修改数据不建议使用String，使用StringBuffer，封装和查询可以使用String
6、优先使用String(推荐使用JSON)，而不是采用HashMap，List等来封装数据例如
Map<Integer, Worker> work = new HashMap<Integer, Worker>(),建议使用JSON字符串
或者自己构建的String字符串对象，例如"id:name,salary || id:name, slary||id:name,slary";

二：Spark 内存消耗诊断
1、JVM自带众多内存消耗诊断的工具例如：JMap， JSonsole第三方
IBM JVM profile Tool 等
2、开发，测试，生产环境下用的最对的是日志！是Driver产生的日志
开发的时候最好是client模式
问题1：判断RDD数据在不在内存怎么办：最简单也是最有效调用RDD.cache
当进行cache 操作的使用Driver上的BlockManagerMaster会记录该信息并写进日志中

三：persist和checkpoint
1、当返回使用某个（些）RDD 的时候建议使用persist来对数据进行缓存
（MEMORY_AND_DISK）
2、如果某个步骤的RDD计算特别耗时或者经历了很多步骤的计算，如果数据丢失
则重新计算的代价特别大，此时考虑使用checkpoint。因为checkpoint 是吧数据
写入HDFS，天然具有高可靠性。