大数据.Spark
GraysonWP
路虽远,行则将至。天道酬勤,厚积薄发。
展开
-
Spark性能优化
1、程序编写准则准则一:从同一个数据源尽量只创建一个RDD,后续不同的业务逻辑可以复用该RDD,而不是基于该数据源重新创建一个新的RDD,这样Spark仅仅需要从HDFS上加载一次文件的内容就可以了。准则二:如果需要对某个RDD进行多次不同的Transformation和Action操作,可以考虑对该RDD进行持久化操作,以避免Action操作触发作业时多次重复计算该RDD。因为Sp...原创 2020-03-17 16:57:20 · 187 阅读 · 0 评论 -
Spark与MapReduce的区别
MapReduce:只提供Map和Reduce两种操作,抽象程度低,但是复杂的计算通常需要很多的操作,而且操作之间有很复杂的依赖关系。MapReduce的中间处理结果是放在HDFS文件系统中的,每次的落地和读取都消耗大量的时间和资源。不支持高级数据处理API、DAG计算、迭代计算等。Spark:通过引入弹性分布式数据集RDD以及RDD丰富的动作操作API,非常好地支持了DA...原创 2020-03-11 21:11:31 · 258 阅读 · 0 评论 -
手把手教你 Spark 性能调优
0、背景上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错:1、优化思路任务的运行时间跟什么有关?(1)数据源大小差异在有限的计算下,job的运行时长和数据量大小正相关,在本例中,数据量大小基本稳定,可以排除是日志量级波动导...原创 2019-01-23 14:19:04 · 283 阅读 · 0 评论