自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 spark的jvm调优

1、实际应用 val sc = new SparkContext(new SparkConf(). setAppName("product3_source"). set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"). set("spark.memory.useLegacyMode", "true"...

2020-01-21 11:17:34 166

原创 spark数据倾斜解决方案

1、适当提高reducer端的并行度 适用场景: 如果某个 Task 有 100个 Key ·且数据量特别大,就极有可能导致 OOM 或者任务运行特别慢,此时如果把并行度变大,则可以分解 该 Task 的数据量,例如,把原本 Task 的 100 个 Key 分解给 10 个 Task,这就可以减少每个 Task 的数据量,从而有可能解决 OOM 和任务运行慢的问题 。 2、使用随机...

2020-01-20 16:34:46 146

原创 spark知识点

1、spark为什么比hadoop计算快? (1)、落地方式不同 mapreduce任务每一次处理完成之后所产生的结果数据只能够保存在磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就只能够进行大量的io操作获取得到,性能就比较低。 spark任务每一次处理的完成之后所产生的结果数据可以保存在内存中,后续有其他的job需要依赖于前面job的输出结果,这里就可以直接从内存中获取得到...

2020-01-16 17:42:50 193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除