自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark数据倾斜

数据倾斜的表现:1、spark大部分task都执行迅速,只有有限的几个task执行的非常慢。2、spark作业大部分task都执行迅速,有的task在运行过程中突然报OOM。定位数据倾斜的问题:1、查阅代码中的shuffle算子,如reduceBykey、countByKey、join等算子,根据代码逻辑判断此处是否出现数据倾斜。2、查看spark作业的log日志,log文件对于错误的记录会精确到某一行,可以根据异常定位到代码位置来明确错误发生在第几个stage,对于的shuffle算子是哪一个。

2020-12-17 11:21:21 99

原创 Spark性能调优

1.1 常规性能调优1.1.1 最优资源配置性能调优的第一步应该是为任务分配更多的资源,在一定范围内,增加资源与提升性能成正比。spark提交任务的脚本示例./spark-submit \--master yarn-cluster--class com.dtyunxi.spark.WordCount \--num-executors 80--executor-cores 4--executor-memory 8g--driver-memory 8g--queue root.defau

2020-12-16 21:27:55 139

原创 scala数据类型

scala数据类型整数类型Byte(1)自动提升原则:有多种类型的数据混合运算时,系统首先自动将所有数据转换成精度大的那种数据类型,然后再进行计算。(2)把精度大的数值类型赋值给精度小的数值类型时,就会报错,反之就会进行自动类型转换。(3)(byte,short)和char之间不会相互自动转换。(4)byte,short,char他们三者可以计算,在计算时首先转换为int类型。ShortIntScala程序中变量常声明为Int型,除非不足以表示大数,才使用LongLongScala的整

2020-12-15 18:42:32 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除