自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark数据倾斜

数据倾斜的表现: 1、spark大部分task都执行迅速,只有有限的几个task执行的非常慢。 2、spark作业大部分task都执行迅速,有的task在运行过程中突然报OOM。 定位数据倾斜的问题: 1、查阅代码中的shuffle算子,如reduceBykey、countByKey、join等算子,根据代码逻辑判断此处是否出现数据倾斜。 2、查看spark作业的log日志,log文件对于错误的记录会精确到某一行,可以根据异常定位到代码位置来明确错误发生在第几个stage,对于的shuffle算子是哪一个。

2020-12-17 11:21:21 94

原创 Spark性能调优

1.1 常规性能调优 1.1.1 最优资源配置 性能调优的第一步应该是为任务分配更多的资源,在一定范围内,增加资源与提升性能成正比。 spark提交任务的脚本示例 ./spark-submit \ --master yarn-cluster --class com.dtyunxi.spark.WordCount \ --num-executors 80 --executor-cores 4 --executor-memory 8g --driver-memory 8g --queue root.defau

2020-12-16 21:27:55 125

原创 scala数据类型

scala数据类型 整数类型 Byte (1)自动提升原则:有多种类型的数据混合运算时,系统首先自动将所有数据转换成精度大的那种数据类型,然后再进行计算。 (2)把精度大的数值类型赋值给精度小的数值类型时,就会报错,反之就会进行自动类型转换。 (3)(byte,short)和char之间不会相互自动转换。 (4)byte,short,char他们三者可以计算,在计算时首先转换为int类型。 Short Int Scala程序中变量常声明为Int型,除非不足以表示大数,才使用Long Long Scala的整

2020-12-15 18:42:32 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除