大数据
文章平均质量分 79
Kungs8
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南
目录一、基础篇1. 开发调优1.1 调优概述1.2 避免创建重复的RDD1.3 尽可能复用同一个RDD1.4 对多次使用的RDD进行持久化1.5 尽量避免使用shuffle类算子1.6 使用map-side预聚合的shuffle操作1.7 使用高性能的算子1.8 广播大变量1.9 使用kryo优化序列化性能1.10 优化数据结构2. 资源调优2.1 调优概述2.2 Spark作业基本运行原理2.3 资源参数调优二、高级篇1. 数据倾斜1.1 调优概述1.2 数据倾斜发生时的现象1.3 数据倾斜发生的原理1.原创 2021-04-08 15:23:55 · 256 阅读 · 0 评论 -
pyspark写数据到 hbase2.* 的神坑解析
pyspark写数据到 hbase2.* 的神坑解析1. 问题阐述找不到方法: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Putjava.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Put; at org.apach原创 2021-04-07 18:04:28 · 748 阅读 · 3 评论