spark
风儿吹花儿美
喜爱新技术,钻研新知识
展开
-
Spark性能优化指南——高级篇 (很详细)
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...转载 2020-04-22 18:24:49 · 318 阅读 · 0 评论 -
spark 批量读取HDFS(hive分区)parquet文件
情况说明:数据以parquet文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示:项目需求:在项目中想要读取某一个月的数据,肿么办?解决方法:spark中读取本地文件的方法如下:sparkSession.read.parquet("hdfs://path")1方法一:要读取多个文件,文件的路径中有一段公共路径...转载 2020-04-21 13:32:17 · 2185 阅读 · 0 评论