
spark
引领时尚S
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark源码一站式编译
spark源码一站式编译 前段时间,想熟悉下spark的源码,遇到了一些问题,在此记录,期待可以帮到更多的小伙伴!后续会陆续将阅读的spark源码笔记公布出来。。 1、具体步骤 # 从spark github上clone下相应的源码 git clone https://github.com/apache/spark.git # 设置maven,防止 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" # 编译 mvn原创 2020-07-09 16:55:06 · 458 阅读 · 0 评论 -
hive_sql简单优化方案
这里的优化方面只在sql【spark】层面,对于参数的调整,这里不做介绍。 1、表设计层面优化 ① 尽量使用分区表操作。② 利用桶表优化③ 选择合适的文件存储格式 2、语法和参数层面 ① 优先过滤数据 尽量减少每个阶段的数据量,对于分区表能用上分区字段的尽量使用,同时只选择后面需要使用到的列,最大限度的减少参与join的数据量。除了需要必须表里所有的字段,否则禁止使用select * ② ...原创 2020-02-28 18:30:34 · 384 阅读 · 0 评论 -
spark技术之常用必备算子
1、常用算子 ① aggregate算子 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD /** * 测试aggregate算子 * action操作, * 第一个参数是初始值, * 第二个参数:是2个函数[每个函数都是2个参数 * (第一个参数:先对个个分区进...原创 2019-08-17 11:11:27 · 459 阅读 · 0 评论