自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 问答 (1)
  • 收藏
  • 关注

原创 SparkSql数组Array常用函数

说明:将一个数组转换成一个字符串,元素之间用 delimiter 分隔,如果有 null 值则用 nullReplacement 替代,如果没有设置nullReplacement过滤掉说有null值。说明:将一个数组拆分成多行,每行包含一个数组元素。说明:对一个数组进行排序,array_sort升序排序,sort_array可指定升降序,true为升序,false为降序。说明:返回两个数组的交集,即包含在两个数组中的所有元素。说明:将两个数组合并成一个新的数组,不包含重复元素。说明:返回一个数组的长度。

2024-05-16 22:05:01 558

原创 源码详解Spark的repartition与partitionBy

在Spark中可以使用repartition与partitionBy调整RDD的分区数,其实就是调整RDD的并行度。那么这两个算子调节RDD分区数有什么区别呢?1、使用对象不同repartition:可以对普通RDD和pariRDD进行重分区partitionBy:只能对pariRDD进行重分区2、实现方式不同repartition:为RDD的每个记录生成一个随机数,对这个随机...

2019-12-30 13:43:54 1255

原创 spark之combineByKey(Java)

spark根据key做聚合的aggregateByKey,groupByKey,reduceByKey等常用算子其底层本质都是调用combineByKey实现的,即都是combineByKey的一种特殊情况,下面介绍下combineByKey算子一、函数定义def combineByKey[C]( createCombiner: V => C, m...

2019-12-14 19:43:38 316

原创 spark获取输入文件路径(Java版)

和写MapReduce程序一样,在写spark时经常需要处理多份文件且每份文件的数据格式和要处理的方式不尽相同,这个时候就需要一份一份数据处理,然后在进行一些聚合操作。这样做不仅代码写的比较臃肿可读性差,甚至有时会忘记聚合某些文件。这里我们就需要根据不同的文件名进行相应的处理。spark默认的读文件方法textFile和读parquent文件方法parquetFile都不包含文件分片信息,只包含文...

2019-12-10 21:19:14 831

原创 spark调优总结

一、代码编程调优1、序列化算法选择spark提供了两种序列化的算法:1) java序列化方式(org.apache.spark.serializer.JavaSerializer)2) kryo序列化方式(org.apache.spark.serializer.KryoSerializer)可以通过spark.serializer配置项进行设置,默认使用是java序列化方式...

2019-11-12 19:46:35 185

原创 hive/spark之调用外部程序

在我们使用spark过程中经常会遇到需要调用Python、shell、C++、PHP等语言编写的脚本程序。这个时候比较笨重的做法就是将这些需要调用的其他语言编写的程序翻译成spark支持的形式,这样做不仅费时费力而且有极大的可能出现翻译错误的问题。那么有没有更好的方法处理这类问题呢?以java语言为例1、使用Java提供的接口执行本地命令步骤1:创建外部脚本#prin...

2019-10-12 21:48:52 465

原创 MapReduce获取输入文件路径(全)

对于MapReduce而言,在Map端经常需要知道处理文件的输入路径,以此来区分不同的处理方式。我们知道在MapReduce框架中会将输入的文件切分成许多(InputSplit)文件块,每个文件块包含了文件路径,起止偏移量等信息,每一个文件块交给一个map任务进行处理。而文件块的生成是通过InputFormat调用getSplits方法实现的,不同的InputFormat会有不同的切分规则,生...

2019-01-21 17:55:07 2004

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除