spark
文章平均质量分 67
从实战中的每个例子来学习spark,从而理解大数据spark核心原理,主要是通过java代码来进行编程。
Blue Wave
欢迎关注我的github博客,定期更新优质内容:https://liaomessi.github.io/
展开
-
scala隐式转换在流式调用中的应用
前言关于流式调用,熟悉Java的小伙伴可能第一时间都会想到Java8关于stream相关的API,类似这种的代码list.stream().map(item->item+1).colletion(Collector::toList),流式调用带给我们的直接感受是代码量的减少。但是由于Java的特性导致一旦流式代码过长或者封装的不好会导致可读性急剧下降。这里我想要分享一个scala中基于隐式转换的流式调用,来帮助我们将结构更清晰化,聚焦核心代码逻辑的应用。示例以下我会用一个简单的代码片段来比较ja原创 2022-05-29 16:53:28 · 276 阅读 · 0 评论 -
Spark DataFrame UDF的使用与注意事项 [scala版]
spark dataframe使用udf的注意事项原创 2022-05-19 16:38:36 · 775 阅读 · 0 评论 -
Spark调优、DataFrame API使用、大表Join、动态分区
Spark job 调优原创 2022-05-18 15:54:23 · 1462 阅读 · 0 评论 -
Scala中DataFrame查询,合并多列(使用数组列表等不定列查询)
1.通过数组,列表select()方法2.合并表中部分指定多列3.删除多列没啥好说,代码如下:object Demo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Demo").setMaster("local") val sparkSession = SparkSession.builder().config(conf).enableHiveSuppo.原创 2020-05-21 11:57:04 · 2304 阅读 · 1 评论 -
Scala-Spark项目踩坑小结
项目环境Java8,Maven3.1,Scala2.11,Spark2.3项目介绍本项目致力于通过统计信息分析多个文件的差异,它支持指定一列或者多列比较count,mean,stddev,max,min,最终会产生分析报表和差异数据。主要用于检查公司内部hadoop sql转移到spark中由于数据和sql本身的问题和转移翻译过程中产生的job阶段产物差错检测。项目踩坑下面是真从0到1的过程,因为在写这个项目前,我完全没有任何spark和scala的经验,以下经验仅供小白入门者参考。原创 2020-05-19 18:09:36 · 829 阅读 · 0 评论 -
基于Java8流式语法的Spark程序之入门级WordCount
写在前面:在使用java学习spark之前必须要先去了解java8流式语法,这十分有利于学习spark的计算方式。 关于流式语法它就像一个管道,将初始的数据看成需要加工的原材料,通过每次管道的流水线作业进行加工转换,最后包装成产品。这里涉及到spark中两个算子,每次管道的流水线作业相当于spark中的转换算子,最后包装成产品相当于spark中的行动算子。 关于spark中出现的Tuple...原创 2020-04-07 15:10:42 · 259 阅读 · 0 评论