![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scala
文章平均质量分 67
Blue Wave
欢迎关注我的github博客,定期更新优质内容:https://liaomessi.github.io/
展开
-
scala隐式转换在流式调用中的应用
前言 关于流式调用,熟悉Java的小伙伴可能第一时间都会想到Java8关于stream相关的API,类似这种的代码list.stream().map(item->item+1).colletion(Collector::toList),流式调用带给我们的直接感受是代码量的减少。但是由于Java的特性导致一旦流式代码过长或者封装的不好会导致可读性急剧下降。这里我想要分享一个scala中基于隐式转换的流式调用,来帮助我们将结构更清晰化,聚焦核心代码逻辑的应用。 示例 以下我会用一个简单的代码片段来比较ja原创 2022-05-29 16:53:28 · 282 阅读 · 0 评论 -
Spark DataFrame UDF的使用与注意事项 [scala版]
spark dataframe使用udf的注意事项原创 2022-05-19 16:38:36 · 793 阅读 · 0 评论 -
Spark调优、DataFrame API使用、大表Join、动态分区
Spark job 调优原创 2022-05-18 15:54:23 · 1484 阅读 · 0 评论 -
Scala中DataFrame查询,合并多列(使用数组列表等不定列查询)
1.通过数组,列表select()方法 2.合并表中部分指定多列 3.删除多列 没啥好说,代码如下: object Demo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Demo").setMaster("local") val sparkSession = SparkSession.builder().config(conf).enableHiveSuppo.原创 2020-05-21 11:57:04 · 2337 阅读 · 1 评论 -
Scala-Spark项目踩坑小结
项目环境 Java8,Maven3.1,Scala2.11,Spark2.3 项目介绍 本项目致力于通过统计信息分析多个文件的差异,它支持指定一列或者多列比较count,mean,stddev,max,min,最终会产生分析报表和差异数据。主要用于检查公司内部hadoop sql转移到spark中由于数据和sql本身的问题和转移翻译过程中产生的job阶段产物差错检测。 项目踩坑 下面是真从0到1的过程,因为在写这个项目前,我完全没有任何spark和scala的经验,以下经验仅供小白入门者参考。原创 2020-05-19 18:09:36 · 861 阅读 · 0 评论