Scala-Spark项目踩坑小结

最新推荐文章于 2024-05-22 09:32:47 发布

Blue Wave

最新推荐文章于 2024-05-22 09:32:47 发布

阅读量896

点赞数

分类专栏： spark Scala

本文链接：https://blog.csdn.net/you_are_my_mr_right/article/details/106219258

版权

本文记录了一个从零开始的Scala-Spark项目中遇到的问题，包括Scala隐式转换错误、版本不一致问题、DataFrame写入HDFS压缩、空jar包上传、List与Array用法、picocli命令行参数解析以及snakeyaml读取复杂YAML结构等挑战，为初学者提供了参考。

摘要由CSDN通过智能技术生成

项目环境

Java8，Maven3.1，Scala2.11，Spark2.3

项目介绍

本项目致力于通过统计信息分析多个文件的差异，它支持指定一列或者多列比较统计信息，最终产生分析报表和差异数据。主要用于检查公司内部hadoop sql转移到spark中由于数据和sql本身的问题和转移翻译过程中产生的job阶段产物差错检测。

项目踩坑

下面是真从0到1的过程，因为在写这个项目前，我完全没有任何spark和scala的经验，以下经验供小白入门者的问题参考。

1.Scala隐式转换问题
当我使用filter($"param" === 0)报错，“Value '$' is not a member of StringContext”,这里是缺少隐式转换的引包（import self.sparkSession.implicits._）后面去了解了一下Scala中关于隐式转换的内容，到现在也不算太懂，但是大概知道什么时候需要隐式转换了。

2.Scala、Spark版本不一致问题
在idea中直接run或者debug能启动spark job，但是mvn clean package后通过spark-submit无法正常运行，可能的原因是pom.xml文件中的scala、spark版本和本地的scala、spark版本不同造成的。（一开始，我通过这种方式跑了一个WordCount没问题，没有冲突的地方，后来一个复杂的job再通过这种方式就会冲突了。）
也有因为scala的compile和run的版本不一致,如下面这种，2.11和2.12发生冲突的情况，将两个版本保持一致即可。
<

最低0.47元/天解锁文章

Blue Wave

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scala-Spark项目踩坑小结

项目环境Java8，Maven3.1，Scala2.11，Spark2.3项目介绍本项目致力于通过统计信息分析多个文件的差异，它支持指定一列或者多列比较count,mean,stddev,max,min，最终会产生分析报表和差异数据。主要用于检查公司内部hadoop sql转移到spark中由于数据和sql本身的问题和转移翻译过程中产生的job阶段产物差错检测。项目踩坑下面是真从0到1的过程，因为在写这个项目前，我完全没有任何spark和scala的经验，以下经验仅供小白入门者参考。
复制链接

扫一扫

专栏目录