使用Scala语言编写Spark应用程序实现数据去重
一、题目需求
使用Scala语言编写Spark应用程序实现数据去重(需要使用编译打包工具Maven或sbt进行编译打包)。
对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。
输入文件A的样例如下:
20180901 x
20180902 y
20180903 x
20180904 y
20180905 z
20180906 z
输入文件B的样例如下:
20180901 y
20180902 y
20180903 x
20180904 z
20180905 y
根据输入的文件A和B合并得到的输出文件C的样例如下:
20180901 x
20180901 y
20180902 y
20180903 x
20180904 y
20180904 z
20180905 y
20180905 z
20180906 z