搞了一个接近一天的Spark终于弄出答案,接下来分享一下我的经验教训:
- scala需在/home/hadoop/sparkapp/src/main/scala/ 文件夹下创建编辑
- sbt 需在/usr/local/sbt 文件夹下创建编辑
- 再次运行时usr/local/sbt 文件夹下如有出现target和project需删除,防止错误
- 编译打包会通过usr/local/sbt 文件夹下的sbt工具将整个应用程序打包成 JAR包(JAR包的名字可在sparkapp目录下的simple.sbt进行修改),JAR包放在/home/hadoop/sparkapp/target/scala-2.11 文件夹下。而且此时在/home/hadoop/sparkapp/target/scala-2.11/classes 文件夹下你会看到新生成的class文件。最后由生成的JAR包通过 spark-submit 提交到 Spark 中运行命令,进行数据统计。 【一定要清楚自己各个文件的位置,位置一旦出错就不能成功 spark-submit 得到结果】
- scala内容里的object名字和输入输出路径要写对,输出路径可以尽量放外面点,尽量不要和输出路径同一个文件夹。
- 命令出错特别是弹出那种教你各种命令如何输出的,一定要注意看是不是命令里单词之间空格的问题。