前文回顾
从上一篇本文作者的文章《Spark 部署及示例代码讲解》已经可以知道示例代码的执行顺序是依次从左向右的,Run-example.sh->load-spark-env.sh->lib 目录下的 jar 包文件->spark-submit.sh->spark-class,图 1 给出了整体脚本调用顺序。
图 1. Spark 示例代码运行过程描述图
SCP 命令
由于涉及到 Linux 操作系统,可能读者需要在多台机器间进行数据拷贝,所以列举了 SCP 命令的使用方式。Linux 的 SCP 命令可以被用于在 Linux 之间复制文件和目录。
从本地复制到远程
复制文件:
命令格式:
scp local_file remote_username@remote_ip:remote_folder
或者
scp local_file remote_username@remote_ip:remote_file
或者
scp local_file remote_ip:remote_folder
或者
scp local_file remote_ip:remote_file
复制目录:
命令格式:
scp -r local_folder remote_username@remote_ip:remote_folder
或者
scp -r local_folder remote_ip:remote_folder
从 远程 复制到本地
从远程复制到本地,只要从本地复制到远程的命令的后 2 个参数调换顺序。
例如:
scp root@www.cumt.edu.cn:/home/root/others/music /home/space/music/1.mp3
scp -r www.cumt.edu.cn:/home/root/others/ /home/space/music/
分析日志文件例子
我们可以通过命令./bin/run-example JavaLogQuery 来运行程序,如果不清楚具体如何运行 Spark 内置示例程序,请参考《Spark 部署及示例代码讲解》。运行结果如清单 1 所示。
清单 1. 日志分析程序运行输出
(10.10.10.10,"FRED",GET http://images.com/2013/Generic.jpg HTTP/1.1) bytes=621 n=2