Spark 附带示例完整解释(原文已在IBM Developworks发表)

本文详细介绍了 Spark 的日志分析和网页计分示例,包括 SCP 命令、RDD 的创建与操作、数据处理和作业调度。通过代码清单展示了如何读取、分析日志文件,计算网页分值,并讨论了 Spark 作业调度模块的工作流程。
摘要由CSDN通过智能技术生成

前文回顾

从上一篇本文作者的文章《Spark 部署及示例代码讲解》已经可以知道示例代码的执行顺序是依次从左向右的,Run-example.sh->load-spark-env.sh->lib 目录下的 jar 包文件->spark-submit.sh->spark-class,图 1 给出了整体脚本调用顺序。

图 1. Spark 示例代码运行过程描述图
图 1. Spark 示例代码运行过程描述图

点击查看大图

SCP 命令

由于涉及到 Linux 操作系统,可能读者需要在多台机器间进行数据拷贝,所以列举了 SCP 命令的使用方式。Linux 的 SCP 命令可以被用于在 Linux 之间复制文件和目录。

从本地复制到远程

复制文件:

命令格式:

scp local_file remote_username@remote_ip:remote_folder

或者

scp local_file remote_username@remote_ip:remote_file

或者

scp local_file remote_ip:remote_folder

或者

scp local_file remote_ip:remote_file

复制目录:

命令格式:

scp -r local_folder remote_username@remote_ip:remote_folder

或者

scp -r local_folder remote_ip:remote_folder

从 远程 复制到本地

从远程复制到本地,只要从本地复制到远程的命令的后 2 个参数调换顺序。

例如:

scp root@www.cumt.edu.cn:/home/root/others/music /home/space/music/1.mp3

scp -r www.cumt.edu.cn:/home/root/others/ /home/space/music/

分析日志文件例子

我们可以通过命令./bin/run-example JavaLogQuery 来运行程序,如果不清楚具体如何运行 Spark 内置示例程序,请参考《Spark 部署及示例代码讲解》。运行结果如清单 1 所示。

清单 1. 日志分析程序运行输出
(10.10.10.10,"FRED",GET http://images.com/2013/Generic.jpg HTTP/1.1) bytes=621 n=2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值