在spark上运行独立程序(Self-Contained Applications)

在成功搭建Hadoop集群上的Spark环境并体验Spark Shell后,可以进一步尝试运行自包含的应用程序。通过编写Python API程序(SimpleApp.py),利用Spark安装目录下的命令启动。每个Spark应用由一个主驱动程序(driver program)驱动,它包含了应用的main函数和分布式数据集的操作。SparkContext对象是连接集群的关键,用于创建RDDs,并管理在executor节点上执行任务。
摘要由CSDN通过智能技术生成

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手

运行独立程序(SimpleApp.py):
首先编写程序(这里用Pytho的API):

from pyspark import SparkContext

logFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s:'a' in s).count()
numBs = logData.filter(lambda s:'b' in s).count()

print "lines with a: %i,lines with b: %i" %(numAs,numBs)

然后进入spark安装目录运行:

hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ vi /home/hadoop/Public/SimpleApp.py
hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$
./bin/spark-submit --master local
/home/hadoop/Public/SimpleApp.py

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值