在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。
运行独立程序(SimpleApp.py):
首先编写程序(这里用Pytho的API):
from pyspark import SparkContext
logFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s:'a' in s).count()
numBs = logData.filter(lambda s:'b' in s).count()
print "lines with a: %i,lines with b: %i" %(numAs,numBs)
然后进入spark安装目录运行:
hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ vi /home/hadoop/Public/SimpleApp.py
hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$
./bin/spark-submit --master local
/home/hadoop/Public/SimpleApp.py

在成功搭建Hadoop集群上的Spark环境并体验Spark Shell后,可以进一步尝试运行自包含的应用程序。通过编写Python API程序(SimpleApp.py),利用Spark安装目录下的命令启动。每个Spark应用由一个主驱动程序(driver program)驱动,它包含了应用的main函数和分布式数据集的操作。SparkContext对象是连接集群的关键,用于创建RDDs,并管理在executor节点上执行任务。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



