在spark上运行独立程序（Self-Contained Applications）

最新推荐文章于 2023-03-08 15:26:16 发布

yijichangkong

最新推荐文章于 2023-03-08 15:26:16 发布

阅读量2.2k

点赞数 1

分类专栏： hadoop Spark 文章标签： Spark hadoop

本文链接：https://blog.csdn.net/yijichangkong/article/details/46763597

版权

在成功搭建Hadoop集群上的Spark环境并体验Spark Shell后，可以进一步尝试运行自包含的应用程序。通过编写Python API程序（SimpleApp.py），利用Spark安装目录下的命令启动。每个Spark应用由一个主驱动程序（driver program）驱动，它包含了应用的main函数和分布式数据集的操作。SparkContext对象是连接集群的关键，用于创建RDDs，并管理在executor节点上执行任务。

摘要由CSDN通过智能技术生成

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。

运行独立程序（SimpleApp.py）：
首先编写程序（这里用Pytho的API）：

from pyspark import SparkContext

logFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s:'a' in s).count()
numBs = logData.filter(lambda s:'b' in s).count()

print "lines with a: %i,lines with b: %i" %(numAs,numBs)

然后进入spark安装目录运行：

hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ vi /home/hadoop/Public/SimpleApp.py hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ ./bin/spark-submit --master local /home/hadoop/Public/SimpleApp.py