Spark在本地及Hadoop上运行方式

本文通过Wordcount应用演示了如何在本地和Hadoop上运行Spark。首先介绍了如何启动本地的pyspark,然后详细说明了配置Hadoop以支持Spark运行的步骤,包括复制配置文件并修改内容。接着,文章提到了两种在YARN上的运行模式:yarn-client和yarn-cluster,并指出前者适用于交互式任务,后者适合批处理。最后,展示了如何从HDFS读取文件并在Spark中处理,以及如何通过YARN的管理页面监控应用执行情况。
摘要由CSDN通过智能技术生成

刚刚安装了Hadoop以及spark就非常兴奋的想要试用一下,我们还是拿Wordcount这个小应用来实验

首先实验本地版本的pyspark

$ pyspark

shell就启动起来了

>>> sc.master
u'local[*]'

可以看到是本地master

>>> text = sc.textFile("shakespeare.txt")
>>> from operator import add
>>> def token(text):
...     return text.split()
... 
>>> words = text.flatMap(token)
>>> wc = words.map(lambda x:(x,1))
>>> counts = wc.reduceByKey(add)
>>> counts.saveAsTextFile('wc')

在没有配置的情况下这样就可以了
如果要在Hadoop上运行spark那么就需要另外配置一下:
复制一下两个文件

$ cd $SPARK_HOME/conf
$ cp spark-env.sh.template spark-env.sh
$ cp slave.template slave
$ vim spark-env.sh

添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/srv/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/e
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值