Spark在本地及Hadoop上运行方式

最新推荐文章于 2023-11-01 15:56:32 发布

迷迷迷迷路的鹿鹿

最新推荐文章于 2023-11-01 15:56:32 发布

阅读量1.4k

点赞数

分类专栏：实战区

本文链接：https://blog.csdn.net/yao09605/article/details/103949194

版权

本文通过Wordcount应用演示了如何在本地和Hadoop上运行Spark。首先介绍了如何启动本地的pyspark，然后详细说明了配置Hadoop以支持Spark运行的步骤，包括复制配置文件并修改内容。接着，文章提到了两种在YARN上的运行模式：yarn-client和yarn-cluster，并指出前者适用于交互式任务，后者适合批处理。最后，展示了如何从HDFS读取文件并在Spark中处理，以及如何通过YARN的管理页面监控应用执行情况。

摘要由CSDN通过智能技术生成

刚刚安装了Hadoop以及spark就非常兴奋的想要试用一下，我们还是拿Wordcount这个小应用来实验

首先实验本地版本的pyspark

$ pyspark

shell就启动起来了

>>> sc.master
u'local[*]'

可以看到是本地master

>>> text = sc.textFile("shakespeare.txt")
>>> from operator import add
>>> def token(text):
...     return text.split()
... 
>>> words = text.flatMap(token)
>>> wc = words.map(lambda x:(x,1))
>>> counts = wc.reduceByKey(add)
>>> counts.saveAsTextFile('wc')

在没有配置的情况下这样就可以了
如果要在Hadoop上运行spark那么就需要另外配置一下：
复制一下两个文件

$ cd $SPARK_HOME/conf
$ cp spark-env.sh.template spark-env.sh
$ cp slave.template slave
$ vim spark-env.sh

添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/srv/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/e

最低0.47元/天解锁文章

迷迷迷迷路的鹿鹿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录