刚刚安装了Hadoop以及spark就非常兴奋的想要试用一下,我们还是拿Wordcount这个小应用来实验
首先实验本地版本的pyspark
$ pyspark
shell就启动起来了
>>> sc.master
u'local[*]'
可以看到是本地master
>>> text = sc.textFile("shakespeare.txt")
>>> from operator import add
>>> def token(text):
... return text.split()
...
>>> words = text.flatMap(token)
>>> wc = words.map(lambda x:(x,1))
>>> counts = wc.reduceByKey(add)
>>> counts.saveAsTextFile('wc')
在没有配置的情况下这样就可以了
如果要在Hadoop上运行spark那么就需要另外配置一下:
复制一下两个文件
$ cd $SPARK_HOME/conf
$ cp spark-env.sh.template spark-env.sh
$ cp slave.template slave
$ vim spark-env.sh
添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/srv/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/e