环境说明:centos6 + hadoop2.6+spark1.6.1
前期hadoop集群以及spark on yarn模式已经搭建完毕。但是如果想要使用sparkR模块的话,需要在集群的所有的节点都安装R语言。
我安装的是R-3.2.5版本。
yum install -y gcc-gfortran gcc gcc-c++ readline-devel libXt-devel zlib-devel
tar xvf R-3.2.5.tar.gz
cd R-3.2.5
./configure --with-readline=no --with-x=no
make
make install
这样在集群所有的节点上都安装成功之后,就可以通过sparkR或者spark-sumbit提交任务了。
下一篇介绍一个sparkR的运行的例子。