目前,SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法,SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用,以及其中聚类算法的实现。
在官网
http://spark.apache.org/上直接下载编译好的tar安装包可以加快部署速度。
spark的运行依赖于scala2.10.4,注意此版本一定要正确,否则spark不能正确运行。
1、scala的安装很简单,在官网
http://www.scala-lang.org上下载安装包,解压到任意路径后,在linux中设置好环境变量后即可使用(编辑profile文件)。