1、下载一个Intellij IDEA安装包,安装scala和sbt插件。然后重启。
新建一个scala-sbt项目
方便起见,我们直接使用spark安装包下的example中的例子来跑。
2、下载spark的安装文件,spark-2.0.0-bin-hadoop2.7.tgz.gz,解压缩后的目录为spark-2.0.0-bin-hadoop2.7
在新工程中创建一个lib文件夹。
copy spark-2.0.0-bin-hadoop2.7\jars下的所有jar包到工程lib目录下。
选中所有jar包,右键add as library。
这样就添加了所有依赖,肯定存在多余的jar包,但是这样比较方便,不怕少jar包了就。
copy spark-2.0.0-bin-hadoop2.7\examples\src\main\scala\org\apache\spark\examples下的SparkPi.scala到新工程的scala目录下面。
object SparkPi {
def main(args: Array[String]) {
val spark = SparkSession
.builder.master("local[4]")
.appName("Spark Pi")
.getOrCreate()
val slices = if (args.length > 0) args(0).toInt else 2
val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count / (n - 1))
spark.stop()
}
}
在类上右键=》Run 'SparkPi'即可运行程序。
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
遇到上述异常则需要到点击打开链接下载zip文件夹,具体步骤参见(http://blog.csdn.net/lanwenbing/article/details/40783335)
在环境变量中添加HADOOP_HOME=D:\hadoop\hadoop-common-2.2.0-bin-master,path中添加%HADOOP_HOME%\bin
至此程序已经可以在IDEA上正常运行了,那么怎么打包进行发布呢?
3、在环境变量中添加SPARK_HOME=spark-2.0.0-bin-hadoop2.7所在目录,path中添加%SPARK_HOME%\bin;
此步的作用是可以在cmd中直接使用spark-submit命令来提交spark应用程序。
4、spark-submit --master local[4] --class com.netease.lede.SparkPi D:\spark\ideafirstdemo.jar
借助spark-submit进行spark应用的提交,本地模式运行,提供4个CPU,main函数所在的class为com.netease.lede.SparkPi ,jar包路径为D:\spark\ideafirstdemo.jar。
Exception in thread "main" java.lang.SecurityException: Invalid signature file d
igest for Manifest main attributes
遇到此异常是由于工程打包的数字签名不匹配,jar包被认为是不安全的。
要解决此问题,目前来看比较土的办法就是使用winrar打开jar,删除META-INF下面除MAVEN .MF .RSA以外的所有文件即可解决。
如果是在linux环境下,执行如下命令据说也可以解决该异常
zip -d yourjar.jar 'META-INF/.SF' 'META-INF/.RSA' 'META-INF/*SF'
未亲测,含义就是删除
yourjar.jar里面的sf rsa *sf文件等。