Eclipse上Spark开发环境搭建

最新推荐文章于 2021-08-15 11:45:30 发布

hellohorizon

最新推荐文章于 2021-08-15 11:45:30 发布

阅读量4k

点赞数

分类专栏：开发工具/环境大数据/云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanhang0610/article/details/51899586

版权

开发工具/环境同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

大数据/云计算

8 篇文章 0 订阅

订阅专栏

1 安装插件

http://scala-ide.org/download/current.html

2 配置

2.1 配置Hadoop环境变量

HADOOP_HOME：%HADOOP_HOME%\bin中需包含winutils.exe文件。

Path：添加%HADOOP_HOME%\bin，注意分号。

winutils.exe下载地址：

http://download.csdn.net/detail/yh880610/9567278

2.2 配置Spark环境变量

SPARK_HOME：如：E:\SparkInstallForEclipse\spark-1.6.2-bin-without-hadoop。

Path：添加%SPARK_HOME%\bin，注意分号。

3 新建项目

3.1 根据向导新建Scala项目

3.2 导入Spark开发包

在Spark下载包里找到合适的spark-assembly-xxx-hadoop-xxx.jar，导入到新建的项目的classpath中。

3.3 示例代码

package test

importorg.apache.spark.SparkConf

importorg.apache.spark.SparkContext

importscala.math.random

objectHelloSpark {

def main(args: Array[String]): Unit = {

System.setProperty("hadoop.home.dir", "E:\\hadoopInstallForEclipse\\hadoop-2.7.2");

val conf = new SparkConf().setMaster("local").setAppName("My App");

val sc = new SparkContext(conf);

val inputfiles: String = "E:\\SparkInstallForEclipse\\spark-1.6.2-bin-without-hadoop\\readme.md";

//创建PairRDD

val lines = sc.textFile(inputfiles); //读取外部数据创建一个RDD

val pair = lines.map(x => (x.split(" ")(0), x));

println("CreatePairRDD example,OutputPairRDD:" + pair.take(2)(0) + "second " + pair.take(2)(1) + pair.take(3)(2));

//pairRDD trnasformation

val pairRDD1 = sc.parallelize(List((1, 2), (3, 4), (3, 6)));

println("pairRDD1 num:" + pairRDD1.count());

val pairRDD2 = pairRDD1.reduceByKey((x, y) => x + y);

println("pairRDD2 num:" + pairRDD2.count());

pairRDD2.collectAsMap().map(println(_));

val pairRDD3 = pairRDD1.groupByKey();

println("pairRDD3 num:" + pairRDD3.count());

//聚合操作

val result = pairRDD1.combineByKey(

(v) => (v, 1),

(acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1),

(acc1: (Int, Int), acc2: (Int, Int))=> (acc1._1 + acc2._1, acc1._2 + acc2._2)).map {

case (key, value) => (key, value._1 / value._2.toFloat)

}

result.collectAsMap().map(println(_));

}

}

直接右击->Run as ScalaApplication，即可在本地运行调试。

3.4 部署到集群上运行

修改示例代码：

1、注释掉System.setProperty("hadoop.home.dir","xxx");

2、修改inputfiles变量，指向linux上文件路径：/soft/readme.md。

将开发的代码打成jar包（如hello-spark.jar）传至集群上指定路径，如$SPARK_HOME路径下。

在$SPARK_HOME路径下执行一下命令进行运行jar程序：

./bin/spark-submit --class test.HelloSpark hello-spark.jar

4 常见错误

4.1 JVM内存溢出

java.lang.IllegalArgumentException: Systemmemory 259522560 must be at least 4.718592E8. Please use a larger heap size.

解决：

Window—Preference—Java—InstalledJREs—选中一个Jre 后，Edit在Default VM arguments 里加入：-Xmx512M

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。