scala编写的Spark程序远程提交到服务器集群上运行

最新推荐文章于 2024-05-21 14:54:56 发布

六尘

最新推荐文章于 2024-05-21 14:54:56 发布

阅读量1w

点赞数 13

分类专栏： Hadoop任务合集大数据文章标签： scala spark eclipse hadoop 远程服务器

本文链接：https://blog.csdn.net/xqclll/article/details/54099397

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

Hadoop任务合集

9 篇文章 0 订阅

订阅专栏

一.需要的软件：

eclipse
相应版本的scalaIDE
与集群一样的spark安装包，主要是要用到spark中的jar包
与集群一样的hadoop安装包
与hadoop版本对应的winutil.exe，hadoop.dll（只要版本差距不大不一样也没关系）

二.步骤
（一）在eclipse中安装对应版本的ScalaIDE，具体安装见网上。

（二）复制winutil.exe，hadoop.dll到hadoop的bin文件下，并设置hadoop的环境变量，具体设置方法也可以在网上找到。

（三）在eclipse中建立scala工程，与java工程类似，在src下建立package和相应的scala object文件。

代码示例：

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf,SparkContext}

object RemoteDebug {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi").setMaster("spark://your-hadoop-master:7077")
      .setJars(List("file:///E:/scalatest.jar"))
      System.setProperty("hadoop.home.dir", "D:/Program Files/hadoop-2.6.5");
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = 100000 * slices
    val count = spark.parallelize(1 to n, slices).map { i =>
      val x = Math.random * 2 - 1
      val y = Math.random * 2 - 1
      if (x * x + y * y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
  }
}

（四）build path

将spark安装包下的jars文件夹下的jar包导入scala project中。

（五）run as Scala Application

运行结果：

这里写图片描述

（六）出现的错误：

错误一：

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 0.0 failed 4 times, most recent failure: Lost task 1.3 in stage 0.0 (TID 5, 222.31.67.83): java.io.IOException: No FileSystem for scheme: E
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
    at org.apache.spark.util.Utils$.getHadoopFileSystem(Utils.scala:1822)
    at org.apache.spark.util.Utils$.doFetchFile(Utils.scala:665)
    at org.apache.spark.util.Utils$.fetchFile(Utils.scala:449)
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:488)
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:480)
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733)
    at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:99)
	at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:99)
    at scala.collection.mutable.HashTable$class.foreachEntry(HashTable.scala:230)
    at scala.collection.mutable.HashMap.foreachEntry(HashMap.scala:40)
    at scala.collection.mutable.HashMap.foreach(HashMap.scala:99)
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:732)
    at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$updateDependencies(Executor.scala:480)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:252)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

原因：使用file:///指定为本地路径

错误二：

17/01/05 22:16:00 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 222.31.67.133): java.lang.RuntimeException: Stream '/jars/scalatest.jar' was not found.
    at org.apache.spark.network.client.TransportResponseHandler.handle(TransportResponseHandler.java:222)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:121)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:266)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at org.apache.spark.network.util.TransportFrameDecoder.channelRead(TransportFrameDecoder.java:85)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846)
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    at java.lang.Thread.run(Thread.java:745)

原因：找不到jar包，是因为在运行之前没有把我们的项目先导成jar包放到我们指定的路径下。因此，只需要导出jar包就可以了。

错误三：

系统变量设置了HADOOP_HOME也不行，找不到winutil.exe。

可以在程序中直接设定环境变量

  System.setProperty("hadoop.home.dir", "D:/Program Files/hadoop-2.6.5");

六尘

关注

13
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
scala编写的Spark程序远程提交到服务器集群上运行

一.需要的软件：eclipse相应版本的scalaIDE与集群一样的spark安装包，主要是要用到spark中的jar包与集群一样的hadoop安装包与hadoop版本对应的winutil.exe，hadoop.dll（只要版本差距不大不一样也没关系）二.步骤（一）在eclipse中安装对应版本的ScalaIDE，具体安装见网上。（二）复制winutil.exe，hadoop.dll
复制链接

扫一扫

专栏目录