作业

最新推荐文章于 2024-06-21 19:20:27 发布

超级无敌暴龙战士99号选手

最新推荐文章于 2024-06-21 19:20:27 发布

阅读量73

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/zwj010303/article/details/114303260

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark是一种安全的、经正式定义的编程语言，被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。
其通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，Spark的正式和明确的定义使得多种静态分析技术在Spark源代码的应用中成为可能。
从高的层面来看，其实每一个Spark的应用，都是一个Driver类，通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，是一个弹性分布式数据集(RDD)，它是一种特殊集合，可以分布在集群的节点上，以函数式编程操作集合的方式，进行各种各样的并发操作。它可以由hdfs上的一个文件创建而来，或者是Driver程序中，从一个已经存在的集合转换而来。用户可以将数据集缓存在内存中，让它被有效的重用，进行并发操作。最后，分布式数据集可以自动的从结点失败中恢复，再次进行计算。
Spark的第二个抽象，是并行计算中使用的共享变量。默认来说，当Spark并发运行一个函数时，它是以多个的task，在不同的结点上运行，它传递每一个变量的一个拷贝，到每一个独立task使用到的函数中，因此这些变量并非共享的。然而有时候，我们需要在任务中能够被共享的变量，或者在任务与驱动程序之间共享。
为了写一个Spark的应用，你需要将Spark和它的依赖，加入到CLASSPATH中。最简单的方法，就是运行sbt/sbt assembly来编译Spark和它的依赖，打到一个Jar里面core/target/scala_2.9.1/spark-core-assembly-0.0.0.jar，然后将它加入到你的CLASSPATH中。或者你可以选择将spark发布到maven的本地缓存中，使用sbt/sbt publish。它将在组织org.spark-project下成为一个spark-core.
另外，你会需要导入一些Spark的类和隐式转换，将下面几行加入到你程序的顶部
import spark.SparkContext
import SparkContext._
写Spark程序需要做的第一件事情，就是创建一个SparkContext对象，它将告诉Spark如何访问一个集群。这个通常是通过下面的构造器来实现的：
new SparkContext(master, jobName, [sparkHome], [jars])
Master参数是一个字符串，指定了连接的Mesos集群，或者用特殊的字符串“local”来指明用local模式运行。如下面的描述一般，JobName是你任务的名称，当在集群上运行的时候，将会在Mesos的Web UI监控界面显示。后面的两个参数，是用在将你的代码，部署到mesos集群上运行时使用的，后面会提到。
在Spark的解释器中，一个特殊的SparkContext变量已经为你创建，变量名字叫sc。创建你自己的SparkContext是不会生效的。你可以通过设置MASTER环境变量，来让master连接到需要的上下文。
MASTER=local; ./spark-shell

超级无敌暴龙战士99号选手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
作业

Spark是一种安全的、经正式定义的编程语言，被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。其通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，Spark的正式和明确的定义使得多种静态分析技术在Spark源代码的应用中成为可能。从高的层面来看，其实每一个Spark的应用，都是一个Driver类，通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，是一个弹性分布式数据集(RDD)，它是一种特殊集合，可以分布在集
复制链接

扫一扫