Spark原理（三）

最新推荐文章于 2024-07-25 10:54:12 发布

Star-Technology

最新推荐文章于 2024-07-25 10:54:12 发布

阅读量264

点赞数

分类专栏： Big Data 文章标签： spark hadoop apache

本文链接：https://blog.csdn.net/ymf827311945/article/details/73610041

版权

Big Data 专栏收录该内容

140 篇文章 0 订阅

订阅专栏

Point 1：资源管理与作业调度
Spark对于资源管理与作业调度可以使用Standalone(独立模式)，Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用，但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现，得益于Spark天生支持多种Scheduler和Executor的良好设计，对YARN的支持也就非常容易，Spark on Yarn的大致框架图。
这里写图片描述

Point 2：.编程接口
● Spark通过与编程语言集成的方式暴露RDD的操作，类似于DryadLINQ和FlumeJava，每个数据集都表示为RDD对象，对数据集的操作就表示成对RDD对象的操作。Spark主要的编程语言是Scala，选择Scala是因为它的简洁性（Scala可以很方便在交互式下使用）和性能（JVM上的静态强类型语言）。
● Spark和Hadoop MapReduce类似，由Master(类似于MapReduce的Jobtracker)和Workers(Spark的Slave工作节点)组成。用户编写的Spark程序被称为Driver程序，Dirver程序会连接master并定义了对各RDD的转换与操作，而对RDD的转换与操作通过Scala闭包(字面量函数)来表示，Scala使用Java对象来表示闭包且都是可序列化的，以此把对RDD的闭包操作发送到各Workers节点。 Workers存储着数据分块和享有集群内存，是运行在工作节点上的守护进程，当它收到对RDD的操作时，根据数据分片信息进行本地化数据操作，生成新的数据分片、返回结果或把RDD写入存储系统。

Point 3：Scala
Spark使用Scala开发，默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多，SparK提供了Spark-Shell，可以在Spark-Shell测试程序。写SparK程序的一般步骤就是创建或使用(SparkContext)实例，使用SparkContext创建RDD，然后就是对RDD进行操作。如：
Scala代码

  1. val sc = new SparkContext(master, appName, [sparkHome], [jars])     
  2. val textFile = sc.textFile("hdfs://.....")     
  3. textFile.map(....).filter(.....).....

Java
Spark支持Java编程，但对于使用Java就没有了Spark-Shell这样方便的工具，其它与Scala编程是一样的，因为都是JVM上的语言，Scala与Java可以互操作，Java编程接口其实就是对Scala的封装。如：

  1. avaSparkContext sc=new JavaSparkContext(...);      
  2.     JavaRDD lines=ctx.textFile("hdfs://...");    
  3.     JavaRDD words=lines.flatMap(    
  4.       new FlatMapFunction<String,String>(){    
  5.         public Iterablecall(Strings){    
  6.             return Arrays.asList(s.split(" "));    
  7.         }    
  8.       }    
  9.     );

Python
现在Spark也提供了Python编程接口，Spark使用py4j来实现python与java的互操作，从而实现使用python编写Spark程序。Spark也同样提供了pyspark，一个Spark的python shell，可以以交互式的方式使用Python编写Spark程序。如：

    1. from pyspark import SparkContext     
  2.    
  3. sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg'])     
  4. words = sc.textFile("/usr/share/dict/words")     
  5. words.filter(lambda w: w.startswith("spar")).take(5)

Point 4：Spark的运行模式
1.Standlone模式
为方便Spark的推广使用，Spark提供了Standalone模式，Spark一开始就设计运行于Apache Mesos资源管理框架上，这是非常好的设计，但是却带了部署测试的复杂性。为了让Spark能更方便的部署和尝试，Spark因此提供了Standalone运行模式，它由一个Spark Master和多个Spark worker组成，与Hadoop MapReduce1很相似，就连集群启动方式都几乎是一样。
2.Yarn模式
Spark-shell现在还不支持Yarn模式，使用Yarn模式运行，需要把Spark程序全部打包成一个jar包提交到Yarn上运行。目录只有branch-0.8版本才真正支持Yarn。

Star-Technology

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark原理（三）

Point 1：资源管理与作业调度 Spark对于资源管理与作业调度可以使用Standalone(独立模式)，Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用，但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现，得益于Spark天生支持多种Scheduler和Executor的良好设计，对
复制链接

扫一扫

专栏目录