spark
young光素族
这个作者很懒,什么都没留下…
展开
-
spark集群模式概览
本文简短概述下spark如何在集群上运行,使得更简单地理解涉及到的组件。可以通过读”应用提交指南”来学习在一个集群上加载应用。 组件 spark应用作为独立的进程集运行在集群上,在主应用(称为驱动程序)中通过SparkContext来协调调度。 特别地,运行在集群上,SparkContext能够连接多种类型的集群管理者(spark自己的集群管理,Mesos或YARN),实现跨应用分配资源。一翻译 2018-01-15 09:06:23 · 361 阅读 · 0 评论 -
SPARK RDD编程指南
在高层次面上,每个spark应用有一个驱动程序组成,驱动程序运行用户的主函数,在集群上执行很多并行操作。Spark提供的主要抽象是RDD,可以进行并行操作的跨节点分散的元素集。RDDs可以由Hadoop文件系统中的一个文件创建,或在驱动程序中已经存在的scala集,然后转换它。用户会要求spark在内存中保留一个RDD,允许它被高效地跨并行操作重利用。最终RDD自动从节点失败中恢复。 spark翻译 2018-01-19 17:59:49 · 754 阅读 · 0 评论 -
Spark SQL,DataFrames and Datasets Guide
概览 Spark SQL是Spark的一个结构化数据处理模块。不像基本的Spark RDD API,Spark SQL提供的接口提供更多关于数据和执行的操作的结构信息。从内部看,Spark SQL使用额外的信息来执行额外的优化。有很多种方法来和Spark SQL交互,包括SQL和数据集API。当计算结果时使用了相同的执行引擎,独立于你使用的用来表达计算的API或语言。一种统一意味着开发者可以轻易...翻译 2018-02-08 18:01:11 · 261 阅读 · 0 评论 -
Structured Streaming Programming Guide-2.3.0
概览 结构化流是一个可伸缩和容错的流处理引擎,内置在Spark SQL 引擎中。你可以以对静态数据表达批处理计算的方式表达你的流计算。Spark SQL引擎会注意逐渐/持续第运行,并随着流数据不断到来而更新最终的结果。你可以使用Scala/Java/Python/R语言的Dataset/DataFrame API来表达流愈合、event-time windows、stream-to-batch ...翻译 2018-03-01 23:26:10 · 312 阅读 · 0 评论