第10章 Spark(全面解读Spark架构体系)

本文详细介绍了Spark的起源、特点和优势,包括其运行速度快、易用性、通用性和运行模式多样性。文章探讨了Spark与Hadoop的对比,指出Spark在内存计算和编程模型上的优势。此外,文章还涵盖了Spark的生态系统,如Spark Core、Spark SQL、Spark Streaming等组件,以及Spark的运行架构,包括DAG执行引擎、Stage和Task的划分。最后,文章讨论了RDD的概念和运行原理,强调了其容错性和效率。整体上,文章旨在全面解读Spark的架构体系和其在大数据处理中的作用。
摘要由CSDN通过智能技术生成

概述

Spark简介

Spark诞生于2009年美国加州伯克利分校的AMP实验室,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

Spark最初的设计目标是使数据分析更快----不仅程序运行速度要快,程序编写也要能快速、容易。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使程序编写更为容易,Spark使用简练、优雅的Scala编写,基于Scala提供了交互式的编程体系。

Spark具有如下4个主要特点:

(1)运行速度快

         Spark使用先进的有向无环图(Directed Acyclic Graph,DAG)执行引擎,以支持循环数据流与内存计算&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值