spark的原理

最新推荐文章于 2024-09-15 16:13:23 发布

wyn1175397098zt

最新推荐文章于 2024-09-15 16:13:23 发布

阅读量152

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/wyn1175397098zt/article/details/79806051

版权

spark是一个微批处理的计算框架。基于内存的计算框架

注意：不是实时计算框架。因为spark处理的数据是一定时间内的数据。你可以把这个时间设置的很小很小。例如1s。

举个例子：大家都做过电梯或者扶梯。扶梯就是实时的--strom。电梯就是微实时的，它是一定的时间后，成批次的传送人--spark

spark的底层是RDD（分布式数据集）。

RDD有五个主要的特性：

一：RDD是有一系列的partition组成。

二：计算是作用在每一个partition上的

三：RDD之间有相互依赖的关系（子RDD可以通过父RDD转换而得到）

四：分区器是作用在K，V格式的RDD上

五：计算向数据移动 / 数据本地化（在发送每一个task之前，都会调用一个父RDD的getPrefferedLocations方法，获得每一个partition的位置，把task发送到数据所在的节点上）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wyn1175397098zt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark：实时数据微批处理（3.Spark Core 项目实战）

weixin_44824495的博客

05-31

918

文章目录1.Top10 热门品类 1.Top10 热门品类

Spark：实时数据微批处理（1.Spark 基础）

weixin_44824495的博客

05-28

1478

文章目录1.Spark 概述1.1 Spark 介绍1.2 Spark 特点1.3 Spark 内置模块介绍2.Spark 运行模式2.1 Local 模式2.2 Spark 核心概念介绍2.2.1 Master2.2.2 Worker2.2.3 driver program(驱动程序)2.2.4 executor(执行器)2.2.5 RDDs(Resilient Distributed Data...

参与评论您还未登录，请先登录后发表或查看评论

Spark工作原理

热门推荐

zhoxing

09-05

2万+

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： 1.运行速度快,Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是H...

【大数据】计算引擎之六：Spark处理框架

凝眸伏笔的博客

11-09

1449

1.是什么？ Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。原理图： 2.怎么干？ Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎。　　批处理模式　　与M...

聊聊流式批处理

大数据星球-浪尖

01-08

1626

要说流式微批处理，就不得不说一下TCP流。典型的tcp IO流模型有，bio，伪异步IO，NIO，AIO，Rector模型等。我们这里主要是说伪异步IO。下面我们一步步将其改造成spark Streaming的 SocketStream。在伪异步模式，我们是客户端通过TCP链接到服务端。这种在分布式模式下不可行，对于Spark Streaming的微批处理，我们根本不知道Receiver运行在何处

spark原理简介

风逍遥-ygq

05-11

893

spark简介以及原理 spark简介 spark是基于内存的分布式处理框架，它把要执行的作业拆分成多个任务，然后将任务分发到多个CPU进行处理，处理结果的中间数据存储在内存中，减少了数据处理过程中对硬盘的I/O操作，大大提升了处理效率。 spark和MapReduce对比 spark相对于mr，性能上提高了100倍。 &

spark原理及其优化

zhaicheng55的博客

08-09

1275

spark的前生今世，会深入其原理优化说明

Spark原理

写的不好之处,请指教

04-17

4662

基本概念 http://spark.apache.org/docs/latest/cluster-overview.html ●名词解释 1.Application：指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 2.Driver：Spark中的Driver即运行上述Application的Main()函数并且创建Spa...

Spark原理解析

Evankaka的专栏

03-07

2238

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等

Spark原理与实战

iflink

01-09

2893

目录1.0 spark原理架构1.1 driver1.2 cluster manager1.3 DAG1.4 RDD依赖关系2.0 spark summary2.1 架构图2.2 项目3.0 spark kafka 1.0 spark原理架构 1.1 driver 1.2 cluster manager 1.3 DAG 1.4 RDD依赖关系 2.0 spark summary 2.1 架构图 2.2 项目 spark-summary 3.0 spark kafka spark kafka .

spark原理与调优详解

12-14

spark原理与调优详解 Spark 是一种基于内存的分布式计算框架，旨在高效地处理大规模数据。下面是 Spark 的原理和调优详解。 Spark 背景和安装 Spark 的产生背景是为了解决传统 MapReduce 框架的不足之处，如计算...

spark原理示意图

10-31

Spark是大数据处理领域中的一款高性能、通用且可扩展的并行计算框架，它以其高效的内存计算和弹性分布式数据集（Resilient ...通过理解Spark的原理，开发者可以更好地利用其特性，实现大规模数据的高效处理和分析。

大数据之Spark（一）

wslzoooo的博客

09-12

1439

RDD-弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合RDD特性RDD有分区RDD的分区是RDD数据存储的最小单位，一份RDD数据本质上分割成多个分区（分区是物理概念RDD的方法会作用在其所有分区上RDD之间有依赖关系kv型的RDD可以有分区器（可选）RDD的分区规划会尽量靠近数据所在的服务器尽量走本地读取，避免网络读取。

编写并运行第一个spark java程序

lwprain的专栏

09-15

722

Setting的Build，Execution，Deployment中的Compiler下的Java Compiler下，bytecode版本两处都改为8。原文链接：https://blog.csdn.net/youbitch1/article/details/88355111。lines.first() //输出RDD的第一行元素 1.txt的第一行数据。1、进入spark，尝试spark shell编程。2、使用hadoop的hdfs存储及处理文件。名称是spark01。//此处是hadoop的路径。

大数据组件详解：Spark、Hive、HBase、Phoenix 与 Presto

fudaihb的博客

09-12

1045

随着大数据技术的快速发展，各种大数据处理框架和工具也应运而生。其中，Spark、Hive、HBase、Phoenix 和 Presto 是广泛应用于大数据领域的几款核心组件，它们各自擅长处理不同类型的大数据任务。本文将详细介绍这些技术的特点、应用场景以及它们之间的区别和联系。

Spark部署文档

weixin_45653328的博客111

09-13

1039

回忆: 在YARN中有一个历史服务器, 功能: 将YARN运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.Spark的历史服务器, 功能: 将Spark运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码。不同的是, 这个解释器环境运行的不是python代码, 而是scala程序代码。这个文件的修改不是必须的, 为什么修改为WARN. 因为Spark是个话痨。

【高创新】基于鲸鱼优化算法WOA-Transformer-LSTM实现故障识别Matlab实现.rar

09-18

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。替换数据可以直接使用，注释清楚，适合新手

《冯唐成事心法》学习笔记01：逆境来，了怎么办？