![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
数据年轮
这个作者很懒,什么都没留下…
展开
-
Spark Streaming中的函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作需要传入一个函数当做参数,具体调用形式为val ...原创 2019-04-25 19:19:33 · 188 阅读 · 0 评论 -
Spark源码分析
过程描述:1.通过Shell脚本启动Master,Master类继承Actor类,通过ActorySystem创建并启动。2.通过Shell脚本启动Worker,Worker类继承Actor类,通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等),以后就是定时汇报,保持心跳。4.Maste...原创 2019-04-22 20:38:07 · 142 阅读 · 0 评论 -
Spark总结
RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被...转载 2019-04-18 20:15:37 · 116 阅读 · 0 评论 -
Spark之shuffle机制及原理
一 概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个...原创 2019-04-23 19:59:50 · 218 阅读 · 0 评论 -
Spark设计理念与基本架构
《深入理解Spark:核心思想与源码分析》(第2章) 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK:核心思想与源码分析》一书正式出版上市《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》本文主要展示本书的第2章内容:Spark设计理念与基本架构“若夫乘天地之正,而御六气之辩...转载 2019-04-24 17:42:18 · 296 阅读 · 0 评论 -
Spark 2.0系列之SparkSession详解
用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户...转载 2019-04-24 19:23:45 · 450 阅读 · 0 评论