Spark
文章平均质量分 92
Spark技术分享
地球人是我哈
这个作者很懒,什么都没留下…
展开
-
Spark Shuffle 源码
Spark Shuffle 源码在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。ShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子,即将一个函数应用在RDD的各个partition的数据集上,意味着一个job的运行结束//org.apache.spark.scheduler.DAGScheduler#sub原创 2020-12-28 16:55:24 · 528 阅读 · 0 评论 -
一.Spark基本介绍
A_Spark基本介绍一.Spark历史所以,Yarn问世了,Yarn由ResourceManager和NodeManager组成ResourceManager(RM)的主要作用处理客户端的请求(Spark-submit提交job)监控NodeManager(监控节点状态)启动或监控ApplicationMaster,每一个运行在yarn上的程序,都存在一个ApplicationMaster,只是该AM是随机在任意一个NodeManager上创建的资源的分配与调度NodeManag原创 2020-06-29 20:20:16 · 619 阅读 · 0 评论 -
二.Spark_RDD(上)
B_Spark_RDD(上)一. RDD概述1. 什么是RDDRDD(Resilient DistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2. RDD的属性一组分区(Partition),即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数一个列表,存储存放每个Partition的优先位置3. RDD的特点RD原创 2020-06-29 20:45:41 · 163 阅读 · 0 评论 -
三.Spark_RDD(下)
C_Spark_RDD(下)一. RDD中的函数传递1. 传递一个方法package cn.xhjava.spark.rdd.funcationtransmitimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在实际开发中我们往往需要自己定义一些对于RDD的操作, * 那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端原创 2020-06-29 20:47:40 · 184 阅读 · 0 评论 -
四.SparkSQL
C_SparkSQL一. 概述1. 什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrameDataSet并且作为分布式SQL查询引擎的作用。众所周知的Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率原创 2020-07-01 19:25:08 · 207 阅读 · 0 评论 -
五.SparkStreaming
E. SparkStreaming一.SparkStreaming概述1. SparkStreaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Str原创 2020-06-30 20:25:10 · 157 阅读 · 0 评论 -
Spark 内核解析
Spark 内核解析一. Spark 内核概述Spark内核泛指Spark的核心运行机制,包括1.Spark核心组件的运行机制、2.Spark任务调度机制、3.Spark内存管理机制、4.Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。1. Spark 核心组件1. DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Drive原创 2020-12-28 16:53:18 · 257 阅读 · 0 评论 -
Spark 任务划分,调度,执行
Spark 任务划分,调度,执行def main(args: Array[String]): Unit = { //使用IDEA开发工具完成WordCount //local 模式 //创建SparkConf对象 val conf = new SparkConf().setMaster("local[3]").setAppName("Word Count") val sc = new SparkContext(conf) //读取文件内容 val原创 2020-07-03 20:44:43 · 289 阅读 · 0 评论 -
Spark Submit源码阅读
Spark Submit 提交流程1. SparkSubmit//SparkSubmit//1.进入main方法def main(args: Array[String]): Unit = { val submit = new SparkSubmit() submit.doSubmit(args) //走doSubmit()}//2.doSubmit()def doS...原创 2020-04-17 10:06:44 · 152 阅读 · 0 评论 -
SparkStreaming Kafka Kerberos 认证问题
目前在公司开发SparkStreaming 消费kafka数据,因为hadoop集群启用了kerberos认证,走了不少弯路,现在记录一下:代码使用local模式跑是完全ok的,但是run on yarn 上,一直报错:Exception in thread "main" org.apache.kafka.common.KafkaException: Failed to construct kafka consumer at org.apache.kafka.clients.consumer.Kafk原创 2020-05-26 09:43:23 · 1574 阅读 · 6 评论