Spark
文章平均质量分 64
不会打球的摄影师不是好程序员
这个作者很懒,什么都没留下…
展开
-
Spark数据倾斜解决办法
Spark数据倾斜解决办法一个Spark程序会根据其内部的Action操作划分成多个job,每个作业内部又会根据shuffle操作划分成多个Stage,每个Stage由多个Task任务并行进行计算,每个Task任务只计算一个分区的数据。Spark数据倾斜就是大量相同的key进入到了同一个分区。数据倾斜Spark数据倾斜解决办法前言一、解决办法1.数据预处理2.过滤导致数据倾斜的key3.提高shuffle操作的并行度4.使用随机key进行双重聚合前言数据倾斜解决的思路就是保证每个Task任务原创 2021-07-18 22:17:55 · 463 阅读 · 1 评论 -
Spark On YARN的作业提交流程
1.Spark On YARN的主要进程:1.SparkSubmit2.ResourceManager3.NodeManager4.Executor5.ApplicationMaster2.执行流程1.客户端想YARN的resourceManager提交应用程序2.ResourceManager收到请求后,选择一个NodeManager节点向其分配一个Container,并在Container中启动ApplicationMaster,ApplicationMaster中包含SparkCont原创 2021-05-14 10:46:22 · 240 阅读 · 0 评论 -
Spark源码学习——Memory Tuning(内存调优)
Spark内存调优Memory Tuning1.Memory Management Overview(内存管理概述)2.Determining Memory Consumption(确定内存消耗)3.Tuning Data Structures(优化数据结构)4.Serialized RDD Storage5.Garbage Collection Tuning(垃圾收集调优)1.Measuring the Impact of GC(GC的影响度量)2.Advanced GC Tuning(进一步GC优化)1原创 2021-04-23 16:52:57 · 414 阅读 · 0 评论 -
Spark源码学习——Data Serialization
源码的内容Data SerializationSerialization plays an important role in the performance of any distributed application. Formats that are slow to serialize objects into, or consume a large number of bytes, will greatly slow down the computation. Often, this will原创 2021-04-23 15:12:50 · 169 阅读 · 0 评论 -
(Spark调优~)算子的合理选择
1.map与mappartition1.map是对RDD中的每个元素作用上一个函数2.mappartition是对每个分区作用上一个函数如果遇到需要把数据写到数据库,一定要用mappartition2.foreach 与foreachpartition类似于map与mappartition区别是:foreach是行动算子,map是转换算子3.groupByKey与reduceByKey...原创 2021-04-14 23:28:19 · 176 阅读 · 0 评论 -
Spark工作原理
Spark工作原理1.MapReduce工作原理2.Spark工作原理1.Map阶段2.Reduce阶段3.Shuffle阶段3.Spark工作流程1.MapReduce工作原理MapReduce计算模型主要由三个阶段组成:Map阶段、Shuffle阶段、Reduce阶段。2.Spark工作原理Spark作业的工作原理时,通常会引入Hadoop MapReduce的工作原理作为入门比较,因为MapReduce与Spark的工作原理有很多相似之处。1.Map阶段将输入的多个分片(Split)由M原创 2021-03-10 23:23:30 · 259 阅读 · 3 评论 -
Spark中RDD 的持久化算子
Spark中RDD持久化算子1.分类1.cache2.persist3.checkpoint1.分类1.cache将RDD 的算子默认的保存在内存里面(比磁盘快)2.persist手动指定持久化的级别,指定数据存几分3.checkpoint存到指定的目录里面原创 2021-01-19 23:12:25 · 110 阅读 · 0 评论 -
Spark代码执行流程、术语以及宽窄依赖
Spark代码执行流程1.Spark算子的分类1.Transformation类算子——懒执行2.Action类算子——触发懒执行算子执行3.持久化算子2.Spark代码的流程1.创建SparkConf()2.创建SparkContext()3.创建RDD4.对RDD使用Transformation类算子进行数据转换5.对RDD使用Action类算子进行触发执行6.sc.stop()1.Spark算子的分类1.Transformation类算子——懒执行2.Action类算子——触发懒执行算子执行3原创 2021-01-19 22:10:46 · 176 阅读 · 6 评论 -
Spark本地运行时出现java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200.
Spark本地运行时出现java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. 1.出现错误的代码1.出现该错误的原因2.解决方法1.出现错误的代码java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using原创 2021-01-18 20:12:18 · 492 阅读 · 2 评论 -
Spark中RDD、DataFrame和DataSet三者的区别
Spark中RDD、DataFrame和DataSet三者的关系1.共性:2.区别:1.RDD2.DataFrame3.DataSet3.Spark millb简介:1. Spark包含一个提供常见的机器学习(ML)功能的程序库,叫做MLlib。2.MLlib的设计理念:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。1.共性:1.RDD、 DataFrame、DataSet都是spark平台下的分布式数据集,为处理超大型数据提供便利;2.三者都有惰性机制,在进行创建、转换时,不会立即执行原创 2021-01-15 19:39:46 · 2198 阅读 · 0 评论 -
hive与spark兼容版本汇总
hive与spark兼容版本的汇总1.通过官网的查阅得到以下信息,小伙伴们就不需要再自己去官网查看啦2.官网还给出了一句话:1.通过官网的查阅得到以下信息,小伙伴们就不需要再自己去官网查看啦2.官网还给出了一句话:Hive on Spark is only tested with a specific version of Spark, so a given version of Hive is only guaranteed to work with a specific version of S原创 2021-01-03 22:14:00 · 5895 阅读 · 4 评论 -
Spark RDD 的转化算子及案例
Spark RDD 的转化算子1.转化算子的定义2.常用的转化算子1.转化算子的定义转化算子负责对RDD中的数据进行计算并转化为新的RDD。Spark中所有的转化算子都是惰性的,因为转化算子不会立即进行操作,只有遇到行动算子的时候才会与行动算子一起进行执行。2.常用的转化算子(1)filter(func)算子作用:通过函数func岁源RDD中的每个元素进行过滤,并返回一个新的RDD例:val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8))val rd原创 2020-12-06 21:33:41 · 227 阅读 · 0 评论