spark生态、flink生态
文章平均质量分 85
spark
斑马!
本科和研究生就读于某普通一本院校的计算机科学与技术专业,目前研究生三年级,暑期实习拿到美团,阿里,京东等大厂offer;秋招拿到了美团,京东,小米等大厂offer。方向是大数据开发工程师,主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我!
展开
-
大数据--spark生态6--spark高频面试题(常见算子之间的异同点)
一:map和mappartitions区别 map是对rdd中的每一个元素进行操作,mapPartitions则是对rdd中每个分区的迭代器进行操作;从性能上看,mappartitions的性能较高,举例来说,如果一个partition中有一万条数据,在使用map的时候,function需要执行和计算1万次;使用mappartitions操作的时候,一个task仅仅会执行一次function。从瓶颈上说,如果一个分区里面数据量过大,比如几百万条,一次传入function以后,内存可能不够,...原创 2022-04-13 16:02:51 · 1899 阅读 · 0 评论 -
大数据--spark生态7--spark的shuffle过程详解
目录一: 理解shuffle二: shuffle write2.1 shuffle write的目标2.2 shuffle write的位置2.3 桶(bucket)2.4 默认分区算法2.5 bucket数量太多的解决方案三: shuffle read3.1 在什么时候fetch3.2 边fetch边处理还是一次性fetch完再处理?3.3 fetch来的数据存放在哪?3.4 如何获得要fetch的数据的存放位置?3.5 reduce端的shuffle原创 2022-04-13 14:42:36 · 2766 阅读 · 0 评论 -
大数据--spark生态4--sparkSQL
目录一:rdd转换算子1.1 value类型1.2 key-value类型二:rdd行动算子一:rdd转换算子1.1 value类型map将处理的数据进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。mappartitions将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理。flatMap将处理的数据进行扁平化后再进行映射处理,所以算子也称扁平映射。glom将同一个分区的数据直接转换为相同类型的内存数组进行处原创 2022-03-09 11:17:29 · 2868 阅读 · 0 评论 -
大数据--spark生态3--RDD介绍及其算子
一:RDD创建1.1从文件系统中加载数据创建RDD 采用tex1.2通过并行集合(数组)创建RDD原创 2021-06-06 11:04:13 · 575 阅读 · 0 评论 -
spark生态1--scala语言快速入门(为学习spark而学scala)
目录Scala一:Scala介绍以及Scala安装使用1.1 Scala6个特征。1.2 windows安装,配置环境变量1.3 linux环境下scala的安装二:Scala基础2.1 数据类型2.2 变量和常量的声明2.3 注意问题2.4 循环语句三.Scala方法与函数3.2递归方法3.3 有默认值的方法3.4可变参数的方法3.5匿名函数3.6 嵌套函数3.7偏应用函数3.8 高阶函数3.9 柯里化函数四.字符串五..原创 2021-02-24 20:27:22 · 364 阅读 · 0 评论 -
大数据--spark生态2--spark架构和rdd总结
一:Spark特点运行速度快:Spark使用先进的有向无环图(DAG)执行引擎,以支持循环数据流与内存计算。原创 2021-05-31 19:59:43 · 374 阅读 · 0 评论 -
大数据--spark生态5--sparkStreaming
一:流数据特征数据快速到达 数据来源众多 数据量大 注重数据的整体价值原创 2021-05-31 16:18:01 · 164 阅读 · 0 评论