spark生态、flink生态_斑马！的博客-CSDN博客

spark生态、flink生态

关注

文章平均质量分 85

spark

关注数：文章数：7 文章阅读量：9002 文章收藏量：20

作者: 斑马！

本科和研究生就读于某普通一本院校的计算机科学与技术专业，目前研究生三年级，暑期实习拿到美团，阿里，京东等大厂offer；秋招拿到了美团，京东，小米等大厂offer。方向是大数据开发工程师，主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我！

展开

大数据--spark生态6--spark高频面试题（常见算子之间的异同点）

一：map和mappartitions区别 map是对rdd中的每一个元素进行操作，mapPartitions则是对rdd中每个分区的迭代器进行操作；从性能上看，mappartitions的性能较高，举例来说，如果一个partition中有一万条数据，在使用map的时候，function需要执行和计算1万次；使用mappartitions操作的时候，一个task仅仅会执行一次function。从瓶颈上说，如果一个分区里面数据量过大，比如几百万条，一次传入function以后，内存可能不够，...

原创 2022-04-13 16:02:51 · 1899 阅读 · 0 评论
大数据--spark生态7--spark的shuffle过程详解

目录一：理解shuffle二： shuffle write2.1 shuffle write的目标2.2 shuffle write的位置2.3 桶（bucket）2.4 默认分区算法2.5 bucket数量太多的解决方案三： shuffle read3.1 在什么时候fetch3.2 边fetch边处理还是一次性fetch完再处理？3.3 fetch来的数据存放在哪？3.4 如何获得要fetch的数据的存放位置？3.5 reduce端的shuffle

原创 2022-04-13 14:42:36 · 2766 阅读 · 0 评论
大数据--spark生态4--sparkSQL

目录一：rdd转换算子1.1 value类型1.2 key-value类型二：rdd行动算子一：rdd转换算子1.1 value类型map将处理的数据进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。mappartitions将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理。flatMap将处理的数据进行扁平化后再进行映射处理，所以算子也称扁平映射。glom将同一个分区的数据直接转换为相同类型的内存数组进行处

原创 2022-03-09 11:17:29 · 2868 阅读 · 0 评论
大数据--spark生态3--RDD介绍及其算子

一：RDD创建1.1从文件系统中加载数据创建RDD 采用tex1.2通过并行集合（数组）创建RDD

原创 2021-06-06 11:04:13 · 575 阅读 · 0 评论
spark生态1--scala语言快速入门（为学习spark而学scala）

目录Scala一：Scala介绍以及Scala安装使用1.1 Scala6个特征。1.2 windows安装,配置环境变量1.3 linux环境下scala的安装二：Scala基础2.1 数据类型2.2 变量和常量的声明2.3 注意问题2.4 循环语句三.Scala方法与函数3.2递归方法3.3 有默认值的方法3.4可变参数的方法3.5匿名函数3.6 嵌套函数3.7偏应用函数3.8 高阶函数3.9 柯里化函数四.字符串五..

原创 2021-02-24 20:27:22 · 364 阅读 · 0 评论
大数据--spark生态2--spark架构和rdd总结

一：Spark特点运行速度快：Spark使用先进的有向无环图（DAG）执行引擎，以支持循环数据流与内存计算。

原创 2021-05-31 19:59:43 · 374 阅读 · 0 评论
大数据--spark生态5--sparkStreaming

一：流数据特征数据快速到达数据来源众多数据量大注重数据的整体价值

原创 2021-05-31 16:18:01 · 164 阅读 · 0 评论

spark生态、flink生态

作者: 斑马！

大数据--spark生态6--spark高频面试题（常见算子之间的异同点）

大数据--spark生态7--spark的shuffle过程详解

大数据--spark生态4--sparkSQL

大数据--spark生态3--RDD介绍及其算子

spark生态1--scala语言快速入门（为学习spark而学scala）

大数据--spark生态2--spark架构和rdd总结

大数据--spark生态5--sparkStreaming