Spark
文章平均质量分 90
二道贩子@max
这个作者很懒,什么都没留下…
展开
-
spark基础理论及优化思路(三)
DStream以及基本⼯作原理?DStream是spark streaming提供的⼀种⾼级抽象,代表了⼀个持续不断的数据流。DStream可以通过输⼊数据源来创建,⽐如Kafka、flume等,也可以通过其他DStream的⾼阶函数来创建,⽐如map、reduce、join和window等。DStream内部其实不断产⽣RDD,每个RDD包含了⼀个时间段的数据。Spark streaming⼀定是有⼀个输⼊的DStream接收数据,按照时间划分成⼀个⼀个的batch,并转化为⼀个RDD,RDD的原创 2022-04-07 18:45:20 · 1030 阅读 · 0 评论 -
spark基础理论及优化思路(二)
文章目录Spark工作流程Spark三种提交模式Spark on yarn 的调度RDD 阶段划分RDD任务划分RDD任务切分中间为:Application、Job、Stage、TaskRDD持久化RDD Cache 缓存RDD CheckPoint检查点缓存与检查点区别什么是RDDreduceBykey与groupByKey的区别从shuffle的角度功能角度RDD的五大特点如何使用Spark实现TopN的获取?Spark shuffer原理Spark内存溢出问题内存溢出的场景:解决方案:SparkStr原创 2022-03-28 15:01:46 · 2325 阅读 · 0 评论 -
spark基础理论及优化思路
Spark基础理论及优化思路!!原创 2022-03-24 17:34:14 · 2291 阅读 · 0 评论