![](https://img-blog.csdnimg.cn/bcda4412154542a786e8582d68450789.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据框架学习
文章平均质量分 92
Hadoop, zookeeper, kafka, spark
一智哇
这个作者很懒,什么都没留下…
展开
-
二、RDD编程
1. 什么是RDD?弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)。RDD 其实就是分布式的元素集合。在Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后,Spark会自动将RDD 中的数据分发到集群上,并将操作并行化执行。RDD是一种对数据集形态的抽象,基于此抽象,使用者可以在集群中执行一系列计算,而不用将中间结果落盘。(这正是之前MR抽象的一个重要痛点,每一个步骤都需要落盘,使得不必要原创 2021-10-29 21:08:11 · 621 阅读 · 1 评论 -
(一)spark是什么?
1.spark是什么?spark是一个用来实现快速,通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理。通过在一个统一的框架下支持这些不同的计算,spark使我们可以简单而低耗地把各种处理流程整合在一起。2.spark的用途(1):数据科学任务具备 SQL、统计、预测建模(机器学习)等方面的经验,以及一定的python,matlab,R语言能力的数据科学家对数据进行分析,以回答问题或发现一些潜在规律。(2):数据处理任务原创 2021-10-29 16:59:18 · 19926 阅读 · 0 评论