大数据
文章平均质量分 57
wangyangmingtian
这个作者很懒,什么都没留下…
展开
-
初始spark(四)之spark存储管理
我们在使用spark进行数据相关的操作的时候,经常会用到的是RDD,但是我们也都知道RDD是一个抽象的数据集,并不是真正的数据存储的地方,RDD使我们对数据的操作更方便,其实RDD的出现避免了我们对数据存储底部的接触,可以更方便的编写我们的应用。其实数据的存储都是由spark的存储管理模块实现和管理的。spark存储管理模块的整体架构:从架构上可以将存储架构管理模块分为通信层和存储层两个部分。...原创 2020-04-29 15:44:02 · 244 阅读 · 0 评论 -
认识ETL
大数据中经常会遇到的一个概念就是ETL,接下来就来探讨一下ETLETL是指将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,主要的作用就是将企业的一些杂乱无章的数据进行一个汇总,为相关的企业提供数据的支持。ETL主要分为了三个阶段:数据抽取、数据清洗转换、数据的加载。数据的抽取:就是从原始的数据源中将数据抽取到ODS层。在数据抽取的时候,首先需要进行相关的调研,比如数据的存储...原创 2020-04-29 14:32:08 · 331 阅读 · 0 评论 -
初始spark(二)之RDD
我们都知道spark是能够并行的计算,并且是基于内存的,这大大的提升了计算的效率,spark在进行计算的时候,需要借助于SparkContext(驱动程序器),将数据分散到集群中,并在节点中并行的开启计算,最终再将计算的结果进行汇总。一:RDD提到数据计算,不得不提到spark中的一个重要的概念,那就是RDD(弹性分布式数据集),从名称来看便知RDD是分布在集群中的,spark计算主要是针...原创 2020-04-10 15:23:39 · 280 阅读 · 0 评论 -
初始spark(一)
spark定义: spark是一个实现快速通用的集群计算平台。通用内存并行计算框架,主要用来构建大型的、低延迟的数据分析应用程序。spark优点: 使用spark肯定有其特别之处,spark在计算数据的时候与MapReduce相比,spark的计算是基于内存的,并可以依赖内存机型复杂的计算,这在计算的速度上有大的提升,相比较MapReduce有很大的性能...原创 2020-04-10 15:18:39 · 119 阅读 · 0 评论