自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 SparkSQL总结1概念

SparkSQL介绍Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spar...

2019-08-15 14:47:08 58

原创 Spark Core文本文件输入输出

Spark文本文件输入输出1.文本文件输入输出textFile 进行文本文件的读取ps:如果传递目录,则将目录下的所有文件读取作为RDDsaveAsTextFile 进行文本文件的输出ps:将传入的路径作为目录对待,会在那个 目录下输出多个文件2.JSON文件输入输出JSON文件中每一行就是一个JSON记录,那么可以通过将JSON文件当做文本文件来读取,然后利用相关的JSON库对每一...

2019-08-15 14:39:21 125

原创 Spark Core 累加器、广播变量

Accumulator累加器(重要)累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱 动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本, 更新这些副本的值也不会影响驱动器中的对应变量。 如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。Spark提...

2019-08-15 14:36:45 75

原创 Spark Core 自定义排序、分区

自定义排序(重要)spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件以利用自定义排序来实现import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//自定义排序object CustomSortTest {def main(args: Array[String]): U...

2019-08-15 14:34:29 159

原创 Spark集群启动流程和任务提交流程

2019-08-15 10:47:59 59

原创 Spark Core 总结1-RDD的缓存、checkpoint

RDD的缓存(持久化)Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。如果一个有持久化数据的节点发...

2019-08-15 10:47:02 57

原创 Spark Core 总结1-RDD的任务划分

DAG有向无环图如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。ps:通俗的来说就是有方向,没有回流的图可以称为有向无环图相对复杂的DAGRDD任务的划分原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成...

2019-08-15 10:44:16 69

原创 Spark Core总结2-RDD

RDD的函数传递主要是序列化的问题,对象在JVM中表示的方式是字节序列化的产生是为了分布式的程序,现在需要将这个对象从Driver传递给Executor,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化那么说一个场景:spark是一个分布式的计算框架,当从Driver端将数据传递到Executor的时候就需要进行序列化//定义了一个类这里的...

2019-08-15 10:39:10 62

原创 Spark总结1

spark框架体系先通过flume采集数据,然后可以用MapReduce对数据进行清洗和分析,之后存储到HBase,也相当于存储到HDFS中。hadoop优缺点优点 :1.高可靠性:Hadoop按位存储和处理数据的能力强大;2. 高扩展性:Hadoop是在高可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中;3.高效性:Hadoop能在节点中动态移动数...

2019-08-15 10:29:48 106

原创 Spark总结2-IDEA中的Spark工程

IDEA中的Spark工程对工程中的pom.xml文件配置<!-- 声明公有的属性 --><properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compi...

2019-08-15 10:29:33 103

原创 Spark Core 总结1-RDD

RDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。在之前学习MR的过程中对数据是没有进行...

2019-08-15 10:29:00 48

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除