- 博客(4)
- 收藏
- 关注
原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...
Avoiding Hive JARs 如果不能在应用程序中包含Hive依赖,那么可以忽略Spark的Hive组件,而创建SQLContext,如示例3- 10所示。这提供了大部分相同的功能,但是使用了功能较差的SQL解析器,并且缺少某些基于hive的用户定义函数(udfs)和用户定义的聚合函数(udfs)。 与核心SparkContext和StreamingContext一样,Hive/SQLContext用来加载数据。JSON是一种非常流行的格式,部分原因是它可以很容易地以多种语言加载,而且.
2020-06-15 18:26:37
208
1
原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...
Chapter 3.DataFrames, Datasets, and Spark SQL Spark SQLand its DataFrames and Datasets 是Spark性能的未来,具有更高效的存储、更高级优化器和更直接的操作序列化数据。这些组件是超级重要为获得最佳spark性能(见图3-1)。 这些都是相对较新的组成部分;在Spark 1.6中介绍了Datasets,在Spark 1.3中介绍了DataFrames,在Spark 1.0中介绍了...
2020-06-13 10:53:26
151
原创 Spark Functions on RDDs: Transformations Versus Actions 学习《 High Performance Spark 》持续更新中...
Functions on RDDs: Transformations Versus Actions RDDs上定义了两种类型的函数:动作和转换。Actions是返回一些不是RDD的东西(包括副作用)的函数,而Transformations是返回另一个RDD的函数。每个Spark程序必须包含一个Actions,因为Actions要么将信息带回驱动程序,要么将数据写入稳定存储。Actions是强制评估(求值)一个 Spark program。持久化调用也会强制评估,但通常不会标志Spark作业的结束。将.
2020-06-10 10:43:22
161
1
原创 spark性能优化 High Performance Spark 学习《 High Performance Spark 》持续更新中
一起学习《High Performance Spark 》 本人想在spark性能优化上深耕一下,最近在学习《High Performance Spark 》这本书,感觉收获挺大,所以和大家分享一下。下面是对书中的内容的简单记录和一些学习理解。 Chapter 2. How Spark Works 1、并行计算 Spark与分布式存储系统(例如HDFS、Cassandra或S3)和集群管理器一起使用,集群管理器用于存储用Spark处...
2020-06-07 16:38:42
557
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人