自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...

Avoiding Hive JARs 如果不能在应用程序中包含Hive依赖,那么可以忽略Spark的Hive组件,而创建SQLContext,如示例3- 10所示。这提供了大部分相同的功能,但是使用了功能较差的SQL解析器,并且缺少某些基于hive的用户定义函数(udfs)和用户定义的聚合函数(udfs)。 与核心SparkContext和StreamingContext一样,Hive/SQLContext用来加载数据。JSON是一种非常流行的格式,部分原因是它可以很容易地以多种语言加载,而且.

2020-06-15 18:26:37 208 1

原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...

Chapter 3.DataFrames, Datasets, and Spark SQL Spark SQLand its DataFrames and Datasets 是Spark性能的未来,具有更高效的存储、更高级优化器和更直接的操作序列化数据。这些组件是超级重要为获得最佳spark性能(见图3-1)。 这些都是相对较新的组成部分;在Spark 1.6中介绍了Datasets,在Spark 1.3中介绍了DataFrames,在Spark 1.0中介绍了...

2020-06-13 10:53:26 151

原创 Spark Functions on RDDs: Transformations Versus Actions 学习《 High Performance Spark 》持续更新中...

Functions on RDDs: Transformations Versus Actions RDDs上定义了两种类型的函数:动作和转换。Actions是返回一些不是RDD的东西(包括副作用)的函数,而Transformations是返回另一个RDD的函数。每个Spark程序必须包含一个Actions,因为Actions要么将信息带回驱动程序,要么将数据写入稳定存储。Actions是强制评估(求值)一个 Spark program。持久化调用也会强制评估,但通常不会标志Spark作业的结束。将.

2020-06-10 10:43:22 161 1

原创 spark性能优化 High Performance Spark 学习《 High Performance Spark 》持续更新中

一起学习《High Performance Spark 》 本人想在spark性能优化上深耕一下,最近在学习《High Performance Spark 》这本书,感觉收获挺大,所以和大家分享一下。下面是对书中的内容的简单记录和一些学习理解。 Chapter 2. How Spark Works 1、并行计算 Spark与分布式存储系统(例如HDFS、Cassandra或S3)和集群管理器一起使用,集群管理器用于存储用Spark处...

2020-06-07 16:38:42 557 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除