BigData_宁仔-CSDN博客

原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...

Avoiding Hive JARs 如果不能在应用程序中包含Hive依赖，那么可以忽略Spark的Hive组件，而创建SQLContext，如示例3- 10所示。这提供了大部分相同的功能，但是使用了功能较差的SQL解析器，并且缺少某些基于hive的用户定义函数（udfs）和用户定义的聚合函数（udfs）。与核心SparkContext和StreamingContext一样，Hive/SQLContext用来加载数据。JSON是一种非常流行的格式，部分原因是它可以很容易地以多种语言加载，而且.

2020-06-15 18:26:37 208 1

原创 Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...

Chapter 3.DataFrames, Datasets, and Spark SQL Spark SQLand its DataFrames and Datasets 是Spark性能的未来，具有更高效的存储、更高级优化器和更直接的操作序列化数据。这些组件是超级重要为获得最佳spark性能(见图3-1)。这些都是相对较新的组成部分;在Spark 1.6中介绍了Datasets，在Spark 1.3中介绍了DataFrames，在Spark 1.0中介绍了...

2020-06-13 10:53:26 151

原创 Spark Functions on RDDs: Transformations Versus Actions 学习《 High Performance Spark 》持续更新中...

Functions on RDDs: Transformations Versus Actions RDDs上定义了两种类型的函数:动作和转换。Actions是返回一些不是RDD的东西(包括副作用)的函数，而Transformations是返回另一个RDD的函数。每个Spark程序必须包含一个Actions，因为Actions要么将信息带回驱动程序，要么将数据写入稳定存储。Actions是强制评估（求值）一个 Spark program。持久化调用也会强制评估，但通常不会标志Spark作业的结束。将.

2020-06-10 10:43:22 161 1

原创 spark性能优化 High Performance Spark 学习《 High Performance Spark 》持续更新中

一起学习《High Performance Spark 》本人想在spark性能优化上深耕一下，最近在学习《High Performance Spark 》这本书，感觉收获挺大，所以和大家分享一下。下面是对书中的内容的简单记录和一些学习理解。 Chapter 2. How Spark Works 1、并行计算 Spark与分布式存储系统(例如HDFS、Cassandra或S3)和集群管理器一起使用，集群管理器用于存储用Spark处...

2020-06-07 16:38:42 557 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人