Spark学习
BigData_宁仔
这个作者很懒,什么都没留下…
展开
-
Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...
Avoiding Hive JARs 如果不能在应用程序中包含Hive依赖,那么可以忽略Spark的Hive组件,而创建SQLContext,如示例3- 10所示。这提供了大部分相同的功能,但是使用了功能较差的SQL解析器,并且缺少某些基于hive的用户定义函数(udfs)和用户定义的聚合函数(udfs)。 与核心SparkContext和StreamingContext一样,Hive/SQLContext用来加载数据。JSON是一种非常流行的格式,部分原因是它可以很容易地以多种语言加载,而且.原创 2020-06-15 18:26:37 · 208 阅读 · 1 评论 -
spark性能优化 High Performance Spark 学习《 High Performance Spark 》持续更新中
一起学习《High Performance Spark 》 本人想在spark性能优化上深耕一下,最近在学习《High Performance Spark 》这本书,感觉收获挺大,所以和大家分享一下。下面是对书中的内容的简单记录和一些学习理解。 Chapter 2. How Spark Works 1、并行计算 Spark与分布式存储系统(例如HDFS、Cassandra或S3)和集群管理器一起使用,集群管理器用于存储用Spark处...原创 2020-06-07 16:38:42 · 557 阅读 · 1 评论 -
Chapter 3. DataFrames, Datasets, and Spark SQL 学习《 High Performance Spark 》持续更新中...
Chapter 3.DataFrames, Datasets, and Spark SQL Spark SQLand its DataFrames and Datasets 是Spark性能的未来,具有更高效的存储、更高级优化器和更直接的操作序列化数据。这些组件是超级重要为获得最佳spark性能(见图3-1)。 这些都是相对较新的组成部分;在Spark 1.6中介绍了Datasets,在Spark 1.3中介绍了DataFrames,在Spark 1.0中介绍了...原创 2020-06-13 10:53:26 · 151 阅读 · 0 评论 -
Spark Functions on RDDs: Transformations Versus Actions 学习《 High Performance Spark 》持续更新中...
Functions on RDDs: Transformations Versus Actions RDDs上定义了两种类型的函数:动作和转换。Actions是返回一些不是RDD的东西(包括副作用)的函数,而Transformations是返回另一个RDD的函数。每个Spark程序必须包含一个Actions,因为Actions要么将信息带回驱动程序,要么将数据写入稳定存储。Actions是强制评估(求值)一个 Spark program。持久化调用也会强制评估,但通常不会标志Spark作业的结束。将.原创 2020-06-10 10:43:22 · 161 阅读 · 1 评论