spark
YuBx
热爱是藏不住的、
展开
-
Spark Streaming之基础知识
Spark Streaming之基础知识 一、概叙 Spark Streaming是spark的核心API的扩展,用于构建弹性、高吞吐量、容错的在线数据流的流式处理程序 数据源多种,可来自kafka、flume、HDFS等 数据输出到HDFS、数据库、可视化界面 处理的数据是一批,属于微批处理 批处理间隔是 Spark Streaming 的核心概念和关键参数,它决定了 Spark Streaming 提交作业的频率和数据处理的延迟,同时也影响着数据处理的吞吐量和性能 它提供了一个高级抽象DStream,原创 2020-11-25 17:22:26 · 300 阅读 · 0 评论 -
Spark Sql之基础知识
Spark Sql之基础知识 一、Spark SQL概述 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块 Spark SQL比Spark core执行效率快,内部做了一些额外的优化 Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD,一个是DataFrame,一个是DataSet 二、Spark SQL特点 易整合:无缝的整合了SQL查询和spark编程 统一的数据访问方式:使用相同的方式连接不同的数据源原创 2020-11-20 11:09:37 · 253 阅读 · 0 评论 -
Spark Core之基础知识
Spark Core之基础知识 一、RDD概叙 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象 在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合 二、RDD的五个主要属性 多个分区. 分区可以看成是数据集的基本组成单位 计算每个切片(分区)的函数 与其他 RDD 之间的依赖关系 对存储键值对的 RDD, 还有一个可选的分区器 存储每个切片优先(preferred location)位置的列表原创 2020-11-17 12:00:23 · 197 阅读 · 0 评论 -
Spark基础知识
Spark基础知识 一、Spark概叙 spark是一个基于内存计算并且快速、通用、可扩展的集群计算引擎 spark目前是Apache最活跃的开源项目 二、Spark特点 快速性:基于内存计算,比MapReduce快一百倍 通用性:提供了大量的类库, 包括 SQL 和 DataFrames, 机器学习(MLlib), 图计算(GraphicX), 实时流处理(Spark Streaming),可以把这些类库无缝的柔和在一个 App 中;它还结合了SQL, Streaming和复杂分析 易用性:支持 S原创 2020-11-12 20:45:16 · 184 阅读 · 0 评论