Spark_Dasea96的博客-CSDN博客

Spark

关注

关注数：文章数：4 文章阅读量：5659 文章收藏量：4

作者: Dasea96

人生如歌，写就大赋！Daph地址【https://gitee.com/Da91666/daph】【https://github.com/Da91666/daph】

展开

Spark RDD入门详解

1、Spark RDD概念 RDD即弹性分布式数据集，有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象，分区内部并不会存储具体的数据。 2、Spark RDD分类 1）并行集合接收一个已经存在的Scala集合，然后进行各种并行计算。并行化集合是通过调用SparkContext的parallelize方法，在

原创 2018-01-21 21:55:22 · 4689 阅读 · 0 评论
Spark入门详解

以下用一张思维导图全面并精炼地描述Spark基础知识，包括概念、原理、组成与机制。说明： 1、此思维导图是在综合多篇关于Spark入门文章后获得，不敢保证多高质，但可保证最全面的同时又最精炼，最大程度减少记忆与理解负担。 2、网页中看不清，下载图片即可。 3、若发现有错误，请批评指正。 4、因近期个人事务繁多，又是第一次写博文，图中一些地方的描述过于简洁，但实在没有时间在本篇文章中写明，若有看不懂的地方，请留言。

原创 2018-01-14 18:41:51 · 337 阅读 · 0 评论
Spark RDD Partition

1、概念 RDD内部并行计算的计算单元。尽可能规避Shuffle过程，降低网络开销。 RDD的数据集在逻辑上被划分为多个分片，每一个分片成为分区，分区的格式决定了并行计算的粒度。每个分区的数值计算都是在一个任务中进行的，因此任务的个数是由RDD（准确来说是作业最后一个RDD）的分区数决定的。 2、原理 MapReduce里面的网络传输主要在Shuffle阶段，Shuffle的根本原因

原创 2018-01-28 20:51:50 · 316 阅读 · 0 评论
Spark SQL概念与组成概述

1、Spark SQL概念 Spark SQL是Spark为结构化数据处理而引入的编程模块，提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。 2、Spark SQL组成 1）DataFrame 是一个分布式数据集合，被组织成命名列，相当于具有良好优化技术的关系表。 2）Core 处理数据的输入输出，从不同的数据源获取数据（RDD、Parquet、Json等

原创 2018-02-05 01:45:55 · 317 阅读 · 0 评论

Spark

作者: Dasea96

Spark RDD入门详解

Spark入门详解

Spark RDD Partition

Spark SQL概念与组成概述