2017年06月_一铭

12月 11月 09月 08月 06月 05月 03月 01月

原创 Spark2.0-RDD分区原理分析

Spark分区原理分析介绍分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。一个分区是大型分布式数据集的逻辑块。那么思考一下：分区数如何映射到spark的任务数？如何验证？分区和任务如何对应到本地的数据?Spark使用分区来管理数据，这些分区有助于并行化分布式数据处理，并以最少的网络流量在executors之间发送数据。默认情况下，Spark尝试从靠近

2017-06-20 07:54:29 14944 4

原创 Kafka原理分析-持久化方案设计(Persistence)

Kafka持久化方案的设计 Kafka很大程度上依赖文件系统来存储和缓存消息。有一普遍的认识：磁盘很慢。这让人们怀疑使用磁盘作为持久化的性能。实际上，磁盘是快还是慢完全取决于我们是如何使用它。就目前来说，一个 six 7200rpm SATA RAID-5磁盘线性（顺序）写入的性能能达到600MB/sec，而任意位置写（寻址再写）的性能只有100k/sec。这些线性读写是所有使用模

2017-06-13 16:19:20 3190

原创 Kafka介绍

Kafka简介Apache Kafka是一个分布式消息发布-订阅系统。他最初由LinkedIn开发，后来成为Apache项目的一部分。Kafka是快速、可扩展、分布式的。和其他消息系统（ActiveMQ、RabbitMQ、ZeroMQ等）相比，Kafka有以下优点：分布式系统设计，很容易扩展对于消息的发布和订阅都有非常高的吞吐量支持多用户订阅，在消费失败时自动平衡多个消费者Kafka的逻

2017-06-13 12:09:48 1112

原创 spark2.0原理分析--RDD血缘（RDD Lineage）

本文介绍了RDD的血缘基本概念和形成。血缘是由于RDD的转换操作形成的多个RDD的依赖关系。RDD的血缘不依赖数据的计算。每个RDD都有一个依赖的父RDD的引用的列表，通过这个列表来找到依赖的父RDD，多个RDD的依赖形成了一个DAG图（有向无环图）。这就是RDD的血缘（RDD Lineage）。

2017-06-13 07:23:53 5755

原创 spark-2.0原理分析-shuffle过程

shuffle概览shuffle过程概览shuffle数据流概览shuffle数据流shuffle工作流程在运行job时，spark是一个stage一个stage执行的。先把任务分成stage，在任务提交阶段会把任务形成taskset，在执行任务。 spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages：例如：ShuffleRDD/CoGrouped

2017-06-13 07:13:06 15370 1