2017年02月_亮亮-AC米兰

05月 03月 02月 01月

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

1.HashPartitioner分区怎么用源码解析? 2.RangePartitioner分区怎么用源码解析? 3.定位分区ID怎么用源码解析? 在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　

2017-02-09 17:23:55 1694

转载二阶段提交，三阶段提交，Paxos

随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题，大型网站的架构也在不断发展。提高大型网站的高可用架构，不得不提的就是分布式。本文主要介绍关于分布式事务，二阶段提交和三阶段提交。在分布式系统中，为了保证数据的高可用，通常，我们会将数据保留多个副本(replica)，这些

2017-02-08 10:17:50 6808

转载 Mongo+Spark

本文转载自：http://www.mongoing.com/tj/mongodb_shanghai_spark 介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的

2017-02-07 16:17:52 1724