- 博客(3)
- 资源 (8)
- 收藏
- 关注
转载 Spark分区器HashPartitioner和RangePartitioner代码详解
1.HashPartitioner分区怎么用源码解析? 2.RangePartitioner分区怎么用源码解析? 3.定位分区ID怎么用源码解析? 在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。
2017-02-09 17:23:55 1694
转载 二阶段提交,三阶段提交,Paxos
随着大型网站的各种高并发访问、海量数据处理等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。 为了解决这样一系列问题,大型网站的架构也在不断发展。提高大型网站的高可用架构,不得不提的就是分布式。本文主要介绍关于分布式事务,二阶段提交和三阶段提交。 在分布式系统中,为了保证数据的高可用,通常,我们会将数据保留多个副本(replica),这些
2017-02-08 10:17:50 6808
转载 Mongo+Spark
本文转载自:http://www.mongoing.com/tj/mongodb_shanghai_spark 介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的
2017-02-07 16:17:52 1724
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人