自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (8)
  • 收藏
  • 关注

转载 Spark分区器HashPartitioner和RangePartitioner代码详解

1.HashPartitioner分区怎么用源码解析? 2.RangePartitioner分区怎么用源码解析? 3.定位分区ID怎么用源码解析?       在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。   

2017-02-09 17:23:55 1694

转载 二阶段提交,三阶段提交,Paxos

随着大型网站的各种高并发访问、海量数据处理等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。     为了解决这样一系列问题,大型网站的架构也在不断发展。提高大型网站的高可用架构,不得不提的就是分布式。本文主要介绍关于分布式事务,二阶段提交和三阶段提交。     在分布式系统中,为了保证数据的高可用,通常,我们会将数据保留多个副本(replica),这些

2017-02-08 10:17:50 6808

转载 Mongo+Spark

本文转载自:http://www.mongoing.com/tj/mongodb_shanghai_spark 介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的

2017-02-07 16:17:52 1724

IK中文分词器原理

详细讲解IK分词器原理

2017-05-12

Spark1.4.1 RDD算子详解

结合代码详细描述RDD算子的执行流程,并配上执行流程图

2017-03-02

从PAXOS到ZOOKEEPER分布式一致性原理与实践

从PAXOS到ZOOKEEPER分布式一致性原理与实践

2017-02-07

Spark-Sql源码解析

详细描述了Spark-sql的原理,从sql语句如何转换为逻辑计划,然后是物理计划,最后是rdd

2016-08-22

kafka源码解析新手版本

kafka源码解析,适合新手,免积分下载

2016-04-11

linux同时监控cpu磁盘网络的工具nmon

linux同时监控cpu磁盘网络的工具nmon,可以方便性能调优的时候观察服务器的性能瓶颈

2016-02-02

SparkCore源码阅读

绝对原创,SparkCore源码阅读,适合新手

2016-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除