![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 68
yclzh0522
这个作者很懒,什么都没留下…
展开
-
Hadoop RPC机制
Hadoop RPC机制转载:http://www.iteye.com/topic/7099931、心跳机制 心跳的机制大概是这样的: 1) master启动的时候,会开一个ipc server在那里。 2) slave启动时,会连接master,并每隔3秒钟主动向master发送一个“心跳”,将自己的状态信息告诉master,然后master也是通过这个心跳的返回值,转载 2011-10-31 18:44:32 · 1147 阅读 · 0 评论 -
Hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代码段进行了介绍。阅读本文对理解该机制或者深入阅读该部分的hadoop源代转载 2011-11-22 13:14:14 · 1353 阅读 · 0 评论 -
Hadoop MapReduce 任务执行流程源代码详细解析
1 引言1.1 目的该文档从源代码的级别剖析了Hadoop0.20.2版本的MapReduce模块的运行原理和流程,对JobTracker、TaskTracker的内部结构和交互流程做了详细介绍。系统地分析了Map程序和Reduce程序运行的原理。读者在阅读之后会对Hadoop MapReduce0.20.2版本源代码有一个大致的认识。1.2 读者范围如果读者想只是想从原理转载 2011-11-22 13:16:39 · 2300 阅读 · 0 评论 -
UDT协议详细介绍
基于UDP的数据传输协议(UDP-based Data Transfer Protocol,简称UDT)是一种互联网数据传输协议。UDT的主要目的是支持高速广域网上的海量数据传输,而互联网上的标准数据传输协议TCP在高带宽长距离网络上性能很差。 顾名思义,UDT建于UDP之上,并引入新的拥塞控制和数据可靠性控制机制。UDT是面向连接的双向的应用层协议。它同时支持可靠的数据流传输和部分可靠的数据报传转载 2011-11-28 14:33:37 · 28761 阅读 · 0 评论 -
Hadoop中TeraSort算法分析
1、概述1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。2、算法思想实际上,当我们要把传统的串行排序算法设计成并行的排序算法时,通常会想转载 2011-11-28 15:01:31 · 1526 阅读 · 0 评论 -
Sphere/sector 深度剖析之一
本文原创,可以转载, 但必须以超链接形式标明文章原始出处和作者信息 转载请注明: 转载自sin的专栏 http://blog.csdn.net/yclzh0522一,背景介绍: Sector/Sphere系统包括两个组件,一个是Sector分布式文件系统,一个是Sphere并行数据处理框架。 开源的,用C++开发的,遵循Apache 2.0许可证,可以从官网下载 http:原创 2012-05-14 11:46:18 · 2927 阅读 · 0 评论 -
Sphere/sector 深度剖析之二
本文原创,可以转载, 但必须以超链接形式标明文章原始出处和作者信息 转载请注明: 转载自sin的专栏 http://blog.csdn.net/yclzh0522 理解Sphere编程模型 为了介绍Sphere编程模型,举了下面一个例子。假如我们有原创 2012-05-14 16:01:14 · 1320 阅读 · 0 评论