Hadoop
文章平均质量分 71
xiejava
这个作者很懒,什么都没留下…
展开
-
Hadoop参数性能调优(一)--总述
根据yahoo架构师Milind Bhandarkar在《Hadoop Application Performance Tuning》中的阐述,Hadoop的性能调优主要分为以下六个方面:原创 2011-05-18 09:46:00 · 2056 阅读 · 0 评论 -
Hadoop源码流程分析4-Task节点执行任务
上节介绍了Task节点向Master节点发送心跳信号,从而接收任务,然后部署和启动任务,本节介绍Task节点具体的执行任务的过程。首先,Task节点根据任务的类型,执行MapTask.run()或者ReduceTask.run()这两个方法,下面分别介绍。 1.原创 2011-09-15 20:34:14 · 1735 阅读 · 0 评论 -
Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务
源码流程分析3-Task节点管理启动任务 1. 代码执行流程1) TaskTracker的启动的时候会加载所有信息,包括利用RPC获得JobTracker 的RPC变量定义为jobClient;TaskTracker.run()方法会去循环向JobTracke原创 2011-07-11 16:00:45 · 1739 阅读 · 0 评论 -
Hadoop0.21.0编译方法
本文介绍在Linux下使用eclipse编译Hadoop0.21.0源码原创 2011-05-04 11:37:00 · 1308 阅读 · 0 评论 -
Hadoop中TeraSort算法分析
1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。转载 2011-04-27 11:46:00 · 837 阅读 · 0 评论 -
Hadoop0.21.0源码流程分析(2)-主节点接收作业
JobTracker功能概述 JobTracker负责调度job的每一个子任务task运行于slave上,并监控它们,如果发现有失败的task就重新运行它。JobTracker一直在等待JobClient通过RPC提交作业,而TaskTracker一直通过RPC原创 2011-06-14 22:00:00 · 1588 阅读 · 0 评论 -
Hadoop使用问题集锦
hadoop使用过程中遇到的问题原创 2011-04-13 09:53:00 · 784 阅读 · 0 评论 -
Hadoop0.21.0源码流程分析(1)-客户端提交作业
Hadoop0.21.0源码流程分析(1)-客户端提交作业原创 2011-05-27 20:47:00 · 1680 阅读 · 0 评论 -
Hadoop学习笔记汇总
初学者最好的中文入门资料。但是这个资料是针对0.18.2版本的,所以对于高版本的用户,有些地方需要注意,安装Hadoop伪分布式模式建议参考这篇文章。hadoop安装成功后,就可以开始跑一跑系统自带的WordCount实例了,参考这篇文章。原创 2011-04-08 17:15:00 · 708 阅读 · 0 评论 -
Hadoop安装教程——单机(伪分布)模式
转自:http://bbs.chinacloud.cn/archiver/showtopic-589.aspxHadoop是MapReduce的开源实现,现在介绍它的单机模式安装方法。实验平台:Ubuntu 10.04,Hadoop0.20,JDK1.6转载 2011-04-06 18:41:00 · 1513 阅读 · 0 评论 -
Hadoop平台优化综述
转载自董的博客本文链接地址: http://dongxicheng.org/mapreduce/hadoop-optimization-0/1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用转载 2011-05-20 17:45:00 · 1811 阅读 · 0 评论 -
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
通过Hadoop自带的Terasort排序程序,测试不同的map task和reduce task数量,对Hadoop性能的影响。 实验数据由程序中的teragen程序生成,数据量为1GB和10GB。原创 2011-05-19 14:40:00 · 5739 阅读 · 2 评论 -
Hadoop Job Tuning
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。转载 2011-05-18 10:57:00 · 1806 阅读 · 0 评论 -
Hadoop参数性能调优(二)--Map and Reduce tasks 数量
Map and Reduce tasks 数量对性能的影响原创 2011-05-18 10:20:00 · 11471 阅读 · 1 评论