hadoop
文章平均质量分 79
xiaozhuaixifu
这个作者很懒,什么都没留下…
展开
-
MapReduce 编程之 倒排索引
本文调试环境: ubuntu 10.04 , hadoop-1.0.2 hadoop装的是伪分布模式,就是只有一个节点,集namenode, datanode, jobtracker, tasktracker...于一体。本文实现了简单的倒排索引,单词,文档路径,词频,重要的解释都会在代码注视中。第一步,启动hadoop, 开发环境主要是用eclipse. 在本地文件系统中新建三个原创 2013-11-19 22:23:12 · 1754 阅读 · 0 评论 -
浅谈Hadoop容错机制
简单介绍一下Hadoop中数据存储的可靠性和完整性,其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制、数据存储等。(一)HDFS中NameNode单点问题HDFS这种分布式的存储系统,存在中心结点,那么这个中心结点的可靠性就是整个集群的可靠性的关键,对于版本0.20.x的原创 2013-11-22 14:26:44 · 6607 阅读 · 0 评论 -
MapReduce 工作机制
本文主要内容MapReduce作业的执行流程错误处理机制作业调度机制Shuffle和排序任务执行1.MapReduce任务执行总流程 一个MapReduce作业的执行流程是:代码编程--->job configuration--->提交作业--->Mapper任务的分配执行--->处理中间结果--->Reduce任务分配执行--->完成。如下图:(援引google 图片)原创 2013-11-29 17:38:32 · 1347 阅读 · 0 评论