Hadoop
xw13106209
喜欢交朋友
展开
-
Hadoop示例程序WordCount详解及实例
部分参考:http://www.javaeye.com/topic/606962package com.felix;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io原创 2011-01-04 20:30:00 · 39025 阅读 · 6 评论 -
hadoop搭建注意事项汇总
以前都是在单机模式下搭建hadoop进行运作,今天试着在两台机器上搭建,就出现了一堆问题。现在汇总注意事项1.Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户我第一台机器上使用都用户名是hadoop,第二台使用都就是xuwei了,原创 2011-10-08 14:58:42 · 2952 阅读 · 1 评论 -
mapreduce调试查询System.out的结果
1.前言刚接触mapreduce的人肯定为碰到这样的问题,就是我们在程序中如下类似的命令System.out.println(year+" "+airTemperature);//无效,控制台没有输出。但是console控制台不给我们输出相应的结果,这对于很多通过System.out来调试的人来说,会是一个很头疼的事情,我也对这个很头疼。昨天在看《hadoop权威指南第二版》的第五章的原创 2011-10-23 09:44:49 · 11876 阅读 · 1 评论 -
Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上原创 2011-10-27 20:53:43 · 11540 阅读 · 2 评论 -
win7+Cygwin+Eclipse搭建Hadoop开发环境
参考文献:http://wildrain.iteye.com/blog/1164608原创 2011-11-01 07:39:03 · 4932 阅读 · 0 评论 -
mapreduce 新旧API 区别
在hadoop 权威指南中有说明,原文如下:The new Java MapReduce APIRelease 0.20.0 of Hadoop included a new Java MapReduce API, sometimes referred to as “Context Objects,” designed to make the API easier to evolve原创 2011-11-01 12:28:31 · 9220 阅读 · 1 评论 -
hadoop实例sort
参考文献:http://www.hadooper.cn/dct/page/657771排序实例排序实例仅仅用 map/reduce框架来把输入目录排序放到输出目录。输入和输出必须是顺序文件,键和值是BytesWritable.mapper是预先定义的IdentityMapper,reducer 是预先定义的 IdentityReducer, 两个都是把输入直接的输出。要运行这个例原创 2011-10-17 14:04:17 · 7467 阅读 · 3 评论 -
hadoop中的测试程序
TestDFSIOtestmapredsort。随机写程序randmwriter再跑一遍。弄清楚里面参数如何配置。原创 2011-11-02 19:27:04 · 1412 阅读 · 0 评论 -
hadoop中的配置文件
在前面搭建hadoop开发环境的时候,我们讲过需要对hadoop进行一些配置,其中用到的配置文件放在{hadoop_home}/conf目录下,主要有core-site.xml,hdfs-site.xml,mapred-site.xml这几个文件。但是后来想到一个问题,hadoop的配置信息只有这么一点点吗?答案肯定是否定的,但是我又找不到其他的配置文件。今天无意中打开hadoop-0.20.1-原创 2011-11-03 08:24:50 · 2151 阅读 · 0 评论 -
hadoop实例 RandomWriter
参考文献:http://www.hadooper.cn/dct/page/657781.概述RandomWriter(随机写)例子利用 Map/Reduce把 数据随机的写到dfs中。每个map输入单个文件名,然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出,所以reduce没有执行。产生的数据是可以配置的。配置变量如下名原创 2011-10-17 13:44:44 · 4541 阅读 · 1 评论 -
eclipse运行wordcount参数配置
要想wordcount在hadoop上运行,那么必须为wordcount程序指定输入路径和输出路径。输入路径是我们要进行词频统计的文本文件,在这里我们的文件名是20417.txt。而输出路径是词频统计结果存放的路径。如下图所示,是进行参数配置:WordCount.java->右键原创 2011-10-09 14:17:47 · 10609 阅读 · 3 评论 -
ubuntu下hadoop配置指南
目录1.实验目的2.实验内容(hadoop伪分布式与分布式集群环境配置)3.运行wordcount词频统计程序一 . 实验目的通过学习和使用开源的 Apache Hadoop工具,亲身实践云计算环境下对海量数据的处理,理解并掌握分布式的编程模式 MapRedu原创 2011-10-09 15:45:53 · 15931 阅读 · 1 评论 -
Hadoop WordCount改进实现正确识别单词以及词频降序排序
package org.apache.hadoop.examples;import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import原创 2011-01-07 15:21:00 · 13295 阅读 · 4 评论 -
Hadoop下进行反向索引(Inverted Index)操作
参考资料:代码参考1:http://www.pudn.com/downloads212/sourcecode/unix_linux/detail999273.html理论参考2:http://zhangyu8374.javaeye.com/blog/86307在eclipse下创建map/reduce项目InvertedIndex,然后将参考1中的src目录拷贝到项目目录下替换原有src目录。在本地创建文件夹IndexTest并在里面创建3个文件,每个文件中的内容如下。 * T0 =原创 2011-01-07 19:26:00 · 6522 阅读 · 1 评论 -
Hadoop平台实验报告
1. 前言 通过基于MapReduce云计算平台的海量数据处理实验,我们了解了Hadoop的基本架构,已经如何编写MapReduce程序,本实验中我主要使用到的两个程序分别是WordCount(词频统计)和InvertedIndex(反向索引)。在将这两个程序之前,我会介绍我对Hadoop的理解。 2. Hadoop简介及特性 2.1. Hadoop分布式文件系统(HDFS) Hadoop原创 2011-06-10 12:56:00 · 13514 阅读 · 0 评论 -
经典Hadoop书籍介绍
1.Hadoop: The Definitive Guide(Hadoop权威指南) 这本书很全,Hadoop中的圣经级教材,不过看起来挺累。 内容简介 Discover how Apache Hadoop can unleash the power of your data. This comprehensive resource shows you how to build and ma原创 2011-06-10 13:08:00 · 12154 阅读 · 0 评论 -
错误Name node is in safe mode的解决方法
将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的原创 2011-10-12 13:30:12 · 48122 阅读 · 3 评论 -
eclipse安装hadoop插件
如果安装的是hadoop-0.20.2,那么eclipse-plugin的具体位置位在:/home/hadoop/hadoop-0.20.2/contrib/eclipse-plugin下面。如果安装的是hadoop-0.21.0,那么eclipse-plugin的具体位置位原创 2011-01-06 15:46:00 · 7272 阅读 · 5 评论 -
ubuntu下修改计算机名
一台电脑只有一个计算机名,但是可以有多个用户。当我们打开终端terminal的时候,会看到第一行为:hadoop@xuwei-laptop:~$ 这就表示当前用户名为:hadoop,计算机名为xuwei-laptop。那么我们如何修改计算机名呢需要输入命令sudo g原创 2011-10-08 09:33:46 · 5252 阅读 · 1 评论 -
错误ipc.Client: Retrying connect to server:master/192.168.0.55解决方法
很诡异的一个问题,为的整个conf文件中没有一个是关于master的,但是想让wordcount在java application下运行,就会出现上述错误。网上找了一些资料说是localhost对应的是127.0.0.1,而和当前的192.168.0.42的ip不相同造成的。原创 2011-10-09 22:47:40 · 20192 阅读 · 0 评论 -
Ubuntu-10.10如何给用户添加sudo权限
原文出处:http://hi.baidu.com/xiboliya/blog/item/015ead864e041b2a67096eda.htmlUbuntu-10.10系统安装过程中,系统会提示建立一个默认用户,比如用户名为:xuwei。这个默认用户具有一定的管理功能,转载 2011-10-09 10:02:31 · 11388 阅读 · 0 评论 -
命令行运行hadoop实例wordcount程序
参考1:http://www.cnblogs.com/flying5/archive/2011/05/04/2078408.html需要说明的有以下几点。1.如果wordcount程序不含层次,即没有package那么使用如下命令:hadoop jar wordcount.jar WordCount2 /home/hadoop/input/20418.txt /home/had原创 2011-10-11 13:51:45 · 25272 阅读 · 0 评论