Hadoop 实战之单词计数WordCount

本文介绍了Hadoop版的WordCount程序,这是一个简单的MapReduce示例,用于统计文本文件中每个单词的出现次数。通过在Ubuntu环境下设置Hadoop伪分布式集群,上传文件并运行WordCount.java,展示了MapReduce的工作流程。最后,文章展示了运行结果和MapReduce任务的输出信息。
摘要由CSDN通过智能技术生成

大家好,今天给大家介绍Hadoop版的"Hello World" WordCount,单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数

环境:Vmware 8.0 和Ubuntu11.04

第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:


第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:

sudo rm -rf /tmp/*
rm -rf /home/tanglg1987/hadoop-0.20.2/logs
hadoop namenode -format
hadoop datanode -format
start-all.sh
hadoop fs -mkdir input 
hadoop dfsadmin -safemode leave

第三步:给start.sh增加执行权限并启动hadoop伪分布式集群,代码如下:

chmod 777 /home/tanglg1987/start.sh
./start.sh

执行过程如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值