Hadoop 实战之单词计数WordCount

最新推荐文章于 2024-05-11 20:28:02 发布

置顶

xiaotom5

最新推荐文章于 2024-05-11 20:28:02 发布

阅读量1.1w

点赞数 1

分类专栏： hadoop 文章标签： linux output input buffer string class

本文链接：https://blog.csdn.net/xiaotom5/article/details/8074791

版权

本文介绍了Hadoop版的WordCount程序，这是一个简单的MapReduce示例，用于统计文本文件中每个单词的出现次数。通过在Ubuntu环境下设置Hadoop伪分布式集群，上传文件并运行WordCount.java，展示了MapReduce的工作流程。最后，文章展示了运行结果和MapReduce任务的输出信息。

摘要由CSDN通过智能技术生成

大家好，今天给大家介绍Hadoop版的"Hello World" WordCount，单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数

环境：Vmware 8.0 和Ubuntu11.04

第一步：首先创建一个工程命名为HadoopTest.目录结构如下图:

第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenode，代码如下：

sudo rm -rf /tmp/*
rm -rf /home/tanglg1987/hadoop-0.20.2/logs
hadoop namenode -format
hadoop datanode -format
start-all.sh
hadoop fs -mkdir input 
hadoop dfsadmin -safemode leave

第三步：给start.sh增加执行权限并启动hadoop伪分布式集群，代码如下:

chmod 777 /home/tanglg1987/start.sh
./start.sh

执行过程如下：

最低0.47元/天解锁文章

xiaotom5

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录