Hadoop集群简单使用操作

本文介绍了Hadoop集群中HDFS的使用,包括查看集群状态、上传下载文件,以及MAPREDUCE的简单应用——wordcount程序的实现过程,包括编写mapper、reducer类和提交job。
摘要由CSDN通过智能技术生成
HDFS使用

1、查看集群状态
命令: hdfs dfsadmin –report

web控制台查看HDFS集群信息,浏览器打开http://hadoop-node-01:50070/

2、上传文件到HDFS
⦁ 查看HDFS中的目录信息
命令: hadoop fs –ls /
⦁ 上传文件
命令: hadoop fs -put ./ scala.txt to /
⦁ 从HDFS下载文件
命令: hadoop fs -get /yarn-site.xml

MAPREDUCE使用

mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序

wordcount(统计出每一个单词出现的总次数)
mapreduce实现思路

Map阶段:
⦁	从HDFS的源数据文件中逐行读取数据
⦁	将每一行数据切分出单词
⦁	为每一个单词构造一个键值对(单词,1)
⦁	将键值对发送给reduce

Reduce阶段:
⦁	接收map阶段输出的单词键值对
⦁	将相同单词的键值对汇聚成一组
⦁	对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数
⦁	将(单词,总次数)输出到HDFS的文件中

编码实现
1)定义一个mapper类

//首先要定义四个泛型的类型
//keyin:  LongWritable    valuein: Text
//keyout:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值