Hadoop集群简单使用操作

最新推荐文章于 2024-03-01 15:02:21 发布

—QYH—

最新推荐文章于 2024-03-01 15:02:21 发布

阅读量355

点赞数

分类专栏： Hadoop集群简单使用操作文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_43858651/article/details/103795730

版权

本文介绍了Hadoop集群中HDFS的使用，包括查看集群状态、上传下载文件，以及MAPREDUCE的简单应用——wordcount程序的实现过程，包括编写mapper、reducer类和提交job。

摘要由CSDN通过智能技术生成

HDFS使用

1、查看集群状态
命令： hdfs dfsadmin –report

web控制台查看HDFS集群信息，浏览器打开http://hadoop-node-01:50070/

2、上传文件到HDFS
⦁ 查看HDFS中的目录信息
命令： hadoop fs –ls /
⦁ 上传文件
命令： hadoop fs -put ./ scala.txt to /
⦁ 从HDFS下载文件
命令： hadoop fs -get /yarn-site.xml

MAPREDUCE使用

mapreduce是hadoop中的分布式运算编程框架，只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序

wordcount(统计出每一个单词出现的总次数)
mapreduce实现思路

Map阶段：
⦁	从HDFS的源数据文件中逐行读取数据
⦁	将每一行数据切分出单词
⦁	为每一个单词构造一个键值对(单词，1)
⦁	将键值对发送给reduce

Reduce阶段：
⦁	接收map阶段输出的单词键值对
⦁	将相同单词的键值对汇聚成一组
⦁	对每一组，遍历组中的所有“值”，累加求和，即得到每一个单词的总次数
⦁	将(单词，总次数)输出到HDFS的文件中

编码实现
1)定义一个mapper类

//首先要定义四个泛型的类型
//keyin:  LongWritable    valuein: Text
//keyout:

最低0.47元/天解锁文章

—QYH—

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop集群简单使用操作

HDFS使用1、查看集群状态命令： hdfs dfsadmin –reportweb控制台查看HDFS集群信息，浏览器打开http://hadoop-node-01:50070/2、上传文件到HDFS⦁ 查看HDFS中的目录信息命令： hadoop fs –ls /⦁ 上传文件命令： hadoop fs -put ./ scala.txt to /...
复制链接

扫一扫

专栏目录