HDFS使用
1、查看集群状态
命令: hdfs dfsadmin –report
web控制台查看HDFS集群信息,浏览器打开http://hadoop-node-01:50070/
2、上传文件到HDFS
⦁ 查看HDFS中的目录信息
命令: hadoop fs –ls /
⦁ 上传文件
命令: hadoop fs -put ./ scala.txt to /
⦁ 从HDFS下载文件
命令: hadoop fs -get /yarn-site.xml
MAPREDUCE使用
mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序
wordcount(统计出每一个单词出现的总次数)
mapreduce实现思路
Map阶段:
⦁ 从HDFS的源数据文件中逐行读取数据
⦁ 将每一行数据切分出单词
⦁ 为每一个单词构造一个键值对(单词,1)
⦁ 将键值对发送给reduce
Reduce阶段:
⦁ 接收map阶段输出的单词键值对
⦁ 将相同单词的键值对汇聚成一组
⦁ 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数
⦁ 将(单词,总次数)输出到HDFS的文件中
编码实现
1)定义一个mapper类
//首先要定义四个泛型的类型
//keyin: LongWritable valuein: Text
//keyout: