wordcount单词词频统计

WordCount是大数据处理的入门示例,通过MapReduce的map、shuffle和reduce阶段实现单词计数。文章详细阐述了编程思路,包括map阶段的切分与标记,shuffle阶段的排序与分组,以及reduce阶段的求和操作。此外,还介绍了如何在HDFS上运行WordCount程序及查看结果。
摘要由CSDN通过智能技术生成

词出的总

1、WordCount概述

WordCount算是大数计算域经的入案例相当Hello World

虽然WordCount业务极其简,但希望够通案例受背MapReduce的执行流程和默认行为,这 才是关键。

 

 

 2、WordCount编程实现思路

map阶段的核心:把输入数据过切,全标记1此输就是<,1>shuffle阶段核心:MR程序内部自默认排序组等能,key相同的单词会作为一组数构成kv

lreduce阶段核心:处理shuffle完的一组数,该数据是该词所的键对。所有1行累求和就是 单词的总次数。

 3、WordCount程序提交

上传课程资料中的文本文件1.txt到HDFS文件系统的/input目录下,如果没有个目,使用shell创建

hadoop fs -mkdir /input  

hadoop fs -put 1.txt /input

准备好之后,执行官方 MapReduce 实例,对上述 件进 单词 数统计 第一个参数 :wordcount 表示执行 词统 任务;

第二个参数:指定输入件的径;

第三个参数:指定输出果的径(路径能已在);

h

[root@node1 mapreduce]# pwd
/export/server/hadoop-3.3.0/share/hadoop/mapreduce
[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount
/input /output

4、WordCount执行结果

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值