Hadoop
MapReudce从入门到精通
计算机程序猿
努力考研的博主
展开
-
MapReduce数据分析(10)综合实战
十、MapReduce综合实战 综合实战:环境大数据案列目的 1.学会分析环境数据文件;2.学会编写解析环境数据文件并进行统计的代码;3.学会进行递归MapReduce。案例要求要求实验结束时,每位学生均已在master服务器上运行从北京2016年1月到6月这半年间的历史天气和空气质量数据文件中分析出的环境统计结果,包含月平均气温、空气质量分布情况等。实现原理近年来,...原创 2019-11-15 13:03:31 · 7785 阅读 · 18 评论 -
MapReduce数据分析(9)数据去重
九、MapReduce第九讲数据去重()实现原理分析:map函数数将输入的文本按照行读取, 并将Key–每一行的内容 输出 value–空。reduce 会自动统计所有的key,我们让reduce输出key->输入的key value->空,这样就利用reduce自动合并相同的key的原理实现了数据去重。数据介绍:链家网公司需要对数据进行,找了一些数据分析...原创 2019-11-14 13:09:06 · 2970 阅读 · 0 评论 -
MapReduce数据分析(8)TopN
八、MapReduce第八讲TopK本次教程主要讲TreeMap方法:在搜索引擎领域中,常常需要统计最近最热门的K个查询词,这就是典型的“Top K”问题,也就是从海量查询中统计出现频率最高的前K个。该问题可分解成两个MapReduce作业,分别完成统计词频和找出词频最高的前K个查询词的功能,这两个作业存在依赖关系,第二个作业需要依赖前一个作业的输出结果。第一个作业是典型的WordCount问...原创 2019-11-13 13:27:17 · 3473 阅读 · 0 评论 -
MapReduce数据分析(7)Join操作
七、MapReduce第七讲合表(Join操作)通俗的讲就是把两个文件的内容合到一块。话不多说,我直接上案列一、准备两个数据文件:data.txt:201001 1003 abc201002 1005 def201003 1006 ghi201004 1003 jkl201005 1004 mno201006 1005 pqrinfo.txt:1003 kaka100...原创 2019-11-11 21:23:16 · 1492 阅读 · 1 评论 -
MapReduce数据分析(6)共同好友
六、MapReduce第六讲共同好友(Common friends)某某社交网站,有如下用户好友关系:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J数据...原创 2019-11-02 15:34:14 · 2907 阅读 · 1 评论 -
MapReduce数据分析(5)平均值
五、MapReduce第五讲:平均值(Avg)平均值的话就是通过写MapReduce代码来进行数据的平均值下面我们通过案列来讲解一下吧!案列:对联通流量数据进行分析,要求编写MapReduce代码对数据处理,输出手机号、上行流量、下行流量、平均流量。代码如下:package F;import java.io.IOException;import org.apache.hadoop...原创 2019-11-01 16:48:00 · 3321 阅读 · 0 评论 -
MapReduce数据分析(4)最大值
MapReduce第四讲:Max(最大值)最大值的话小编没有什么可以说的,我相信大家都明白,这次我就直接上案列和代码了。数据如下:案列:编写MapReduce代码获得每年的最高气温。代码:package demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org....原创 2019-11-01 10:21:01 · 3640 阅读 · 0 评论 -
MapReduce数据分析(3)计数器
三、MapReduce第三讲Counter(计数器)在写代码之前我先讲一下:MapReduce计数器是什么?计数器是用来纪录job任务的执行进度和状态。它的作用可以理解为日志,我们可以再进程中插入计数器,来纪录数据的变化情况。Demo:实现自己的一个计数器,统计输入的无效数据。需求:编写代码统计文档大于3个字段和小于3个字段的字段个数数据如下代码如下:package demo...原创 2019-10-30 19:30:22 · 2416 阅读 · 0 评论 -
MapReduce数据分析(2)二次排序
二、MapReduce 第二讲Secondary sort(二次排序)原创 2019-10-29 19:07:17 · 2587 阅读 · 0 评论 -
MapReduce数据分析(1)单词计数
一、MapReduce第一讲WordCount(单词计数)在这里小编做一下简介:MapReduce计算框架。MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)Ma...原创 2019-10-29 19:47:04 · 3214 阅读 · 2 评论