MapReduce
文章平均质量分 90
MapReduce概念,具体应用,操作示例,代码演示
Z_Data
大学计算机专业老师一枚,高级开发工程师,专注大数据相关技术分享,实战项目开发。
展开
-
Hadoop分布式计算框架(MapReduce)——案例实践:气象大数据离线分析
数据格式由Year(年)、Month(月)、Day(日)、Hour(时)、Temperature(气温)、Dew(湿度)、Pressure(气压)、Wind dir.(风向)、Wind speed(风速)、Sky Cond.(天气状况)、Rain 1h(每小时降雨量)、Rain 6h(每6小时降雨量)组成。打包成功后,在项目的targer目录下找到编译好的bigdata-1.0-SNAPSHOT.jar包,然后将其上传至/home/hadoop/shell/lib目录下(没有相关目录可手动创建)原创 2023-12-21 16:46:18 · 1600 阅读 · 5 评论 -
Hadoop分布式计算框架(MapReduce)——MapReduce运行机制
它首先为Map任务发出请求,该请求优先级要高于Reduce任务的请求,这是因为所有的Map任务必须在Reduce的排序阶段能够启动前完成,直到有5%的Map任务已经完成时,为Roduce任务的请求才会发出。在Map任务和Reduce任务运行时,子进程和自己的父Application Master通过接口进行通信,默认每隔3s,任务通过这个接口向自己的Application Master报告进度和状态(包括计数器), Application Master会形成一个作业的汇聚视图。原创 2023-12-21 16:37:12 · 145 阅读 · 0 评论 -
Hadoop分布式计算框架(MapReduce)—— MapReduce的编程模型
从MapReduce自身的命名特点可以看出,MapReduce由Map和Reduce两个部分组成。用户只需实现Mapper和Reducer两个抽象类,编写map和reduce两个函数,即可完成简单的分布式程序的开发。这就是最简单的MapReduce编程模型。原创 2023-12-21 14:44:12 · 422 阅读 · 0 评论 -
Hadoop分布式计算框架(MapReduce)——初识MapReduce
MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce是一个并行程序的计算模型与方法MapReduce是一个并行程序运行的软件框架MapReduce是一个基于集群的高性能并行计算平台。原创 2023-12-21 14:30:23 · 172 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 自定义OutputFormat
需求 现有一些原始日志需要做增强解析处理,流程: (1)从原始日志文件中读取数据 (2)根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 (3)如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录。 实现的需求是: 默认reduce执行后,输出数据的目的文件是固定的一个文件,那怎样实现根据数据的不同...原创 2018-11-11 17:33:30 · 261 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- MapReduce中压缩设置
MapReduce中reduce执行完后,输出处理后的数据文件,那么该文件是可以被进行压缩处理的。 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...原创 2018-11-11 17:33:10 · 386 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 多表连接
第一张表的内容:login:uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 1 2017-04-13 02:16:256 2 2017-04-13 01:15:207 1 20...原创 2018-11-10 10:10:33 · 849 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------- 两个表的简单join操作
待处理数据 内容如下 表1: child parent 张三 王阿姨 张三 张大叔 张张 王阿姨 张张 张大叔 王阿姨 王奶奶 王阿姨 王大爷 张大叔 张奶奶 张大叔 张大爷处理后的数据 内容如下 输出数据:grandchild grandparent *张三 张大爷 *张三 张奶奶 *张三 王奶奶 *张三 王大爷 *张张 张大爷 *张张 张奶奶 ...原创 2018-11-10 09:48:05 · 1207 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 简单排序
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....原创 2018-11-10 08:49:41 · 205 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------- Combiner
combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件的父类就是Reducer combiner和reducer的区别在于运行的位置: Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果; combiner的意义就是对每一个maptask的输出进行...原创 2018-11-09 08:53:49 · 250 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 -------- 过滤敏感词汇
一篇文章 article.txt 内容如下 :We ask that you please do not send us emails privately asking for support. We are non-paid volunteers who help out with the project and we do not necessarily have the time o...原创 2018-11-09 08:53:40 · 1490 阅读 · 1 评论 -
结合案例讲解MapReduce重要知识点 ------------- 去除重复
去除文件中重复的行import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;...原创 2018-11-09 08:53:29 · 1114 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------------- partition分区
Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask默认的分发规则为:根据key的hashcode%reducetask数来分发,所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分组)组件Partitioner。 自定义一个CustomPartitioner继承抽象类:Partitioner 然后在job对象中,设置自定义...原创 2018-11-09 08:52:58 · 551 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------- 多文件输出
将MR处理后的结果数据输出到多个文件中import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...原创 2018-11-09 08:53:08 · 261 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------ 获取文件名
在map运行时获取被处理数据所在文件的文件名import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....原创 2018-11-09 08:53:19 · 329 阅读 · 0 评论 -
MapReduce运行机制全流程 -------- 包括shuffle机制详解(附图)
目录 1 概述2 主要流程3 流程细分1、由wordcount案例执行开始分步演示mapreduce运行逻辑(较粗,但对初学者理解mr有帮助)2、MR结合yarn运行逻辑3、MR客户端程序业务流程4、MRAppmaster控制map与reduce运行的工作流程5、shuffle流程1 概述mapreduce中,map阶段处理的数据如何传递给reduce阶...原创 2018-11-12 09:15:21 · 931 阅读 · 0 评论 -
MapReduce经典案例 ------- 学生成绩处理
目录算每个人的平均成绩求每个学科的平均成绩总平均分每个分数段的人数以及百分比将三门课程中任意一门不及格的学生过滤出来统计成材率每一门成绩都大于60分的人数/总人数待处理数据内容:学生成绩表 名字 语文 数学 英语 lh 92 68 70 zyt 94 88 75 ls 96 78 ...原创 2018-11-09 08:52:23 · 3719 阅读 · 1 评论 -
MapReduce经典案例 -------- 统计最高温度
需求:求给定日期的最高温度待处理数据内容: 201701082.6 201701066 2017020810 2017030816.33 2017060833.0每一行的前8位是日期,从第8位往后是温度代码import java.io.IOException;import org.apache.hadoop.conf.Configuration;...原创 2018-11-09 08:51:55 · 2636 阅读 · 0 评论 -
MapRecue实例开发 ------ 编程篇(经典wordcount程序编写)
目录 1、 编程步骤2、 经典的wordcount程序编写编写代码1、 编程步骤 用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) Mapper的输入数据是KV对的形式(KV的类型可自定义) Mapper的输出数据是KV对的形式(KV的类型可自定义) Mapper中的业务逻辑写在map()方法...原创 2018-11-08 11:30:42 · 444 阅读 · 0 评论 -
mapreduce概述 ------- 快速入门篇
MapReduce是什么mapreduce:分布式并行离线计算框架,是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 与HDFS解决问题的原理类似,HDFS是将大的文件切分成若干小文件,然后将它们分别存储到集群中各个主...原创 2018-11-08 11:17:20 · 359 阅读 · 0 评论