#MapReduce
xxydzyr
愿有岁月可回首,且以深情共白头!@猪头
展开
-
MapReduce的基础概念
MapReduce的基础概念 MapReduce的思想: MapReduce的思想核心:“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 **Map 负责“分”,**即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 **Reduce 负责“合”,**即对 map 阶段的结果进行全局汇总。 一个比较形象的语言解...原创 2019-09-16 15:23:34 · 492 阅读 · 0 评论 -
MapReduce 优化参数
MapReduce 优化参数 文章目录MapReduce 优化参数资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效以下参数应该在 yarn 启动之前就配置在服务器的配置文件中才能生效shuffle 性能优化的关键参数,应在 yarn 启动之前就配置好容错相关参数效率跟稳定性参数 资源相关参数 以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效 m...原创 2019-09-16 15:39:42 · 1611 阅读 · 1 评论 -
MapReduce工作机制详解
MapReduce工作机制详解 文章目录MapReduce工作机制详解MapTask 工作机制简单概述:详细步骤:ReduceTask 工作机制简单概述:详细步骤:Shuffle 机制MapReduce 并行度机制FileInputFormat 切片机制Reducetask 并行度机制Task 并行度经验之谈 MapTask 工作机制 简单概述: input File 通过 split 被逻辑切分...原创 2019-09-16 15:38:48 · 325 阅读 · 0 评论 -
Mapreduce 的 combiner
Mapreduce 的 combiner 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络 IO 性能,是 MapReduce 的一种优化手段之一。 combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件 combiner 组件的父类就...原创 2019-09-16 15:36:48 · 239 阅读 · 0 评论 -
MapReduce编程练习3.0
MapReduce编程练习3.0 3.0需求:这次统计,也不排序,需要把数据按照手机归属地不同省份输出到不同文件中 问题点: 需要输出到不同的文件中 需要按手机归属地进行分组 解析: 修改reducer的数量即可输出多个文件 对于分组,Hadoop默认使用的是key的hash值对reducer个数取余分组,这里实现是通过调用默认的分组类:HashPartitioner进行分区的。 ...原创 2019-09-16 15:35:47 · 606 阅读 · 0 评论 -
MapReduce编程练习2.0
MapReduce编程练习2.0 2.0新需求:不需要统计总流量,需要将所有数据按照总流量倒序排序。 问题点: 增加排序 解析: 这个第一眼看过去有点懵,因为之前都没有说到有排序这个功能,但是我们仔细查看一下初始需求的结果可以发现:key是正序排列的。 即:手机号是正序排列的,Hadoop有一个特性,就是会对key值进行排序,所以我们在遇到排序这个功能的时候可以想是否能将需要排序的字段作为key...原创 2019-09-16 15:34:26 · 219 阅读 · 0 评论 -
MapReduce编程练习1.0
MapReduce编程练习1.0 1.0 初始需求 需求: 有一批数据,手机通过基站上网留下了一下访问数据,数据内容如下,需要统计每一个用户(手机号)所耗费的总上行流量、总下行流量,总流量。 问题点: 按从左至右的顺序,字段的含义:时间戳,手机号,基站地址(表示手机访问的是哪个基站),请求网站的IP,请求网站的域名,请求网站的简介,上行流量个数,下行流量个数,上行总流量,下行总流量,请求的状态...原创 2019-09-16 15:32:23 · 517 阅读 · 0 评论 -
MapReduce程序错误如何排错
MapReduce程序错误如何排错 在MapReduce程序运行的时候,我们可以在yarn的web界面上查看到相关的进程。 一旦出现问题,我们可以先进入yarn的web界面,找到相关进程,然后点击进去。 进入后我们找到日志文件入口。 ...原创 2019-09-16 15:29:53 · 199 阅读 · 0 评论 -
MapReduce Java练习
MapReduce Java练习 练习用到的文件 链接:https://pan.baidu.com/s/1dgVA5y_cSXaNjj0BhfJvtA 提取码:48l1 log4j.properties文件:(这个之前貌似没有给吧) 链接:https://pan.baidu.com/s/1H3Rw1PqhptJC8cNPPixmUg 提取码:28fl 理解了一些基本概念,这里像之前安装eclips...原创 2019-09-16 15:27:58 · 295 阅读 · 0 评论 -
zookeeper的JavaAPI
zookeeper的JavaAPI 代码已经上传至Github:https://github.com/StarsForY/MyBigDatasPractice org.apache.zookeeper.Zookeeper Zookeeper 是在 Java 中客户端主类,负责建立与 zookeeper 集群的会话,并提供方法进行操作。 org.apache.zookeeper.Watcher Wa...原创 2019-06-23 17:23:18 · 153 阅读 · 0 评论