![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop基础知识
无
斗罗昊天锤
无所谓
展开
-
第七章、Hadoop之MapReduce框架原理(Shuffle机制)
一、简介1、介绍说明Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。2、Shuffle示意图二、Partition分区1、默认分区 问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同的文件中。默认Partitioner分区public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@lin原创 2020-05-24 19:18:39 · 363 阅读 · 0 评论 -
第六章、Hadoop之MapReduce框架原理(MapReduce工作流程)
一、流程示意图1、MapReduce流程示意图12、MapReduce流程示意图2二、流程示意图详解 流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1) MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2) 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3) 多个溢出文件会被合并成大的溢出文件4) 在溢出过程及合并的过程中,都要调用Partitioner进行分区原创 2020-05-24 12:22:34 · 463 阅读 · 0 评论 -
第五章、Hadoop之MapReduce框架原理(InputFormat数据输入)
一、InputFormat数据输入1、切片与MapTask并行度决定机制 1. 问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度? 2. MapTask并行度决定机制数据块: Block是HDFS物理上把数据分成一块一块。数据切片: 数据切片只是在原创 2020-05-24 11:15:37 · 370 阅读 · 0 评论 -
第四章、Hadoop之MapReduce介绍与应用
一、MapReduce的概述1、定义2、MapReduce的优缺点 优点 缺点二、MapReduce的应用1、MapReduce核心思想的示意图步骤:1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非原创 2020-05-18 15:04:23 · 417 阅读 · 0 评论 -
第三章、Hadoop之HDFS的读写与操作
一、HDFS的读数据流程 补充一个问题当我们 NameNode 挂掉,SecondaryNameNode作为新的NameNode上位时,它确实可以根据fsimage.ckpt把一部分元数据加载到内存,可是如果这时还有一部分操作日志在edits new中没有执行怎么办? 解决方案其中一个解决方案就是利用一个network fileSystem来解决,比如说集群中有一个服务器安装了一个nfs server,而在NameNode上再安装一个nfs client,此时客户端向HDFS写数据时,同时把向ed原创 2020-05-15 22:32:38 · 435 阅读 · 0 评论 -
第二章、Hadoop之HDFS介绍与应用
一、原创 2020-05-15 17:52:16 · 482 阅读 · 0 评论 -
第一章、Hadoop应用简单介绍
一、大数据概念二、大数据的特点大量(Volume):顾名思义数据量非常大,达到TB级甚至EB级;高速(Velocity):在处理数据上的速度比较快,分布式的运算;多样性(Variety):在处理数据上可以处理结构化,非结构化的数据以及包括日志、音频、视频、地理位置等多类型的数据,比以往处理数据以文本和结构化的数据提出了更高的要求;价值密度(Value):通过大数据我们可以分析数我们想...原创 2020-05-08 08:28:31 · 599 阅读 · 0 评论