Hadoop
文章平均质量分 92
Hadoop
ZikH~
热爱大数据 喜欢sql
展开
-
【Hadoop】MapReduce (七)
在大数据开发环境中,虽然实际处理的文件大部分都是大文件,但是依然无法避免产生小文件一般而言,如果文件大小≤Block*0.8,那么此时就认为这是一个小文件。实际过程中,一般认为不超过100M的文件就是小文件小文件在分布式环境下的问题目前对小文件的处理方案无非两种:合并(merge)和打包MapReduce提供了一种原生的打包方案:,将多个小文件打成一个包数据倾斜在集群中,因为处理的数据量不均等导致任务执行时间不一致而产生的等待,称之为数据倾斜数据倾斜可能发生在Map端,也可能会发生在Reduce原创 2024-05-09 08:40:55 · 715 阅读 · 8 评论 -
【Hadoop】YARN (八)
YARN Scheduler目前支持三种调度器:FIFO Scheduler(先进先出调度器)、Capacity Scheduler(容量调度器)、Fair Scheduler(公平调度器)在Hadoop3.2.4中,默认使用的是。原创 2024-05-09 08:40:38 · 575 阅读 · 0 评论 -
【Hadoop】MapReduce (六)
InputFormat发生在Mapper之前,用于对数据进行切分和读取,会将读取到的数据传递给MapTask处理。所以InputFormat读取到的数据是什么格式,Mapper接收到的数据就是什么格式作用getSplits默认情况下,MapReduce中使用的输入格式是继承了。需要注意的是,负责切片,负责读取切片过程中需要注意的问题:默认情况下,minSplitSize=1B,maxSplitSize=Long.MAX_VALUE在MapReduce中,开头的文件默认是隐藏文件不处理。原创 2024-05-06 17:03:02 · 1159 阅读 · 0 评论 -
【Hadoop】MapReduce (五)
默认情况下,MapReduce中,只有一个1个分区,所以也只有1个ReduceTask。在AVRO的基础上,MapReduce进行了封装,从而简化了序列化操作 - 让需要被序列化的对象对应的类实现接口。可以传递结果的运算,可以使用Combiner,例如求和、求积、去重、取最值等;在MapReduce中,各个节点之间基本上都是通过RPC的方式来进行调用,也因此要求传输的数据必须被序列化。由于AVRO的限制,所以要求被序列化的类中必须有无参构造,同时。的前提下,减少ReduceTask的计算条数。原创 2024-04-30 08:02:20 · 545 阅读 · 0 评论 -
【Hadoop】HDFS(四)
MapReduce是Doug根据的Google的<The Google MapReduce>来仿照实现的MapReduce将整个计算过程拆分为了两个大阶段:Map(映射)阶段和Reduce(规约)阶段。原创 2024-04-29 10:28:51 · 766 阅读 · 0 评论 -
【Hadoop】HDFS (三)
safemode。原创 2024-04-23 08:59:48 · 806 阅读 · 0 评论 -
【Hadoop】分布式安装、HDFS (二)
HDFS(Hadoop Distributed File System)是Hadoop提供的一套用于进行分布式存储的文件系统HDFS是仿照了Google的GFS来实现的HDFS典型的主从(Master/Slave,简称为M/S)结构。主进程是NameNode,从进程是DataNodeHDFS会对上传的每一个文件进行切块处理,切出来的每一个数据块称之为是一个BlockHDFS会对存储的每一个Block进行备份,称之为副本(replication/replicas)。默认情况下,副本数量为3。原创 2024-04-22 08:54:59 · 683 阅读 · 0 评论 -
【大数据概述】Hadoop(一)
Hadoop原本是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的、可扩展/可伸缩的、分布式架构Hadoop之父:Doug.Cutting(道格.卡汀/卡丁)由于Hadoop的版本混乱,所以在选择Hadoop版本的时候需要注意Hadoop的兼容性问题Hadoop提供了简单的编程模型在集群中处理大量的数据集Hadoop能够从一台主机扩展到上千台主机,每一台主机都能够进行本地存储和计算Hadoop本身提供了探测和处理异常的机制。原创 2024-04-22 08:54:36 · 1028 阅读 · 0 评论