Vince1958-CSDN博客

原创 YARN

一、Yarn基本架构Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行在操作系统之上的应用程序。Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。各组件功能1.ResourceManager(RM)主要功能：（1）处理客户端请求（2）监控NodeManager（3）启动或监控ApplicationMaster（4）资源的

2021-04-27 17:33:40 215 1

原创 MR概述

一、概述定义:MapReduce是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发执行在一个Hadoop集群上。将原本的一个任务在一台节点上计算，变成了将一个任务分成多个task，在集群上运行，也就是分布式计算，这样可以由多台节点的算力来计算一个任务，主要用来解决大型数据的计算。二、核心思想1.分布式分为两个阶段，Map阶段和Reduce阶段。2.MapTask并发实例互不干扰。3.ReduceTask并发实例互不干扰，但是它们的

2021-04-26 11:24:49 877 1

原创 HDFS DataNode工作机制

一、DataNode工作机制1.一个数据块在DataNode上存储，是以文件的形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2.DataNode启动后，会像NameNode注册，注册后会周期性向NameNode上报所有的块信息。3.心跳每三秒一次，心跳返回结果带有NameNode给该DataNode的命令，如：复制块数据到另一台机器，或者删除某个块。如果超过十分钟没有收到某个DataNode的心跳，则认为该节点不可用。4.集群运行中可以安

2021-04-23 15:35:43 264 1

原创 HDFS读写数据流程

HDFS读写数据流程一、HDFS写数据流程HDFS每次写数据时，每次上传的是一个切分过的文件块（文件超过块大小的情况）。文件是在客户端被切分成文件块，所以直接上传，NameNode和DataNode不参与文件的切分。直接接受文件块即可。1.客户端向NameNode发起请求，要求上传文件，包括块信息。2.NameNode根据块信息来寻找合适的DataNode,把这个名单返回个客户端。3.客户端通过这个名单去寻找DataNode节点，并请求建立传输通道。4.DataNode各个节点回应客户端，表示

2021-04-23 14:06:34 839 1

原创 HDFS离线编辑日志浏览器（Offline Edits Viewer）

一、离线编辑日志浏览器（Offline Edits Viewer）1.概述离线编辑日志浏览器（Offline Edit Viewer）是用于解析编辑日志文件（Edits Log）的工具。处理器在对于不同格式之间的转换非常有用，包括将原始的二进制文件转换成更容易阅读和编辑的XML格式。该工具可以解析（Hadoop 0.19）及更高版本的EditsLog文件格式。该工具仅在文件上运行，不需要运行Hadoop集群。支持以下输入格式·二进制（binary）：Hadoop内部使用产生的二进制格式。·XML

2021-04-22 14:47:57 320 1

原创 HDFS权限管理

HDFS权限管理一、概述HDFS实现了一种权限模型。每一个文件或者文件夹，都有属主和属组。文件或文件夹对其他的用户（非属组和属主的用户）也是有单独的权限可以设定。对于文件来讲，r 代表着可读权限，w 代表着可写或追加的权限。由于HDFS上的文件不能执行，所以没有x权限。对于文件夹来讲，r 代表可以读取文件列表。w 代表可以创建或删除这个文件夹里面的文件或文件夹。x代表可以进入这个文件夹的子目录。如上图所示，d rwx rwx rwx 一共为四部分。第一部分的d，代表目录，如果是文件则为空。

2021-04-22 14:14:47 2771 2

原创 HDFS配额

HDFS配额一、概述HDFS允许管理员为所使用的名称数量和用于单个目录的空间量设置配额。名称配额和空间配额独立运作，但两种配额的管理和执行密切相关。二、命名配额命名配额是指在一个文件夹下面的文件夹和文件的个数配置一定的数量。如果超过这个限额，那么文件和文件夹的创建会失败，重命名后命名配额仍然起作用。如果重命名操作违反配额的限制，那么重命名也会失败。新创建的目录中没有配额的限制。Log.Max_Value表示最大限额。如果配额为1，那么这个文件就会强制为空（一个目录也占用自己的配额）。配额被持久化的

2021-04-22 11:34:59 960 1

原创 HDFS快照

快照一、简介HDFS中可以对目录创建快照。快照是文件系统的只读副本，在整个文件系统或子目录上都可以创建快照，用来数据备份，防止用户误操作，和恢复。快照的原理是在每个目标节点下面创建snapshot节点，后续任何子节点的变化都会同步记录到snapshot上。例如删除子节点下面的文件，并不是直接将文件的元数据信息和数据删除，而是将他们移动到snapshot下面。这样就能够恢复回来。snapshot保存的是一个完整的现场，不仅是删除的文件还能够找到，新创建的文件在恢复快照的时候，也不会看到。当新创建一个文件

2021-04-22 09:51:40 596 1

原创 HDFS机架感知，网络拓扑，节点距离计算

HDFS机架感知一、网络拓扑、节点距离计算Distance(/d1/r1/n0, /d1/r1/n0)=0 同一节点上的进程Distance(/d1/r1/n1, /d1/r1/n2)=2 同一机架上不同节点Distance(/d1/r1/n1, /d1/r2/n1)=4 同一数据中心，不同机架上的节点Distance(/d1/r1/n1, /d2/r1/n1)=6 不同数据中心上的节点二、机架感知1.机架感知简介机架感知的存在，是因为HDFS的副本放置策略需要机架感知，并且可以提高集群性能

2021-04-21 16:15:29 906 1

原创 HDFS存储策略

HDFS存储策略一、简介在HDFS存储的数据中，由于各种数据的用途不一样，有的数据需要经常访问，有的数据比较老，访问频率低，也就是冷热数据。可以有不同的存储方式，所以不一样的数据可以设置不同的存储策略。一共有四种存储的方式，RAM_DISK,DISK,SSD,ARCHIVE。四种存储类型1.DISK：表示普通磁盘（机械磁盘）2.SSD：表示固态硬盘。3.RAM_DISK:表示内存硬盘，类似虚拟内存盘，简单理解为内存。4.ARCHIVE：这个并不是指某种存储介质，为了满足高密度的存储而定义的一

2021-04-21 14:42:37 2761 1

原创 HDAS HA 高可用

HDFS高可用一、高可用存在背景在Hadoop2.x之前，HDFS集群中只有一个NameNode节点，而NameNode节点可能会发生单点故障，一旦NameNode节点发生单点故障，整个集群都将处于不可用状态。或者当NameNode节点所属的机器进行软件或硬件升级时，同样会造成整个集群处于不可用状态。为了解决上述问题，所以出现了HDFS高可用特性。二、高可用架构在一个典型的高可用集群中，两个或更多的独立的节点被配置成NameNode。当一个NameNode处于活跃状态，其他的NameNode都处于

2021-04-21 14:12:52 275 1

原创 HDFS简单使用指南

hdfs简单使用指南一、概述HDFS是Hadoop程序在工作时的主要分布式存储组件。HDFS集群主要由NameNode和DataNode组成，NameNode负责管理文件系统的元数据，DataNode负责存储实际的数据。主要介绍用户和HDFS集群的交互。以下是一些比较常见的特征和功能1）Hadoop是用java语言写的，所以主要平台上基本都可以支持。2）NameNode和DataNode在web页面也可以访问。3）HDFS包含的一些常用功能：（1）文件权限与身份验证（2）机架感知：在任务调度

2021-04-21 11:44:09 671 1