
Hadoop官方API
张伯毅
某厂技术,Apache DolphinScheduler Committer.
专注于调度&实时&大数据体系~
展开
-
Apache Hadoop 3.2.0 官方API常规 : 概览
Apache Hadoop 3.2.0Apache Hadoop 3.2.0在之前的稳定次要版本(hadoop-3.1)中包含了许多重要的增强功能。这是3.2版本系列中的第一个版本,尚未普遍可用(GA)或生产就绪。概观建议用户阅读完整的发行说明。此页面提供了主要更改的概述。YARN中的节点属性支持节点属性有助于根据节点标记节点上的多个标签,并支持根据这些标签的表达式放置容器...翻译 2019-01-20 23:00:24 · 7976 阅读 · 2 评论 -
Hadoop3.2.0 YARN 简介
YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。我们的想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager构成了数据计算框架。ResourceManager是在系统中的所有应用程序之间仲裁资源的最终权限。No...翻译 2019-02-20 09:12:11 · 8108 阅读 · 1 评论 -
Hadoop3.2.0 YARN 命令
Overview User Commands application or app applicationattempt classpath container jar logs node queue version envvars Administration Commands daemonlog nodemanager proxyserv...翻译 2019-02-20 09:12:18 · 8386 阅读 · 0 评论 -
Hadoop3.2.0 YARN 容量调度程序
Hadoop:容量调度程序目的 概观 特征 配置 设置ResourceManager以使用CapacityScheduler 设置队列 队列属性 设置应用程序优先级。 Capacity Scheduler容器抢占 预订属性 使用CapacityScheduler配置ReservationSystem 叶子队列的动态自动创建和管理 其他属性 查看Cap...翻译 2019-02-20 10:57:08 · 10584 阅读 · 2 评论 -
Hadoop3.2.0 YARN Fair Scheduler
Hadoop:Fair Scheduler目的 介绍 具有可插入策略的分层队列 自动将应用程序放入队列中 安装 组态 可以放在yarn-site.xml中的属性 分配文件格式 队列访问控制列表 预订访问控制列表 配置ReservationSystem 管理 在运行时修改配置 通过Web UI进行监控 在队列之间移动应用程序 倾倒公平调度程序状态...翻译 2019-02-20 11:18:21 · 3609 阅读 · 3 评论 -
Hadoop3.2.0 YARN CGroup
CGroups配置 CGroups挂载选项 CGroups和安全CGroups是一种机制,用于将任务集及其所有未来子集聚合/分区为具有专门行为的层次组。CGroups是Linux内核功能,并且已合并到内核版本2.6.24中。从YARN的角度来看,这允许容器的资源使用受到限制。一个很好的例子是CPU使用率。没有CGroups,就很难限制容器CPU的使用。CGroups配置本节介绍使用C...翻译 2019-02-20 11:25:12 · 3573 阅读 · 0 评论 -
Hadoop3.2.0 YARN ResourceManager restart
概述特征 配置 启用RM重启 配置状态存储以保持RM状态 如何选择州商店实施 基于Hadoop FileSystem的状态存储实现的配置 基于ZooKeeper的状态存储实现的配置 基于LevelDB的状态存储实现的配置 保持工作的RM恢复配置 笔记 示例配置概述ResourceManager是管理资源和调度在YARN上运行的应用程序的中央权限。因此,...翻译 2019-02-20 11:38:16 · 3715 阅读 · 0 评论 -
Hadoop3.2.0 YARN ResourceManager HA
介绍 架构 RM故障转移 恢复以前的active-RM状态 部署 配置 管理员命令 ResourceManager Web UI服务 网页服务 负载均衡器设置 介绍本指南概述了YARN ResourceManager的高可用性,并详细介绍了如何配置和使用此功能。ResourceManager(RM)负责跟踪集群中的资源,以及调度应用程序(例如,MapRedu...翻译 2019-02-21 06:39:11 · 5159 阅读 · 0 评论 -
Hadoop3.2.0 Web应用程序代理
概述 介绍 当前状态 部署 配置 运行Web应用程序代理 概述介绍Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为在独立模式下运行。代理的原因是通过YARN降低基于Web的攻击的可能性。在YARN中,Application Master(AM)有责任提供Web UI并将该链接发送给RM。这开辟了许多潜在的问题。...翻译 2019-02-21 06:39:37 · 3375 阅读 · 0 评论 -
Hadoop3.2.0 YARN Timeline Service v.2
Overview Introduction Architecture Current Status and Future Plans Deployment Configurations Enabling Timeline Service v.2 Upgrade from alpha1 to alpha2 Publishing application specific ...翻译 2019-02-21 06:39:50 · 5230 阅读 · 0 评论 -
Hadoop3.2.0 YARN Timeline Service
YARN时间线服务器概观 部署 时间线服务器REST API V1 域名/ ws / v1 /时间线/域名 发布时间轴实体 时间线实体列表 时间线实体 时间线事件列表 关于 申请清单 应用 申请尝试清单 申请尝试 集装箱清单 容器 时间线服务器性能测试工具概观介绍通过时间线服务器在YARN中以通用方式存储和检索应用程序的当前和历史信息。它有两个职责:...翻译 2019-02-21 06:39:59 · 11513 阅读 · 3 评论 -
Hadoop3.2.0 编写YARN应用程序
目的 概念和流程 接口 编写一个简单的YARN应用程序 写一个简单的客户端 编写ApplicationMaster(AM) 常问问题 如何将应用程序的jar分发给需要它的YARN集群中的所有节点? 我如何获得ApplicationMaster的ApplicationAttemptId? 为什么我的容器被NodeManager杀死了? 如何包含本机库? 有用的链...翻译 2019-02-21 06:42:20 · 3667 阅读 · 0 评论 -
Hadoop2.7.7 API: hadoop-env.sh 解析
name description default value export JAVA_HOME=/home/hadoop/software/jdk1.8.0_171 设置 JAVA HOME export HADOOP_HOME_WARN_SUPPRESS=1 压制警告 1 export HADOOP_HOME=${HADOOP_HOME:-/u...原创 2019-08-13 20:24:36 · 2205 阅读 · 0 评论 -
Hadoop2.7.7 API: core-site.xml 解析
name description value 备注 hadoop.common.configuration.version 配置文件版本 0.23.0 hadoop.tmp.dir 其它临时目录的父目录,会被其它临时目录用到。 /tmp/hadoop-${user.name} io.native.lib.available...翻译 2019-08-13 20:25:53 · 3174 阅读 · 0 评论 -
Hadoop2.7.7 API: hdfs-site.xml 解析
name description value 备注 hadoop.hdfs.configuration.version 配置文件版本 1 dfs.namenode.rpc-address 处理所有客户端请求的RPC地址,若在HA场景中,可能有多个namenode,就把名称ID添加到进来。该属性的格式为nn-host1:rpc-port。 ...翻译 2019-08-13 20:27:19 · 3228 阅读 · 0 评论 -
Hadoop2.7.7 API: yarn-site.xml 解析
name description value hadoop.registry.rm.enabled 是否在YARN资源管理器中启用了注册表? 如果属实,那么YARN RM将根据需要。 创建用户和系统路径,并清除 服务记录集装箱,应用程序尝试 和应用程序完成。 如果错误,路径必须...翻译 2019-08-13 20:29:53 · 6324 阅读 · 0 评论 -
Hadoop2.7.7 API: mapred-site.xml 解析
name 描述 value 备注 mapreduce.jobtracker.jobhistory.location 如果作业跟踪器是静态的,则历史文件存储在这个众所周知的地方。如果此处未设置任何值,则默认情况下,它位于$ {hadoop.log.dir} / history的本地文件系统中。 mapreduce.jobtracker.jobhis...翻译 2019-08-13 20:31:51 · 3129 阅读 · 0 评论 -
Hadoop3.2.0 HDFS DataNode管理员指南
概观 主机级设置 仅限主机名配置 基于JSON的配置 群集级别设置 度量概观Hadoop分布式文件系统(HDFS)名称节点维护所有数据节点的状态。有两种类型的状态。第一种类型描述了datanode的活跃性,指示节点是活的,死的还是陈旧的。第二种类型描述了管理状态,指示节点是在服务中,退役还是在维护中。当管理员停用datanode时,datanode将首先转换为DECOMM...翻译 2019-02-20 09:12:03 · 8357 阅读 · 0 评论 -
Hadoop3.2.0 HDFS磁盘平衡器
概述 建筑 命令 计划 执行 询问 取消 报告 设置 调试概述Diskbalancer是一个命令行工具,可以在datanode的所有磁盘上均匀分配数据。此工具与Balancer不同, 后者负责集群范围的数据平衡。由于多种原因,数据在节点上的磁盘之间可能存在不均匀的扩散。这可能是由于大量写入和删除或由于磁盘更换造成的。此工具针对给定的datanode运行,并将块从...翻译 2019-02-20 09:11:54 · 8191 阅读 · 1 评论 -
Hadoop3.2.0 HDFS擦除编码
目的 背景 建筑 部署 群集和硬件配置 配置键 启用Intel ISA-L 管理命令 限制目的复制很昂贵 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。但是,对于I / O活动相对较低的暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。因此,自然的改进是使用擦除编码(EC)代替复制,...翻译 2019-02-20 09:11:40 · 9988 阅读 · 0 评论 -
Apache Hadoop 3.2.0 官方API常规 :单节点安装
Hadoop:设置单节点群集。目的 先决条件 支持的平台 必备软件 安装软件 下载 准备启动Hadoop集群 独立操作 伪分布式操作 组态 设置passphraseless ssh 执行 YARN在单个节点上 全分布式操作目的本文档介绍如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系...翻译 2019-01-20 23:23:25 · 6112 阅读 · 1 评论 -
Hadoop3.2.0群集设置
目的 先决条件 安装 在非安全模式下配置Hadoop 配置Hadoop守护进程的环境 配置Hadoop守护进程 监控NodeManager的健康状况 slave 文件 Hadoop机架感知 记录 操作Hadoop集群 Hadoop启动 Hadoop关闭 Web界面目的本文档描述了如何安装和配置Hadoop集群,范围从几个节点到具有数千个节点的极大集群。要...翻译 2019-02-18 18:31:26 · 11352 阅读 · 3 评论 -
Hadoop3.2.0 Hadoop 命令指南
Hadoop命令指南概览 Shell选项 Generic选项 User Commands 用户命令 archive checknative classpath conftest credential distch distcp dtutil fs gridmix jar jnipath kerbname kdiag...翻译 2019-02-18 22:27:13 · 9331 阅读 · 0 评论 -
Hadoop3.2.0 Hadoop 文件系统 shell命令指南
appendToFile cat checksum chgrp chmod chown copyFromLocal copyToLocal count cp createSnapshot deleteSnapshot df du dus expunge find get getfacl getfattr getmerge head help ls l...原创 2019-02-18 22:49:17 · 9613 阅读 · 0 评论 -
Hadoop3.2.0 Hadoop 机架感知
Hadoop组件具有机架感知功能。例如,通过将一个块的分片放在不同的机架上,HDFS块放置将使用机架感知来实现容错。这可以在群集中发生网络切换故障或分区时提供数据可用性。Hadoop主守护进程通过调用配置文件指定的外部脚本或java类来获取集群工作者的机架ID。使用java类或外部脚本进行拓扑,输出必须遵循java org.apache.hadoop.net.DNSToSwitchMappin...翻译 2019-02-18 23:26:19 · 9196 阅读 · 1 评论 -
Hadoop3.2.0 HDFS架构
介绍 假想和目标 硬件故障 流式数据访问 大数据集 简单的一致性模型 “移动计算比移动数据便宜” 跨异构硬件和软件平台的可移植性 NameNode和DataNodes 文件系统命名空间 数据复制 副本安置:The First Baby Steps 副本选择 安全模式 文件系统元数据的持久性 通信协议 稳健性 数据磁盘故障,心跳和重新复制 ...翻译 2019-02-19 10:34:15 · 9770 阅读 · 0 评论 -
Hadoop3.2.0 HDFS 用户指南
HDFS用户指南目的 概览 先决条件 Web界面 Shell命令 DFSAdmin命令 Secondary NameNode 检查点节点 备份节点 导入检查点 负载均衡 机架意识 安全模式 fsck的 fetchdt 恢复模式 升级和回滚 DataNode热插拔驱动器 文件权限和安全性 可扩展性 相关文档目的本文档是使用Hadoop分布式文件系...翻译 2019-02-19 11:34:37 · 9872 阅读 · 0 评论 -
Hadoop3.2.0 HDFS命令指南
HDFS命令指南概览 User Commands classpath dfs envvars fetchdt fsck getconf groups httpfs lsSnapshottableDir jmxget oev oiv oiv_legacy snapshotDiff version Administration...翻译 2019-02-19 12:06:34 · 9977 阅读 · 1 评论 -
Hadoop3.2.0 HDFS HA ( Quorum Journal Manager )
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 架构 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 负载均衡器设置 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配置自动故障转移 在ZooKeeper中初始化HA状态 使用start-dfs.sh启动集群 手动启动集群...翻译 2019-02-19 14:15:19 · 7722 阅读 · 0 评论 -
Hadoop3.2.0 HDFS HA ( NFS)
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 建筑 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配置自动故障转移 在ZooKeeper中初始化HA状态 使用start-dfs.sh启动集群 手动启动集群 保护对ZooKeep...翻译 2019-02-19 14:43:05 · 8576 阅读 · 0 评论 -
Hadoop3.2.0 HDFS Federation
背景 多个名称节点/命名空间 主要优点 联合配置 组态: 格式化名称节点 从旧版本升级并配置联合 将新Namenode添加到现有HDFS集群 管理集群 启动和停止集群 平衡器 退役 群集Web控制台 本指南概述了HDFS联邦功能以及如何配置和管理联邦群集。背景HDFS有两个主要层:Namespace 由目录,文件和块组成。 它...翻译 2019-02-19 14:58:24 · 8312 阅读 · 2 评论 -
Hadoop3.2.0 HDFS 快照
HDFS快照概观 Snapshottable目录 快照路径 使用快照升级到HDFS版本 快照操作 管理员操作 允许快照 禁止快照 用户操作 创建快照 删除快照 重命名快照 获取Snapshottable目录列表 获取快照差异报告 概观HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上拍摄快...翻译 2019-02-19 15:20:02 · 7509 阅读 · 0 评论 -
Hadoop3.2.0 HDFS权限指南
概述 用户身份 组映射 许可检查 了解实施 对文件系统API的更改 对应用程序外壳的更改 超级用户 Web服务器 ACL(访问控制列表) ACL文件系统API ACL Shell命令 配置参数概述Hadoop分布式文件系统(HDFS)实现了共享大部分POSIX模型的文件和目录的权限模型。每个文件和目录都与所有者和组相关联。对于作为所有者的用户,作为该组成员的其他用户以...翻译 2019-02-19 15:26:35 · 8672 阅读 · 0 评论 -
Hadoop3.2.0 HDFS中的集中缓存管理
HDFS中的集中缓存管理概述 用例 建筑 概念 缓存指令 缓存池 cacheadmin命令行界面 缓存指令命令 addDirective removeDirective removeDirectives listDirectives 缓存池命令 addPool modifyPool removePool listPool...翻译 2019-02-19 15:53:50 · 7931 阅读 · 2 评论 -
Hadoop3.2.0 HDFS中的内存存储支持
介绍 管理员配置 限制用于内存中副本的RAM 在数据节点上设置RAM磁盘 选择tmpfs(vs ramfs) 安装RAM磁盘 使用RAM_DISK存储类型标记tmpfs卷 确保已启用存储策略 应用用法 使用LAZY_PERSIST存储策略 为目录调用hdfs storagepolicies命令 为目录调用setStoragePolicy方法 通过LAZY_PE...翻译 2019-02-19 16:00:44 · 10250 阅读 · 1 评论 -
Hadoop3.2.0 (合成负载发生器指南) Synthetic Load Generator Guide
概观 概要 测试空间人口 结构生成器 数据生成器 概观合成负载生成器(SLG)是用于在不同客户端负载下测试NameNode行为的工具。用户可以通过指定读取和写入的概率来生成读取,写入和列表请求的不同混合。用户通过调整工作线程数量和操作之间的延迟参数来控制负载强度。在负载生成器运行时,用户可以分析和监视NameNode的运行。当负载生成器退出时,它会输出一些NameNode统...翻译 2019-02-20 09:11:30 · 7462 阅读 · 0 评论 -
Hadoop2.7.7 API: 弃用参数对比
Deprecated property name New property name create.empty.dir.if.nonexist mapreduce.jobcontrol.createdir.ifnotexist dfs.access.time.precision dfs.namenode.accesstime.precision dfs.backup....翻译 2019-08-13 20:33:37 · 573 阅读 · 0 评论