Hadoop
文章平均质量分 84
张伯毅
某厂技术,Apache DolphinScheduler Committer.
专注于调度&实时&大数据体系~
展开
-
[ Hadoop 3.2.1 官方文档 ] Hadoop 开启 Kerberos 安全模式
一. 介绍本文档介绍了如何在安全模式下为Hadoop配置身份验证。将Hadoop配置为以安全模式运行时,每个Hadoop服务和每个用户都必须通过Kerberos进行身份验证。必须正确配置所有服务主机的正向和反向主机查找,以允许服务彼此进行身份验证。可以使用DNS或etc/hosts文件配置主机查找。建议在尝试以安全模式配置Hadoop服务之前,具备Kerberos和DNS的相关知识。Hadoop的安全功能包括身份验证,服务级别授权,Web身份验证和数据机密性。二. 验证2.1.固定用户帐户启用服翻译 2021-03-29 22:49:15 · 4999 阅读 · 0 评论 -
[ YARN 3.1.x ] 开启Kerberos配置&使用
.一 .前言1.1. 环境说明1.2. 服务规划1.3. 安装Kerberos环境1.4. 安装YARN环境二 .安装YARN2.1. 添加用户2.2. 配置YARN相关的Kerberos账户2.2.1. 创建keytab存放目录2.2.2. 配置master01上面运行的服务对应的Kerberos账户2.2.3. 权限设置2.2.4. 编译源码构建Linux-Container-executor2.2.5. 设置 hadoop 需要使用的各个目录的权限2.3. 配置hadoop的 lib/native(原创 2021-03-28 23:45:05 · 2890 阅读 · 6 评论 -
Hadoop集成kerberos后,报错:AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]
1. 背景Hadoop在安装完HDFS之后, WEB UI 访问正常.kinit -kt xxx 认证成功.然后在命令行执行执行hadoop相关指令的时候,报错.2. 报错信息错误信息 : AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS][root@master01 ~]# klistTicket cache: KEYRING:persistent:0:krb_ccache_MkHX3ziDefau原创 2021-03-28 20:45:04 · 14269 阅读 · 6 评论 -
[ HDFS 3.1.x ] 开启Kerberos配置&使用
.一 .前言1.1. 环境说明1.2. 服务规划二 .安装HDFS2.1. 添加用户2.2. 配置HDFS相关的Kerberos账户2.2.1. 创建keytab存放目录2.2.2. 配置master01上面运行的服务对应的Kerberos账户2.2.3. 权限设置2.2.4. 编译源码构建Linux-Container-executor2.2.5. 设置 hadoop 需要使用的各个目录的权限2.3. 配置hadoop的 lib/native(本地运行库)2.4. 设置 HDFS 的配置文件2.4.2.原创 2021-03-28 20:20:21 · 5582 阅读 · 10 评论 -
Hadoop 使用IntelliJ IDEA 进行远程调试代码
.一 .前言二 .服务器端配置.2.1. 设置启动远程debug端口2.2. 具体操作三 .Idea配置3.1. 根据报错信息定位到断点所在的位置3.2. 配置远程连接3.3. 启动调试一 .前言昨天晚上遇到一个奇葩的问题, 搞好的环境DataNode启动报错. 报错信息提示的模棱两可,没办法定位原因.办法,开启远程调试…注意 : 开启远程调试的代码,必须与本地idea的代码必须保持一致.二 .服务器端配置.2.1. 设置启动远程debug端口修改 服务器上的配置文件 ${HADOOP_原创 2021-03-28 15:17:18 · 11800 阅读 · 4 评论 -
怎么做 HDFS 的原地平滑缩容?
背景目前有三个DataNode节点,需要缩容这三个DataNode节点上的磁盘. 即修改dfs.data.dir中指定的目录...三种缩容方案第一种缩容方法,如果 DataNode 的节点数目比较多,并且允许缩减存储空间的同时缩减 CPU 和内存资源,则可以缩掉若干个 DataNode 节点,直接使用 HDFS 提供的 decommission(附上社区版文档,CDH 文档,HDP 文档)。这是最常见的方法,缩减过程中涉及大量数据的跨节点迁移,会产生大量的内网流量可能影响线上负载,需要运维人员.转载 2020-11-03 09:26:07 · 6493 阅读 · 0 评论 -
Apache Hadoop 3.3.0 版本特性介绍
Apache Hadoop 3.3.0在以前的主要发行版本(hadoop-3.2)上进行了许多重大增强。新特性如下:1.ARM支持这是第一个支持ARM体系结构的版本。2.将Protobuf从2.5.0升级到新版本因为protobuf-2.5.0已经停止更新,Protobuf升级到3.7.1。3.Java 11运行时支持Java 11运行时支持已完成。4.支持对AuthenticationFilter的模拟外部服务或YARN服务可能需要根据使用Web协议的用户行为来调用We翻译 2020-08-30 18:13:03 · 10689 阅读 · 0 评论 -
HIVE 权限配置 [没有趟过坑的人生是不完美的]
这两天被hive的权限问题,折腾的不轻.记录一下1.命令行配置,其实这样是最基本的配置.core-site.xml原创 2020-06-20 19:02:25 · 11273 阅读 · 2 评论 -
异常: Attempting to operate on hdfs namenode as root but there is no HDFS_NAMENODE_USER defined.
异常信息:[root@master hadoop-3.1.3]# sbin/start-dfs.shStarting namenodes on [localhost]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to ...原创 2020-06-12 11:25:20 · 5724 阅读 · 1 评论 -
Yarn 日志无法访问: Aggregation may not be complete, Check back later or try the nodemanager at ....
我用的 ambari 日志看不到 yarn 日志. 折腾我了一个半小时...炸毛!!!!!!报错截图:Logs not available for container_e08_1583895535087_0001_01_000001. Aggregation may not be complete, Check back later or try the nodemanager ...原创 2020-03-11 11:45:37 · 4286 阅读 · 2 评论 -
Hadoop3.2.0 YARN ResourceManager restart
概述特征 配置 启用RM重启 配置状态存储以保持RM状态 如何选择州商店实施 基于Hadoop FileSystem的状态存储实现的配置 基于ZooKeeper的状态存储实现的配置 基于LevelDB的状态存储实现的配置 保持工作的RM恢复配置 笔记 示例配置概述ResourceManager是管理资源和调度在YARN上运行的应用程序的中央权限。因此,...翻译 2019-02-20 11:38:16 · 3630 阅读 · 0 评论 -
Hadoop3.2.0 YARN ResourceManager HA
介绍 架构 RM故障转移 恢复以前的active-RM状态 部署 配置 管理员命令 ResourceManager Web UI服务 网页服务 负载均衡器设置 介绍本指南概述了YARN ResourceManager的高可用性,并详细介绍了如何配置和使用此功能。ResourceManager(RM)负责跟踪集群中的资源,以及调度应用程序(例如,MapRedu...翻译 2019-02-21 06:39:11 · 5060 阅读 · 0 评论 -
Hadoop3.2.0 YARN CGroup
CGroups配置 CGroups挂载选项 CGroups和安全CGroups是一种机制,用于将任务集及其所有未来子集聚合/分区为具有专门行为的层次组。CGroups是Linux内核功能,并且已合并到内核版本2.6.24中。从YARN的角度来看,这允许容器的资源使用受到限制。一个很好的例子是CPU使用率。没有CGroups,就很难限制容器CPU的使用。CGroups配置本节介绍使用C...翻译 2019-02-20 11:25:12 · 3475 阅读 · 0 评论 -
Hadoop3.2.0 YARN Fair Scheduler
Hadoop:Fair Scheduler目的 介绍 具有可插入策略的分层队列 自动将应用程序放入队列中 安装 组态 可以放在yarn-site.xml中的属性 分配文件格式 队列访问控制列表 预订访问控制列表 配置ReservationSystem 管理 在运行时修改配置 通过Web UI进行监控 在队列之间移动应用程序 倾倒公平调度程序状态...翻译 2019-02-20 11:18:21 · 3570 阅读 · 3 评论 -
Intellij IDEA中file size exceeds configured limit解决
把Hadoop源码导入IDEA中后,其中有个YarnProtos 文件代码为3.28MB,IDEA直接就不把它当java类看了,报file size exceeds configured limit错误。解决办法如下:你可以尝试修改intellij IDE安装目录下的bin/idea.properties,mac 地址为:/Application...原创 2019-04-18 21:30:46 · 5847 阅读 · 0 评论 -
Hadoop3.2.0 YARN 容量调度程序
Hadoop:容量调度程序目的 概观 特征 配置 设置ResourceManager以使用CapacityScheduler 设置队列 队列属性 设置应用程序优先级。 Capacity Scheduler容器抢占 预订属性 使用CapacityScheduler配置ReservationSystem 叶子队列的动态自动创建和管理 其他属性 查看Cap...翻译 2019-02-20 10:57:08 · 10503 阅读 · 2 评论 -
Hadoop3.2.0 YARN资源配置
概观YARN支持可扩展的资源模型。默认情况下,YARN会跟踪所有节点,应用程序和队列的CPU和内存,但资源定义可以扩展为包含任意“countable”资源。可数资源是在容器运行时消耗的资源,但之后会释放。CPU和内存都是可数资源。其他示例包括GPU资源和软件许可证。此外,YARN还支持使用“resource profiles”,允许用户通过单个配置文件指定多个资源请求,类似于Amazon ...翻译 2019-02-21 06:39:31 · 5203 阅读 · 0 评论 -
Hadoop3.2.0 Web应用程序代理
概述 介绍 当前状态 部署 配置 运行Web应用程序代理 概述介绍Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为在独立模式下运行。代理的原因是通过YARN降低基于Web的攻击的可能性。在YARN中,Application Master(AM)有责任提供Web UI并将该链接发送给RM。这开辟了许多潜在的问题。...翻译 2019-02-21 06:39:37 · 3297 阅读 · 0 评论 -
Hadoop3.2.0 YARN Timeline Service v.2
Overview Introduction Architecture Current Status and Future Plans Deployment Configurations Enabling Timeline Service v.2 Upgrade from alpha1 to alpha2 Publishing application specific ...翻译 2019-02-21 06:39:50 · 5075 阅读 · 0 评论 -
Hadoop3.2.0 YARN Timeline Service
YARN时间线服务器概观 部署 时间线服务器REST API V1 域名/ ws / v1 /时间线/域名 发布时间轴实体 时间线实体列表 时间线实体 时间线事件列表 关于 申请清单 应用 申请尝试清单 申请尝试 集装箱清单 容器 时间线服务器性能测试工具概观介绍通过时间线服务器在YARN中以通用方式存储和检索应用程序的当前和历史信息。它有两个职责:...翻译 2019-02-21 06:39:59 · 11364 阅读 · 3 评论 -
Hadoop3.2.0 编写YARN应用程序
目的 概念和流程 接口 编写一个简单的YARN应用程序 写一个简单的客户端 编写ApplicationMaster(AM) 常问问题 如何将应用程序的jar分发给需要它的YARN集群中的所有节点? 我如何获得ApplicationMaster的ApplicationAttemptId? 为什么我的容器被NodeManager杀死了? 如何包含本机库? 有用的链...翻译 2019-02-21 06:42:20 · 3594 阅读 · 0 评论 -
hadoop 3.x 50070端口无法访问 端口变更为9870
原来是3.x 版本NameNode 50070端口 -> 9870端口了所以把50070改成9870就可以了NameNode -http://localhost:9870/官方文档截图:单节点访问截图:...原创 2019-04-08 10:00:13 · 6159 阅读 · 0 评论 -
Hadoop3.2.0群集设置
目的 先决条件 安装 在非安全模式下配置Hadoop 配置Hadoop守护进程的环境 配置Hadoop守护进程 监控NodeManager的健康状况 slave 文件 Hadoop机架感知 记录 操作Hadoop集群 Hadoop启动 Hadoop关闭 Web界面目的本文档描述了如何安装和配置Hadoop集群,范围从几个节点到具有数千个节点的极大集群。要...翻译 2019-02-18 18:31:26 · 11310 阅读 · 3 评论 -
Hadoop3.2.0 YARN 命令
Overview User Commands application or app applicationattempt classpath container jar logs node queue version envvars Administration Commands daemonlog nodemanager proxyserv...翻译 2019-02-20 09:12:18 · 8342 阅读 · 0 评论 -
Hadoop3.2.0 YARN 简介
YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。我们的想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager构成了数据计算框架。ResourceManager是在系统中的所有应用程序之间仲裁资源的最终权限。No...翻译 2019-02-20 09:12:11 · 8073 阅读 · 1 评论 -
Hadoop3.2.0 HDFS 用户指南
HDFS用户指南目的 概览 先决条件 Web界面 Shell命令 DFSAdmin命令 Secondary NameNode 检查点节点 备份节点 导入检查点 负载均衡 机架意识 安全模式 fsck的 fetchdt 恢复模式 升级和回滚 DataNode热插拔驱动器 文件权限和安全性 可扩展性 相关文档目的本文档是使用Hadoop分布式文件系...翻译 2019-02-19 11:34:37 · 9808 阅读 · 0 评论 -
Hadoop3.2.0 HDFS架构
介绍 假想和目标 硬件故障 流式数据访问 大数据集 简单的一致性模型 “移动计算比移动数据便宜” 跨异构硬件和软件平台的可移植性 NameNode和DataNodes 文件系统命名空间 数据复制 副本安置:The First Baby Steps 副本选择 安全模式 文件系统元数据的持久性 通信协议 稳健性 数据磁盘故障,心跳和重新复制 ...翻译 2019-02-19 10:34:15 · 9737 阅读 · 0 评论 -
Hadoop3.2.0 Hadoop 机架感知
Hadoop组件具有机架感知功能。例如,通过将一个块的分片放在不同的机架上,HDFS块放置将使用机架感知来实现容错。这可以在群集中发生网络切换故障或分区时提供数据可用性。Hadoop主守护进程通过调用配置文件指定的外部脚本或java类来获取集群工作者的机架ID。使用java类或外部脚本进行拓扑,输出必须遵循java org.apache.hadoop.net.DNSToSwitchMappin...翻译 2019-02-18 23:26:19 · 9162 阅读 · 1 评论 -
Hadoop3.2.0 Hadoop 文件系统 shell命令指南
appendToFile cat checksum chgrp chmod chown copyFromLocal copyToLocal count cp createSnapshot deleteSnapshot df du dus expunge find get getfacl getfattr getmerge head help ls l...原创 2019-02-18 22:49:17 · 9563 阅读 · 0 评论 -
Hadoop3.2.0 Hadoop 命令指南
Hadoop命令指南概览 Shell选项 Generic选项 User Commands 用户命令 archive checknative classpath conftest credential distch distcp dtutil fs gridmix jar jnipath kerbname kdiag...翻译 2019-02-18 22:27:13 · 9268 阅读 · 0 评论 -
Spark On Yarn VCore Userd 值不正常(DefaultResourceCalculator / DominantResourceCalculator )
Spark On Yarn VCore Userd 值不正常,目前集群有两个任务再跑,每个任务使用1cores。在执行下面的脚本的时候。资源使用如下图: 执行脚本: spark-submit \ --master yarn \ --deploy-mode cluster \ --class com.yss.aml.core.analysis...原创 2019-01-30 17:15:14 · 9045 阅读 · 0 评论 -
Hadoop2.7x 日志文件目录迁移(涉及组件:ZooKeeper、Spark、Hive、HBase、Oozie、Storm、Kafka)
1.本人使用的是ambari管理的hadoop2.7.3版本,由于/var目录空间有限,所以对hadoop的日志存放目录做迁移处理。 操作:一、更改配置文件在这里一共要动以下几个文件(这些文件是ambari上显示的配置,如果是调整配置文件的话,请自行查找具体名称。)1.hadoop-env.xml Hadoop Log Dir Prefix /data/var...原创 2019-01-29 16:54:06 · 6705 阅读 · 3 评论 -
hadoop配置自动清理日志
hadoop在运行时间长了之后,日志文件,会占用很大,极端情况,会导致硬盘满。影响业务的正常运行。解决方式: 步骤一、修改core-site.xml配置文件 <property> <name>hadoop.logfile.size</name> <value>10000000</va...原创 2019-01-28 17:54:55 · 16340 阅读 · 2 评论 -
Apache Hadoop 3.2.0 官方API常规 :单节点安装
Hadoop:设置单节点群集。目的 先决条件 支持的平台 必备软件 安装软件 下载 准备启动Hadoop集群 独立操作 伪分布式操作 组态 设置passphraseless ssh 执行 YARN在单个节点上 全分布式操作目的本文档介绍如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系...翻译 2019-01-20 23:23:25 · 6067 阅读 · 1 评论 -
Hadoop3.2.0 HDFS命令指南
HDFS命令指南概览 User Commands classpath dfs envvars fetchdt fsck getconf groups httpfs lsSnapshottableDir jmxget oev oiv oiv_legacy snapshotDiff version Administration...翻译 2019-02-19 12:06:34 · 9888 阅读 · 1 评论 -
Hadoop3.2.0 HDFS HA ( Quorum Journal Manager )
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 架构 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 负载均衡器设置 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配置自动故障转移 在ZooKeeper中初始化HA状态 使用start-dfs.sh启动集群 手动启动集群...翻译 2019-02-19 14:15:19 · 7654 阅读 · 0 评论 -
Hadoop3.2.0 HDFS HA ( NFS)
目的 注意:使用Quorum Journal Manager或常规共享存储 背景 建筑 硬件资源 部署 配置概述 配置细节 部署细节 管理命令 自动故障转移 介绍 组件 部署ZooKeeper 在你开始之前 配置自动故障转移 在ZooKeeper中初始化HA状态 使用start-dfs.sh启动集群 手动启动集群 保护对ZooKeep...翻译 2019-02-19 14:43:05 · 8517 阅读 · 0 评论 -
Hadoop3.2.0 HDFS DataNode管理员指南
概观 主机级设置 仅限主机名配置 基于JSON的配置 群集级别设置 度量概观Hadoop分布式文件系统(HDFS)名称节点维护所有数据节点的状态。有两种类型的状态。第一种类型描述了datanode的活跃性,指示节点是活的,死的还是陈旧的。第二种类型描述了管理状态,指示节点是在服务中,退役还是在维护中。当管理员停用datanode时,datanode将首先转换为DECOMM...翻译 2019-02-20 09:12:03 · 8236 阅读 · 0 评论 -
Hadoop3.2.0 HDFS磁盘平衡器
概述 建筑 命令 计划 执行 询问 取消 报告 设置 调试概述Diskbalancer是一个命令行工具,可以在datanode的所有磁盘上均匀分配数据。此工具与Balancer不同, 后者负责集群范围的数据平衡。由于多种原因,数据在节点上的磁盘之间可能存在不均匀的扩散。这可能是由于大量写入和删除或由于磁盘更换造成的。此工具针对给定的datanode运行,并将块从...翻译 2019-02-20 09:11:54 · 8132 阅读 · 1 评论 -
Hadoop3.2.0 HDFS擦除编码
目的 背景 建筑 部署 群集和硬件配置 配置键 启用Intel ISA-L 管理命令 限制目的复制很昂贵 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。但是,对于I / O活动相对较低的暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。因此,自然的改进是使用擦除编码(EC)代替复制,...翻译 2019-02-20 09:11:40 · 9913 阅读 · 0 评论