![](https://img-blog.csdnimg.cn/1da8e3daf3ed42a4ac12d6dc1726ef56.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop生态圈
文章平均质量分 92
以Hadoop生态圈为核心内容的专栏
大Null
Alias:一位木带感情的码农。
因CSDN过于商业化,博主已转战Github,所有资源均已迁移至Github个人网站,具体地址请查看详细资料。
展开
-
Hadoop生态圈(四十二)- YARN核心源码分析
目录前言1. YARN应用运行流程2. 第一阶段:Client提交应用至YARN2.1 第一步:JobSubmitter(Job 提交)2.2 第二步:createApplicationSubmissionContext(创建应用上下文)2.3 第三步:RMAppManager#submitApplication(提交应用)2.4 作业提交调用层次3. 第二阶段:YARN启动AppMaster3.1 第一步:AppMaster 初始化3.2 第二步:AppMaster启动4. 第三阶段:调度执行应用进程4原创 2022-02-14 17:33:55 · 2060 阅读 · 0 评论 -
Hadoop生态圈(四十一)- YARN应用开发详解
YARN应用开发流程,客户端Client开发,AppMaster开发,YARN编程库开发应用,YARN基础库,YARN编程库,AppMaster与ResourceManager交互,AppMaster与NodeManager交互,服务库,事件库,状态机库,YARN应用客户端库,AM-RM编程库,NM编程库原创 2022-02-14 16:42:02 · 1631 阅读 · 0 评论 -
Hadoop生态圈(四十)- YARN Resource 资源配置
目录前言1. YARN Resource资源配置2. 资源配置参数3. YARN资源模型3.1 Resource Manager3.2 Node Manager4. MapReduce 使用 Resource前言部分内容摘自尚硅谷、黑马等等培训资料1. YARN Resource资源配置 YARN 支持可扩展的资源模型。默认情况下,YARN会跟踪所有节点,应用程序和队列的CPU和内存,但资源定义可以扩展为包含任意 “countable” 资源。可数资源是在容器运行时消耗的资源,但之后会释放,CP原创 2022-02-14 15:05:28 · 2671 阅读 · 0 评论 -
Hadoop生态圈(三十九)- YARN核心参数配置详解
目录1. ResourceManager核心参数2. NodeManager核心参数3. Contanier核心参数1. ResourceManager核心参数 针对 ResourceManager 主节点来说,需要设置调度器类型及请求线程数据量:参数一:yarn.resourcemanager.scheduler.class设置 YARN 使用调度器,默认值:(不同版本 YARN,值不一样)Apache 版本 YARN ,默认值为容量调度器;org.apache.hadoop.yarn原创 2022-02-14 14:36:01 · 924 阅读 · 0 评论 -
Hadoop生态圈(三十八)- YARN Fair Scheduler公平调度器深入研究
什么是YARN Fair Scheduler,启用YARN Fair Scheduler,YARN Fair Scheduler资源配置文件,YARN Fair Scheduler配置,YARN Fair Scheduler资源调度分配案例,演示YARN Fair Scheduler,YARN Fair Scheduler整体结构原创 2022-02-11 17:50:36 · 1768 阅读 · 1 评论 -
Hadoop生态圈(三十七)- YARN资源调度器深入研究
YARN FIFO Scheduler(先进先出调度器)详解,YARN Capacity Scheduler(容量调度器)详解,YARN 调度器特性,YARN 调度器配置,YARN 资源调度与隔离,YARN Memory资源分配,YARN CPU资源分配,案例:Capacity调度器配置,YARN Capacity Scheduler配置原创 2022-02-11 17:49:01 · 1126 阅读 · 0 评论 -
Hadoop生态圈(三十六)- YARN High Availability(HA)高可用集群
YARN高可用集群搭建,HDFS高可用集群搭建,Zookeeper高可用集群搭建,Hadoop高可用集群搭建,故障转移原理,高可用 HA 架构原创 2022-02-11 13:40:38 · 1600 阅读 · 0 评论 -
Hadoop生态圈(三十五)- YARN常用命令操作详解
yarn application查看任务,yarn logs查看日志,yarn applicationattempt查看尝试运行的任务,yarn container查看容器,yarn node查看节点状态,yarn rmadmin更新配置,yarn queue查看队列,yarn jar运行jar包,yarn classpath获取类路径,yarn proxyserver开启服务,yarn daemonlog设置日志级别,yarn rmadmin重载配置,timelineser服务,scmadmin服务原创 2022-02-11 10:28:29 · 3872 阅读 · 0 评论 -
Hadoop生态圈(三十四)- YARN WebUI服务使用指南
TimelineServer服务,JobHistoryServer配置,JobHistoryServer本地日志,JobHistoryServer堆栈信息,HistoryServer服务,JobHistoryServer运行流程,JobHistoryServer管理MR应用原创 2022-02-10 17:07:41 · 5624 阅读 · 4 评论 -
Hadoop生态圈(三十三)- YARN架构深入学习
Yarn工作流程,Hadoop Job提交全过程,HDFS、YARN、MapReduce三者关系,Yarn架构组件及原理,Yarn通信协议,Yarn简介,Yarn架构,Yarn与MapReduce1.x区别,Yarn产生和发展简史,Yarn框架概述原创 2022-02-10 11:16:01 · 3035 阅读 · 0 评论 -
Hadoop生态圈(三十二)- MapReduce属性优化
MapReduce基准测试,MapReduce Uber模式,MapReduce JVM重用,MapReduce重试机制,MapReduce推测执行,MapReduce开启小文件合并优化,MapReduce减少Shuffle的Spill和Merge,MapReduce开启Reduce端缓存,MapReduce MR Bench,MapReduce Load Gen原创 2022-02-10 09:38:29 · 869 阅读 · 0 评论 -
Hadoop生态圈(三十一)- MapReduce IO性能优化:文件类型
SequenceFile工具类,MapFile工具类,ORCFile工具类,ORC介绍,生成读取SequenceFile,生成读取MapFile文件,生成读取ORC文件原创 2022-02-09 17:22:59 · 596 阅读 · 0 评论 -
Hadoop生态圈(三十)- Hadoop数据压缩
Hadoop支持的压缩算法,压缩方式选择,压缩位置选择,压缩的设置方式,设置map输出数据压缩,设置reduce输出数据压缩原创 2022-02-09 12:42:26 · 311 阅读 · 0 评论 -
Hadoop生态圈(二十九)- MapReduce Reduce阶段核心源码分析
Reduce阶段整体概述,前置:解读ReduceTask类,第一层调用(ReduceTask.run),reduce阶段的任务划分,shuffle操作,第二层调用(runNewReducer)准备部分,第二层调用(runNewReducer)工作部分,Shuffle-init,Shuffle-run,Shuffle-Copy阶段,Shuffle-Merge阶段,Shuffle-Sort阶段,OutputFormat,EventFetcher线程,fetchers线程原创 2022-02-09 10:21:48 · 1243 阅读 · 0 评论 -
Hadoop生态圈(二十八)- MapReduce Map阶段核心源码分析
Map阶段整体概述,解读MapTask类,map阶段的任务划分,环形缓冲区概念及意义,环形缓冲区的初始化,环形缓冲区的数据收集,InputFormat,getSplits,bytesRemaining,createRecordReader,initialize,nextKeyValue,OutputCollector,Circular buffer,Spill溢写,Combiner,第一层调用(run),第二层调用(runNewMapper)工作部分,原创 2022-02-06 16:22:35 · 1331 阅读 · 2 评论 -
Hadoop生态圈(二十七)- MapReduce Job提交源码分析
IntelliJ IDEA Debug工具的使用,Debug环境准备,MapReduce Job提交源码追踪,MapReduce程序入口方法,job.waitForCompletion,job.submit,connect,Cluster,initialize,ClientProtocolProvider,LocalClientProtocolProvider,YarnClientProtocolProvider,submitJobInternal,Debug代码:MR经典入门案例WordCount原创 2022-02-06 14:27:11 · 793 阅读 · 0 评论 -
Hadoop生态圈(二十六)- MapReduce工作流
目录1. MapReduce工作流1.1 需求1.2 代码实现1.2.1 reduce join、result sort程序1.2.2 作业流程控制类1.3 运行结果1. MapReduce工作流 使用 Hadoop 里面的 MapReduce 来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个 MR 作业,来计算结果,比如说一个最简单的使用 MR 提取海量搜索日志的 TopN 的问题,注意,这里面,其实涉及了两个 MR 作业,第一个是词频统计,第两个是排序求 TopN,这显然是需要原创 2022-02-06 09:52:45 · 679 阅读 · 0 评论 -
Hadoop生态圈(二十五)- MapReduce Join操作
MapReduce分布式缓存,reduce side join概述,map side join概述,MapReduce join案例:订单商品处理,reduce side join弊端,map side join优势原创 2022-02-05 19:35:08 · 1666 阅读 · 0 评论 -
Hadoop生态圈(二十四)- MapReduce Counter计数器
MapReduce计数器概述,MapReduce内置计数器,MapReduce自定义计数器,Map-Reduce Framework Counters,File System Counters Counters,Job Counters,File Input | Output Format Counters,MapReduce自定义计数器案例原创 2022-02-05 15:15:55 · 1233 阅读 · 0 评论 -
Hadoop生态圈(二十三)- MapReduce工作流程详解
MapTask工作机制详解,ReduceTask工作机制详解,MapReduce Shuffle机制详解,MapReduce执行流程详解,MapReduce执行步骤详解,MapReduce Shuffle的弊端原创 2022-02-04 19:18:58 · 764 阅读 · 0 评论 -
Hadoop生态圈(二十二)- MapReduce并行度机制
MapTask并行度机制,ReduceTask并行度机制,CombineTextInputFormat切片机制,FileInputFormat切片机制,MapReduce逻辑规划,MapReduce逻辑切片,TextInputFormat原创 2022-02-04 16:16:57 · 980 阅读 · 0 评论 -
Hadoop生态圈(二十一)- MapReduce编程基础
MapReduce Partition分区,MapReduce Combiner规约,MapReduce自定义对象序列化,MapReduce自定义排序,MapReduce自定义分区,MapReduce自定义分组,自定义分组扩展:topN问题,默认情况下MR输出文件个数,数据分区概念,默认分区规则,Partition注意事项,数据规约的含义,MapReduce弊端,Combiner组件概念,Combiner组件使用,Combiner使用注意事项,MapReduce执行流程图,key的重要性体现原创 2022-02-04 12:26:28 · 3072 阅读 · 2 评论 -
Hadoop生态圈(二十)- MapReduce入门与基础理论
Hadoop MapReduce简介,MapReduce执行流程简单梳理,MapReduce架构体系,Hadoop中的数据类型,MapReduce编程规范,Map Reduce工作执行流程,MapReduce输入输出梳理,MapReduce本地模式运行,MapReduce集群模式运行,MapReduce经典入门案例,MapReduce编程思路,Tool工具类创建启动,Hadoop序列化机制,Java的序列化机制,Hadoop的序列化机制,理解MapReduce思想原创 2022-02-03 15:11:33 · 759 阅读 · 0 评论 -
Hadoop生态圈(十九)- HDFS核心源码详解
HDFS客户端核心类,HDFS源码结构分析,Hadoop RPC接口,IDEA导入HDFS源码工程,HDFS工程结构详解,Configuration加载默认配置,Configuration加载用户设置,FileSystem,HDFS通信协议,基于TCP/HTTP流式接口,数据写入流程分析,数据读取流程分析,ClientProrocol,ClientDatanodeProtocol,DatanodeProtocol原创 2022-01-25 17:43:33 · 4051 阅读 · 0 评论 -
Hadoop生态圈(十八)- HDFS Transparent Encryption透明加密
HDFS明文存储弊端,透明加密介绍,透明加密关键概念和架构,Keystore和Hadoop KMS,写入加密文件过程,读取解密文件过程,HDFS KMS配置,透明加密的使用,常见的加密层级原创 2022-01-25 13:03:51 · 2757 阅读 · 0 评论 -
Hadoop生态圈(十七)- HDFS权限管理
UGO权限管理,Group Mapping组映射,Simple认证,Kerberos认证,ACL权限管理,umask权限掩码,UGO权限相关命令,Web页面修改UGO权限,基于Linux/Unix系统的用户和用户组,基于使用LDAP协议的数据库,ACL Shell命令,ACL操作实战原创 2022-01-25 10:21:17 · 3494 阅读 · 0 评论 -
Hadoop生态圈(十六)- HDFS Snapshot快照详解
HDFS Snapshot快照,HDFS快照介绍和作用,HDFS快照的实现,HDFS快照的命令,HDFS快照功能启停命令,HDFS快照操作相关命令,案例实操快照的使用原创 2022-01-24 16:18:12 · 4555 阅读 · 0 评论 -
Hadoop生态圈(十五)- HDFS Trash垃圾回收详解
HDFS垃圾回收站,Trash操作详解,垃圾回收详解,删除文件到Trash,删除文件跳过Trash,从Trash中恢复文件,清空Trash原创 2022-01-24 16:03:12 · 5472 阅读 · 0 评论 -
Hadoop生态圈(十四)- HDFS小文件解决方案
Hadoop Archive归档,Sequence File介绍,Sequence File优缺点,Sequence File格式,Sequence File文件读写,案例:使用Sequence File合并小文件,Archive使用注意事项原创 2022-01-24 15:33:45 · 1017 阅读 · 0 评论 -
Hadoop生态圈(十三)- Namenode元数据管理及各组件工作机制
Namenode元数据管理,namenode和SecondaryNamenode工作机制,DataNode工作机制,DataNode数据完整性,DataNode掉线时限参数设置,Namenode元数据恢复,SecondaryNamenode checkpoint机制,fsimage内存镜像文件,Edits log编辑日志,Namenode存储多目录,元数据管理相关目录文件,内存元数据,磁盘元数据原创 2022-01-24 10:38:59 · 2830 阅读 · 2 评论 -
Hadoop生态圈(十二)- HDFS架构深入学习
HDFS整体概述,HDFS重要特性,HDFS Web Interfaces,HDFS读写流程,Pipeline管道、ACK应答响应,默认3副本存储策略,网络拓扑——节点距离计算,主从架构,分块机制,副本机制,Namespace,元数据管理,数据块存储原创 2022-01-21 10:34:18 · 2966 阅读 · 1 评论 -
Hadoop生态圈(十一)- HDFS集群滚动升级
目录1. 介绍2. 升级2.1 不停机升级2.1.1 升级非联邦集群2.1.2 升级联邦集群2.2 停机升级2.2.1 升级非HA集群3. 降级和回滚3.1 降级3.2 回滚4. 滚动升级相关命令4.1 dfsadmin –rollingUpgrade4.2 dfsadmin –getDatanodeInfo4.3 dfsadmin –shutdownDatanode4.4 namenode –rollingUpgrade1. 介绍 HDFS 滚动升级允许升级单个 HDFS 守护程序。例如,可以独立于原创 2022-01-19 14:02:12 · 1658 阅读 · 4 评论 -
Hadoop生态圈(十)- HDFS Federation联邦机制
HDFS Federation配置示例,HDFS Federation架构,HDFS Federation好处,当前HDFS体系架构原创 2022-01-19 12:03:09 · 1483 阅读 · 0 评论 -
Hadoop生态圈(九)- HDFS High Availability(HA)高可用集群
HDFS HA高可用集群搭建安装部署,HDFS NameNode单点故障问题,QJM——主备切换、脑裂问题解决,QJM——主备数据同步问题解决,HA系统设计核心问题,高可用如何实现,ZKFailoverController(zkfc),Fencing隔离机制,可用性评判标准——x个9原创 2022-01-19 11:39:41 · 1389 阅读 · 0 评论 -
Zookeeper3.6.3集群搭建教程(附群起脚本)
Zookeeper集群安装部署搭建教程,Zookeeper3.6.3集群安装部署搭建教程,Zookeeper群起脚本,SSH免密登录原创 2022-01-17 17:08:10 · 1377 阅读 · 0 评论 -
Hadoop生态圈(八)- HDFS动态节点管理
hdfs动态扩容、节点上线,hdfs动态缩容、节点下线,hdfs DataNode负载均衡服务,hdfs黑白名单机制原创 2022-01-17 12:46:49 · 688 阅读 · 0 评论 -
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMainjava.net.BindException: bind(2) error: Address already in use when trying to bind to '/var/lib/hadoop-hdfs/dn_socket'原创 2022-01-17 11:04:47 · 5408 阅读 · 0 评论 -
Hadoop生态圈(七)- HDFS优化方案
短路本地读取:Short Circuit Local Reads,makeHDFS Block负载平衡器:Balancer,磁盘均衡器:HDFS Disk Balancer,纠删码技术:Erasure Coding,Reed-Solomon(RS)码,Hadoop EC架构,Erasure Coding部署方式,HDFS Disk Balancer相关命令,短路本地读取安全性改进,短路本地读取配置原创 2022-01-17 11:02:14 · 2011 阅读 · 0 评论 -
Hadoop生态圈(六)- HDFS NAMENODE 安全模式
安全模式概述,安全模式自动进入离开,安全模式手动进入离开,手动获取安全模式状态信息原创 2022-01-17 10:39:27 · 3847 阅读 · 0 评论 -
Hadoop生态圈(五)- HDFS数据迁移解决方案
HDFS分布式拷贝工具:DistCp,DsitCp介绍,DsitCp特性,DistCp命令,数据迁移使用场景,数据迁移要素考量原创 2022-01-17 10:38:13 · 3612 阅读 · 0 评论