![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop/hive
文章平均质量分 94
Hadoop/hive
大数据知识搬运工
这个作者很懒,什么都没留下…
展开
-
Hadoop--客户端读写hdfs数据
1.读数据(1)客户端通过调用FIleSystem对象的open()方法来打开希望读取的文件,对于hdfs来说,这个对象是分布式文件系统的一个实例。(2)DistributedFileSystem通过使用PRC(远程方法调用)来调用namenode,以确定文件起始块的位置。对于每一个块,namenode返回存有该块副本的datanode的地址。此外,这些datanode根据他们与客户端的距离...原创 2024-05-08 08:23:21 · 1008 阅读 · 1 评论 -
hadoop权威指南(第四章)--yarn运行机制及调度过程知识
1.yarn运行机制?下面对上面出现的一些名词进行介绍:ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报, 建立AM,并将资源派送给AM(ApplicationMaster)。NodeManager:简称NM,NodeManager是ResourceManager在每台机器的上代理,负责容...原创 2022-03-25 17:34:26 · 1152 阅读 · 1 评论 -
YARN容错机制-hadoop
在现实情况中,用户代码错误不断,进程奔溃,机器故障等等。使用hadoop的好处之一就是可以它能处理这类故障并成功完成任务。需要考虑的实体失败任务为:任务(job),Application Master,NodeManager和ResourceManager。1.任务失败1.1 可能存在以下情况:MapTask或者ReduceTask中由于代码原因抛出异常,jvm在关闭之前,会通知mrAppMaster这个task任务失败,在mrAppMaster中,错误报告被写入到用户日志并且任务标记为失败,并释放原创 2022-03-25 17:33:28 · 967 阅读 · 0 评论 -
hadoop整理 --按照题目顺序-面试题目汇总
1.https://www.cnblogs.com/sunddenly/p/3977011.html目录1.hadoop面试题及答案2. Hadoop、Hive、HBase的区别3.hadoop小文件问题4.mapreduce的shuffle过程,map端的并行度5.为什么一定要有shuffle过程6.mapreduce分桶的作用7.spark,hadoop的区别8.hadoop没被淘汰的原因11.hdfs与hbase有啥关系12.hdfs默认副本数是几个?为什么13.架构设计:每天上百亿级别数据,数据来原创 2022-03-25 17:32:26 · 356 阅读 · 1 评论 -
hadoop--MapReduce工作流程和原理
标题1.MapReduce的工作流程是怎样的?下面对上面出现的一些名词进行介绍:ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报, 建立AM,并将资源派送给AM(ApplicationMaster)。NodeManager:简称NM,NodeManager是ResourceManager在...原创 2020-06-28 07:03:10 · 115 阅读 · 1 评论 -
大数据面试汇总-Hadoop汇总
转载自1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode 宕机,怎么一个流程恢复Datanode宕机了后,1)如果是短暂的宕机,可以实现写好脚本监控,重新启动起来。2)如果是长时间宕机了,那么datanode上的数据应该已经被备份到其他机器了,那这台datanode就变为一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。5.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元转载 2020-08-22 16:40:22 · 321 阅读 · 1 评论 -
hadoop面试整理一
1.Hadoop组成架构Hadoop是apache用来“处理海量数据存储和海量数据分析”的分布式系统基础架构,更广义的是指hadoop生态圈。Hadoop的优势 高可靠性:hadoop底层维护多个数据副本,即使某个计算单元故障,也不会导致数据丢失。 高扩展性:天然支持分布式,可方便的扩展至几千个节点。 高容错性:能够自动将失败的任务重新分配。 高效性:在mapReduce的思想下,hadoop是并行工作处理任务的。Hadoop1.x和Hadoop2.x的区别MapReduce架构概原创 2020-08-19 23:39:58 · 238 阅读 · 1 评论