Hadoop
Sigmund_Y
此人很懒,什么都没有写,是的!!!
展开
-
18Hadoop大合集
此次采用问题加回答的方式。Hadoop1.x和Hadoop2.x的区别Hadoop1.0即第一代Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分组成。Hadoop2.0即第二代Hadoop,...原创 2020-04-20 23:28:17 · 232 阅读 · 0 评论 -
6HDFS的读写流程及多线程写问题
1、HDFS之block package chunk了解hdfs的读写流程,首先要了解block、package、chunk的概念。1、block这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。2、packagepacket是第二大的单...原创 2020-04-16 22:27:38 · 2017 阅读 · 0 评论 -
5Hadoop的shuffle过程
首先上官方图:然后做一个简单的流程解释(以wordcount为例):里面涉及到的点有环形缓冲区详细说明:以wordcount为例,假设有5个map和3个reduce:map阶段1、在map task执行时,它的输入数据来源于HDFS的block,当然在MapReduce概念中,map task只读取split。Split与block的对应关系可能是多对一,默认是一对一。2、在经过...原创 2020-04-15 23:17:35 · 139 阅读 · 0 评论 -
4Hadoop集群添加删除节点及集群balance
Hadoop集群添加删除节点有两种方式:静态和动态本篇中默认新添加的节点已经配置好免密登陆等其他相关的基础设置一、静态方式静态方式需要停止NameNode1.停止namenode2.修改slaves文件,并更新到各个节点3.启动namenode4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)二、动态方式1.首先配置...原创 2020-04-15 22:46:57 · 231 阅读 · 0 评论 -
3Hadoop的HA机制及原理解析
一、hadoop 1.x和2.x架构图1、架构图hadoop2.x通过引入双NameNode架构,同时借助共享存储系统 Quorum Journal Manager QJM来进行元数据的同步,解决了1.x中NameNode的单点故障问题。2、hadoop2.x元数据Hadoop的元数据主要作用是维护HDFS文件系统中文件和目录相关信息。元数据的存储形式主要有3类:内存镜像、磁盘镜像(F...原创 2020-04-15 22:07:17 · 303 阅读 · 0 评论 -
2hadoop的四大机制(心跳、安全模式、机架策略、负载均衡)
hadoop的心跳机制我们知道namenode是集群的大哥,负责集群上任务的分工,那如果要进行分工,首先一点就是要知道各个从节点的存活状态,你想想如果连哪个从节点是否存活都不知道,又该如何分配任务呢?可是,就有个疑问了,他是怎么知道各个从节点的存活状态的呢?那就是通过DataNode定期的向namenode发送心跳报告,哎?对了,这就是心跳机制。DataNode默认会每隔3秒向namenod...原创 2020-04-10 23:38:19 · 611 阅读 · 0 评论 -
1HDFS基本shell操作
常见的hdfs命令hdfs命令需要前缀hdfs dfs xx ,等同于 hadoop fs xx,选择自己喜欢的方式就好。命令概览递归查看文件hadoop fs -ls -R /path创建多级目录hadoop fs -mkdir -p /abc/mm/ff同时上传多个文件hadoop fs -put abc1.txt abc2.txt /abc这样就同时把abc1.tx...原创 2020-04-10 22:48:46 · 146 阅读 · 0 评论