hadoop
hadoop学习笔记
Timor莫
这个作者很懒,什么都没留下…
展开
-
Hadoop序列化
1 序列化概述1.1 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将接受到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。1.2 为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另一台计算机。然而序列化可以...原创 2020-03-03 17:47:45 · 336 阅读 · 0 评论 -
MapReduce概述
1 MapReduce定义MapReduce是一个分布式运算程序的变成框架,是基于Hadoop的数据分析计算的核心框架。MapReduce处理工程分为两个阶段:Map和Reduce。Map负责把一个任务分解成多个任务;Reduce负责把分解后的多任务处理的结果汇总。2 MapReduce优缺点2.1 优点1.MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这...原创 2020-03-03 16:47:51 · 392 阅读 · 0 评论 -
HDFS 2.X新特性
1 集群间数据拷贝1.scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/ch/hello.txt // 推 pushscp -r root@hadoop103:/user/ch/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/ch/hello.txt roo...原创 2020-03-03 12:32:57 · 205 阅读 · 0 评论 -
DataNode
1. DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器...原创 2020-03-03 12:20:37 · 1727 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsIm...原创 2020-03-02 10:03:46 · 228 阅读 · 0 评论 -
HDFS的数据流
1 HDFS写数据流程1.1 剖析文件写入HDFS写数据流程,如下图1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为DN...原创 2020-03-02 09:40:10 · 190 阅读 · 0 评论 -
Fsimage中没有记录块所对应DataNode,为什么?
从以上fsimage中加载如namenode内存中的信息中可以很明显的看出,在fsimage中,并没有记录每一个block对应到哪几个datanodes的对应表信息,而只是存储了所有的关于namespace的相关信息。而真正每个block对应到datanodes列表的信息在hadoop中并没有进行持久化存储,而是在所有datanode启动时,每个datanode对本地磁盘进行扫描,将本datano...原创 2020-03-01 12:41:17 · 1331 阅读 · 0 评论 -
NameNode故障后的数据恢复
NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[ch@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module...原创 2020-02-27 18:33:13 · 1382 阅读 · 0 评论 -
HDFS块大小的计算与设计规则
HDFS块大小的计算与设计规则转载 2020-02-26 18:12:19 · 2420 阅读 · 0 评论 -
SSH无密登录原理及配置方法
1.ssh无密登录原理看网上都不太清除,就自己画了一张。2.ssh配置1. 配置ssh(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[ch@hadoop102 opt] $ ssh 192.168.1.103The authenticity of host '192.168.1.103 (192.1...原创 2020-02-26 17:45:04 · 1323 阅读 · 0 评论 -
Hadoop常见错误及解决方案
1)防火墙没关闭、或者没有启动YARNINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)IP地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to load ...原创 2020-02-26 16:30:16 · 1504 阅读 · 0 评论