Hadoop-HDFS学习

Hadoop学习
一.概述
1.Hadoop是一套开源、可靠、可伸缩的分布式机制
2.大数据生态系统中的基础框架,超过70%的技术或者产业是围绕Hadoop产生的
3.Hadoop提供了简单的编程模型来对大量数据进行分布式处理
4.Hadoop你能够一台服务器扩展到千台,每一台服务器能够提供计算和存储功能
5.Hadoop本身提供了探测和处理异常的机制
6.Hadoop的发行版本
a.Apache Hadoop:最基础、最原始的版本。相对而言,不熟和维护比较复杂,但是适合于初学者,因为它没有将细节隐藏,更适合于理解底层机制
b.CHD:要钱
c.HDP要钱

二.版本
1.Hadoop1.X:包含了Common、HDFS和MapReduce模块。现在市面上已经停止使用
2.Hadoop2.X:包含了Common、HDFS、MapReduce以及Yarn模块。从Hadoop2.7版本开始,还包含了Ozone模块。Hadoop2.X和Hadoop1.X全版本不兼容
3.Hadoop3.X:包含了Common、HDFS、MapReduce、YARN和Ozone模块。Hadoop3.X和Hadoop2.X全版本不兼容

三.模块
1.Hadoop Common:公共依赖模块
2.Hadoop Distributed File System(HDFS):分布式文件系统,解决存储问题
3.Hadoop YARN:负责任务调度和集的资源管理
4.Hadoop MapReduce:基于YARN的分布式计算系统
5.Hadoop Ozone:对象存储

四.安装模式
1.单机模式:在一台服务器上安装Hadoop,只能启动Hadoop和MapReduce模块
2.伪分布式:在一台服务骑上安装Hadoop,利用多个进程来模拟Hadoop集群环境,能够启动Hadoop的绝大部分主要服务
3.完全分布式:在集群中安装Hadoop,能够启动Hadoop中的所有的服务

五.web访问端口
在这里插入图片描述

HDFS学习
一.概述
1.HDFS(Hadoop Distributed File System - Hadoop分布式文件系统)是Hadoop 提供的一套用于进行分布式存储的机制
2.HDFS是Doug Cutting根据Google的论文(GFS)来仿照实现的

二.基本结构
1.HDFS本身是一个典型的主从(M/S)结构:主节点是NameNode
2.HDFS会对上传的文件进行切分处理,切出来的每一个数据块Block
3.HDFS会对上传的文件进行自动备份。每一个备份称之为是一个副本(replication/replicas)。如果不指定,默认情况下,副本数量为3
4.HDFS仿照Linux设计了一套文件系统,允许将文件存储到不同的虚拟路径下,同时也设计了一套和Linux一样的权限策略。HDFS的根路径是/

二.Block
1.Block是HDFS中数据存储的基本形式,即上传到HDFS上的数据最终都会以Block的形式落地到DataNode的磁盘上
2.如果不指定,默认情况下,Block的大小事1342177288(即128M)。可以通过dfs.blocksize属性来调节,放在hdfs-site.xml文件中,单位是字节
3.如果一个文件不足Block的指定大小,那么这个文件是多大。例如一个文件是70M,那么对应的Block就是70M。属性dfs.blocksize指定的值实际上可以理解一个Block的最大容量
4.注意,在设计Block大小的时候,Block是维系在DataNode的磁盘上,要考虑Block在磁盘上的寻址时间以及传输时间(写入时间)的比例值。当寻址时间是传输时间的1%的时候,效率最高。而计算机在磁盘上的寻址时间大概在10ms左右,那么写入时间就是10ms/0,.01=1s。考虑到绝大部分的服务器使用的是机械磁盘,机械磁盘的写入速度一般120MB/s左右,此时一个Block大小是1s*120MB左右
5.HDFS会成为每一个Block来分配一个唯一的编号BlockID
6.切块的意义
a.能够存储超大文件
b.能够进行快速备份

三.NameNode
1.NameNode是HDFS中的主(核心)节点。在Hadoop1.X中,NameNode只能有1个,容易存在单点故障;在Hadoop2.X中,NameNode最多允许存在2个;在Hadoop3.X中,不再限制NameNode的数量,也因此在Hadoop3.X的集群中,NameNode不存在单点故障
2.NameNode的作用:对外接受请求,记录元数据(大概可以将元数据理解为账本)&#

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值