hadoop文件操作(学习笔记)

本文详细介绍了Hadoop分布式文件系统(HDFS)的体系结构,包括NameNode、DataNode和Secondary NameNode的角色与功能。此外,还强调了HDFS的shell操作,如常用命令的使用,如ls、du、count、mv等,以及如何进行文件上传和下载。最后,文章提及了Hadoop的RPC机制在服务发布和请求中的应用。
摘要由CSDN通过智能技术生成

Hadoop Distributed File System(简称HDFS)是Hadoop分布式文件系统。

HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

Ø HDFS体系结构(***理解****)

NameNode:名字节点

u NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

u 文件包括:hdfs-site.xml的dfs.name.dir属性

² fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。

² edits:操作日志文件。

² fstime:保存最近一次checkpoint的时间

u 以上这些文件是保存在linux的文件系统中。

DataNode:数据节点

DateNode提供真实文件数据的存储服务。

说明:DataNode是文件系统的工作节点,他们根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送他们所存储的块(block)的列表。

n 文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.

可以在配置里指定dfs.block.size属性的大小.

n 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间

n Replication。多复本。默认是三个。

hdfs-site.xml的dfs.replication属性。

Secondary NameNode:HA的一个解决方案。

Secondary NameNode有两个作用:

一是镜像备份

二是日志与镜像的定期合并

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值