Hadoop集群的使用和HDFS文件系统

一、Hadoop集群的使用

1.集群的启动和关闭

(1)一键启动大数据环境

/onekey/my-start-all.sh

(2)一键关闭大数据环境

/onekey/my-stop-all.sh

(3)查看启动进程

2.Hadoop页面访问

(1)查看HDFS页面

http://192.168.52.161:50070

(2)查看yarn页面

http://192.168.52.161:8088

二、HDFS文件系统

1.HDFS的概述

HDFS Hadoop Distributed File System )是 Apache Hadoop 项目的一个子项目, 是使用 HDFS 作为存储系统 . HDFS 使用多台计算机存储文件 , 并且提供统一的访问接口 , 像是访问一个普通文件系统一样使用分布式文件系统.

2.HDFS的特点

(1)  HDFS 文件系统可存储超大文件,时效性稍差。
(2) HDFS 具有硬件故障检测和自动快速恢复功能。
(3) HDFS 为数据存储提供很强的扩展能力。
(4) HDFS 存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
(5) HDFS 可在普通廉价的机器上运行。

3.HDFS的架构

HDFS 采用 Master/Slave 架构
一个 HDFS 集群有两个重要的角色,分别是Namenode, Datanode
HDFS 的四个基本组件 :HDFS Client,NameNode,Datanode,Secondary NameNode

(1)Client

就是客户端。
文件切分。文件上传 HDFS 的时候, Client 将文件切分成 一个一个的 Block ,然后进行存储
NameNode 交互,获取文件的位置信息。
DataNode 交互,读取或者写入数据。
Client 提供一些命令来管理 和访问 HDFS ,比如启动或者关闭 HDFS

(2)NameNode

就是 master,它是一个主管、管理者。
管理 HDFS 元数据(文件路径,文件的大小,文件的名字,文件权限,文件的 block 切片信息 …. )。
配置副本策略。
处理客户端读写请求

(3)DataNode

就是 Slave NameNode 下达命令, DataNode 执行实际的操作。
存储实际的数据块。
执行数据块的读 / 写操作。
定时向 namenode 汇报 block 信息。

(4)Secondary NameNode

并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。
辅助 NameNode ,分担其工作量。
在紧急情况下,可辅助恢复 NameNode

三、HDFS的shell命令

ls命令  显示文件列表

mkdir命令  递归创建目录

mv命令  将HDFS的文件从原路径移动到目标路径

rm命令  删除指定文件和目录

cp命令  将文件拷贝到目标路径

cat命令  将指定文件输出到控制台

put命令  将单个或多个源文件从本地文件系统命令传到目标文件系统

get命令  将HDFS文件拷贝到本地文件系统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值