一、Hadoop集群的使用
1.集群的启动和关闭
(1)一键启动大数据环境
/onekey/my-start-all.sh
(2)一键关闭大数据环境
/onekey/my-stop-all.sh
(3)查看启动进程
2.Hadoop页面访问
(1)查看HDFS页面
http://192.168.52.161:50070
(2)查看yarn页面
http://192.168.52.161:8088
二、HDFS文件系统
1.HDFS的概述
HDFS
(
Hadoop Distributed File System
)是
Apache Hadoop
项目的一个子项目,
是使用
HDFS
作为存储系统
. HDFS
使用多台计算机存储文件
,
并且提供统一的访问接口
, 像是访问一个普通文件系统一样使用分布式文件系统.
2.HDFS的特点
(1)
HDFS
文件系统可存储超大文件,时效性稍差。
(2)
HDFS
具有硬件故障检测和自动快速恢复功能。
(3)
HDFS
为数据存储提供很强的扩展能力。
(4)
HDFS
存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
(5)
HDFS
可在普通廉价的机器上运行。
3.HDFS的架构
⚫
HDFS
采用
Master/Slave
架构
⚫
一个
HDFS
集群有两个重要的角色,分别是Namenode,
Datanode
。
⚫
HDFS
的四个基本组件
:HDFS Client,NameNode,Datanode,Secondary NameNode
。
(1)Client
⚫
就是客户端。
⚫
文件切分。文件上传
HDFS
的时候,
Client
将文件切分成 一个一个的
Block
,然后进行存储
⚫
与
NameNode
交互,获取文件的位置信息。
⚫
与
DataNode
交互,读取或者写入数据。
⚫
Client
提供一些命令来管理 和访问
HDFS
,比如启动或者关闭
HDFS
。
(2)NameNode
⚫
就是 master,它是一个主管、管理者。
⚫
管理
HDFS
元数据(文件路径,文件的大小,文件的名字,文件权限,文件的
block
切片信息
….
)。
⚫
配置副本策略。
⚫
处理客户端读写请求
(3)DataNode
⚫
就是
Slave
。
NameNode
下达命令,
DataNode
执行实际的操作。
⚫
存储实际的数据块。
⚫
执行数据块的读
/
写操作。
⚫
定时向
namenode
汇报
block
信息。
(4)Secondary NameNode
⚫
并非
NameNode
的热备。当
NameNode
挂掉的时候,它并不能马上替换
NameNode
并提供服务。
⚫
辅助
NameNode
,分担其工作量。
⚫
在紧急情况下,可辅助恢复
NameNode
。
三、HDFS的shell命令
ls命令 显示文件列表
mkdir命令 递归创建目录
mv命令 将HDFS的文件从原路径移动到目标路径
rm命令 删除指定文件和目录
cp命令 将文件拷贝到目标路径
cat命令 将指定文件输出到控制台
put命令 将单个或多个源文件从本地文件系统命令传到目标文件系统
get命令 将HDFS文件拷贝到本地文件系统