今天主要学习了hadoop集群搭建、HDFS。
集群搭建方式有两种:
1.Standalone mode(单机模式)(单机模式下,要求Windows系统运行内存至少为8G)
2.Cluster mode(集群模式)(集群模式下,要求Windows系统运行内存至少为16G)
HDFS:
1.特点
⚫ HDFS文件系统可存储超大文件,时效性稍差。
⚫ HDFS具有硬件故障检测和自动快速恢复功能。
⚫ HDFS为数据存储提供很强的扩展能力。
⚫ HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
⚫ HDFS可在普通廉价的机器上运行。
2.HDFS的构架
⚫ HDFS文件系统可存储超大文件,时效性稍差。
⚫ HDFS具有硬件故障检测和自动快速恢复功能。
⚫ HDFS为数据存储提供很强的扩展能力。
⚫ HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
⚫ HDFS可在普通廉价的机器上运行。
⚫ HDFS采用Master/Slave架构
⚫ 一个HDFS集群有两个重要的角色,分别是Namenode和Datanode。
⚫ HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode。
- Client
⚫ HDFS文件系统可存储超大文件,时效性稍差。
⚫ HDFS具有硬件故障检测和自动快速恢复功能。
⚫ HDFS为数据存储提供很强的扩展能力。
⚫ HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
⚫ HDFS可在普通廉价的机器上运行。
- NameNode
⚫ 就是 master,它是一个主管、管理者。 ⚫ 管理 HDFS 元数据(文件路径,文件的大小,文件的名字,文件权限,文件的block切片信息....)。
⚫ 配置副本策略。 ⚫ 处理客户端读写请求。 - DataNode
⚫ 就是Slave。NameNode 下达命令,DataNode 执行实际的操作 ⚫ 存储实际的数据块。
⚫ 执行数据块的读/写操作。 ⚫ 定时向namenode汇报block信息。 - Secondary NameNode
⚫ 并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。
⚫ 辅助 NameNode,分担其工作量。 ⚫ 在紧急情况下,可辅助恢复 NameNode。
- HDFS的Shellminfling命令
- ls命令 (2)mkdir命令
(3)mv命令 (4)rm命令
(5)cp命令 (6)cat命令
(7)put命令 (8)get命令