HDFS简介
Hdf s是Hadoop项目的核心子项目在大数据开发中通过分布式计算 对海量数据进行存储与管理 它基于有数据模式访问和处理超大文件的需求和开发 可以运行在廉价的常用服务器上为海量数据提供了不怕故障的存储方法 进而为超大数据集的应用带来了很多便利
HDFS的显著特征
- HDFS 非常适合使用商用硬件进行分布式存储和分布式处理。它具有容错性、可扩展并且扩展极其简单。
- HDFS 具有高度可配置性。大多数情况下,需要仅针对非常大的集群调整默认配置
- HDFS 是 Hadoop 的核心框架,而 Hadoop 是用 Java编写的,因此可以运行于所有主台上。
- 支持类似 Shell 的命令直接与HDFS交互HDFS。
- 内置了 Web服务器,可以轻松检查集群的当前状态。
HDFS系统的主要构建
-
数据块——默认基本存储单位是128 mb每一个数据块默认都有三个副本
-
NameNode——是hdfs中存储元数据的地方
-
DataNode——是hd fs中真正存储数据的地方 ,在NameNode的指令下执行快的创建 删除和复制 并且汇报数据快信息
-
secondaryNameNode——帮助NameNode管理元数据,是辅助工具
HDFS命令常用操作
㈠ls查看目录和文件
hdfs dfs -ls
hdfs dfs -ls -R(文件目录)
put将本地文件上传到HDFS系统中
# hadoops fs -put 本地当前目录文件 名/HDFS系统下的文件夹名
rm删除文件或文件夹
# hadoop fs -rm /HDFS系统下的文件夹名
mkdir新建文件夹或目录
# hadoop fs /想取的文件名
cp复制文件到另一个文件中
# hadoop fs -cp /HDFS系统下的文件夹路径 (一个空格) /复制到的文件路径
cat查看某文件夹的内容
# hadoop fs -cat /想查看的HDFS系统下的文件夹路径