分布式文件存储
Hadoop Distributed File Sysytem
缺点:不能实时数据访问(Hbase可以),不允许修改文件,只能追加。
特点:块的概念
名称节点:相当于目录,告诉我们这个数据存在了哪个数据节点上。数据被保存在相应数据节点的linux文件系统中。
**
FsImage
**
FsImage不能告诉我们块与数据的映射关系,这个是其他部分来完成的。
数据节点加入我们的集群时,会自己向名称节点汇报自己的数据,名称节点就将这个映射信息加入到表格中,块与数据的映射关系是这样子来的。
**
系统的运作:
**
旧版FsImage会删掉。
将各种更新、修改操作写进EditLog日志(相比FsImage小得多),而不是直接修改FsImage(更大),操作更方便,避免了频繁更换。
第二名称节点也解决了EditLog不断增大的问题。在本地将FsImage和EditLog合并后生成新的FsImage文件,传给名称节点。
客户端与名称节点:TCP/IP协议
名称节点与数据节点:特定协议
客户端与数据节点:远程登录
读数据:5的存在:有可能要读的文件很大,4一次读不完,4是选取的距离主机最近的节点去读
读过程代码:
写数据:流水线复制