大数据技术介绍:02分布式文件系统HDFS
HDFS是什么?
HDFS源自于Google的GFS论文
发表于2003年10月
HDFS是GFS克隆版
Hadoop Distributed File System
易于扩展的分布式文件系统
运行在大量普通廉价机器上,提供容错机制
为大量用户提供性能不错的文件存取服务
HDFS的优点:
1.高容错性
数据自动保存多个副本
副本丢失后,自动恢复
2.适合批处理
移动计算而非数据
数据位置暴露给计算框架
3.适合大数据处理
GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+节点规模
4.流式文件访问
一次性写入,多次读取
保证数据一致性
5.可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
HDFS典型应用:
快手用HDFS存储所有的视频数据
百度用HDFS存储用户行为数据和网页数据
滴滴用HDFS保存快车/专车等行为轨迹数据
阿里巴巴用HDFS保存用户行为数据
腾讯用HDFS保存用户行为数据、社交行为数据等
分布式文件系统的一种实现方式:如下图:
HDFS设计思想,如下图:
HDFS架构:如下图1,2,3
图1:
图2: