大数据技术介绍:02分布式文件系统HDFS

本文详细介绍了HDFS,一种基于Google GFS的分布式文件系统,广泛应用于快手、百度、滴滴和阿里巴巴等公司。HDFS强调高容错性,采用数据多副本策略,适合大数据批处理,并提供了流式文件访问。文章还涵盖了HDFS的架构、写入读取流程、错误处理、目录结构、配置参数以及Java API和Shell命令的使用。
摘要由CSDN通过智能技术生成

大数据技术介绍:02分布式文件系统HDFS
HDFS是什么?
HDFS源自于Google的GFS论文
发表于2003年10月
HDFS是GFS克隆版
Hadoop Distributed File System
易于扩展的分布式文件系统
运行在大量普通廉价机器上,提供容错机制
为大量用户提供性能不错的文件存取服务

HDFS的优点:
1.高容错性
数据自动保存多个副本
副本丢失后,自动恢复
2.适合批处理
移动计算而非数据
数据位置暴露给计算框架
3.适合大数据处理
GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+节点规模
4.流式文件访问
一次性写入,多次读取
保证数据一致性
5.可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制

HDFS典型应用:
快手用HDFS存储所有的视频数据
百度用HDFS存储用户行为数据和网页数据
滴滴用HDFS保存快车/专车等行为轨迹数据
阿里巴巴用HDFS保存用户行为数据
腾讯用HDFS保存用户行为数据、社交行为数据等

分布式文件系统的一种实现方式:如下图:
在这里插入图片描述
HDFS设计思想,如下图:
在这里插入图片描述

HDFS架构:如下图1,2,3
图1:
图1
图2:

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值