论文阅读笔记（六）：The Google File System

最新推荐文章于 2021-10-11 16:30:17 发布

那我就换个名字吧

最新推荐文章于 2021-10-11 16:30:17 发布

阅读量919

点赞数 2

分类专栏：论文学习笔记

本文链接：https://blog.csdn.net/wufeifan_learner/article/details/110343153

版权

原文链接：The Google File System

这次的文章是超级无敌经典的Google File System，与MapReduce和BigTable并称Google三驾马车，开启了分布式系统的时代。

摘要

由于传统的分布式文件存储不能满足现在和未来的工作环境，因此文章提出了新的分布式文件存储系统，本系统可以供大规模的集群使用，与以前的分布式文件存储设计理念完全不同。

介绍

GFS和以前的分布式系统的实现有许多相同的目标，像性能,可扩展性, 可靠性, 可用性。但是本文是根据观测到的数据，未来可能的方向等又和以前的文件系统不同。所以重新设计了文件系统：

组件失效被当做正常情况。由于以前组件失效被认为是例外情况，所以在以前的系统中，容灾性差。而现在数百个硬盘集群，任何一个硬盘出错都是可能的，甚至人为的bug情况也是存在的，所以将组件的失效看做正常情况，因此GFS将容灾性部署在系统内部。
我们都知道，处理一个大文件所用的时间远远低于处理同样大小的许多小文件。比如1GB的游戏文件，删除它会很快，而1GB的10000个图片文件，删除它会很耗时。我们的网络文件就是一堆小文件组成的，对于I/O来说，处理这些文件会很耗时，从这方面GFS也做出了改进。
文件的写入一般都是追加写入而不是覆盖写入，且一般来说我们写入的文件是只读的。关于这一点可以参考我们的日志文件，一般读日志文件而不是修改他们。所以我们建立在这种访问规则基础上可以对其性能进行优化，保证其原子性。举个MapReduce的例子，我们都知道写锁比读锁更加耗时，因为一般情况下对文件上了读锁，其他用户是可以读取该文件的。但是上了写锁，其他用户就无法访问该文件了。而NapReduce中，Mapper将文件传输给Shuffle，Shuffle将文件传输给Reducer，他们都是不需要对文件进行写入的，而是把文件内容拿出来，放入缓存块修改再传给下一个文件，因此不需要加写锁。这时候另一个程序想实时展示中间层收到的数据，就不用等待写锁结束（因为没有写锁）而可以直接访问，提高并行速度，不破坏原子性。
api和文件系统同时设计，那么就考虑到了整体协同性，提高性能。

设计概要

设计前提假设
- 系统部署在非昂贵的机器上。所谓的非昂贵，意思是随时可能崩溃，不像军方使用的系统，只考虑可靠性不考虑

最低0.47元/天解锁文章

那我就换个名字吧

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（六）：The Google File System

原文链接：The Google File System这次的文章是超级无敌经典的Google File System，与MapReduce和BigTable并称Google三驾马车，开启了分布式系统的时代。摘要由于传统的分布式文件存储不能满足现在和未来的工作环境，因此文章提出了新的分布式文件存储系统，本系统可以供大规模的集群使用，与以前的分布式文件存储设计理念完全不同。介绍GFS和以前的分布式系统的实现有许多相同的目标，像性能,可扩展性, 可靠性, 可用性。但是本文是根据观测到的数据，未来可能
复制链接

扫一扫