MongoDB的文件存储结构

最新推荐文章于 2024-09-10 11:23:07 发布

Little-D

最新推荐文章于 2024-09-10 11:23:07 发布

阅读量2.9k

点赞数 1

分类专栏： MongoDB

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zgqcs55/article/details/84931508

版权

MongoDB 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先简单介绍一下MongoDB：

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

下面看一下MongoDb的存储方案：

MongoDB中的二进制数据存储存储在两个部分：

1、自身的文档存储（BSON格式的数据），有尺寸限制，最大为16M。

2、GridFS外部存储系统，适合大文件存储。

MongoDb的内部文件结构：

MongoDB在数据存储上按命名空间来划分，一个collection是一个命名空间，一个索引也是一个命名空间
同一个命名空间的数据被分成很多个Extent，Extent之间使用双向链表连接
在每一个Extent中，保存了具体每一行的数据，这些数据也是通过双向链接连接的
每一行数据存储空间不仅包括数据占用空间，还可能包含一部分附加空间，这使得在数据update变大后可以不移动位置
索引以BTree结构实现

然后是GridFs的结构

GridFS在数据库中，默认使用fs.chunks和fs.files来存储文件。

其中fs.files集合存放文件的信息，fs.chunks存放文件数据。

一个fs.files集合中的一条记录内容如下，即一个file的信息如下：

1

2

3

4

5

6

7

8

9

10

{

"_id" : ObjectId("4f4608844f9b855c6c35e298"), //唯一id，可以是用户自定义的类型

"filename" : "CPU.txt", //文件名

"length" : 778, //文件长度

"chunkSize" : 262144, //chunk的大小

"uploadDate" : ISODate("2012-02-23T09:36:04.593Z"), //上传时间

"md5" : "e2c789b036cfb3b848ae39a24e795ca6", //文件的md5值

"contentType" : "text/plain" //文件的MIME类型

"meta" : null //文件的其它信息，默认是没有”meta”这个key，用户可以自己定义为任意BSON对象

}

对应的fs.chunks中的chunk如下：

1

2

3

4

5

6

{

"_id" : ObjectId("4f4608844f9b855c6c35e299"), //chunk的id

"files_id" : ObjectId("4f4608844f9b855c6c35e298"), //文件的id，对应fs.files中的对象，相当于fs.files集合的外键

"n" : 0, //文件的第几个chunk块，如果文件大于chunksize的话，会被分割成多个chunk块

"data" : BinData(0,"QGV...") //文件的二进制数据，这里省略了具体内容

}

文件存入到GridFS过程中，如果文件大于chunksize，则把文件分割成多个chunk，再把这些chunk保存到fs.chunks中，最后再把文件信息存入到fs.files中。

在读取文件的时候，先据查询的条件，在fs.files中找到一个合适的记录，得到“_id”的值，再据这个值到fs.chunks中查找所有“files_id”为“_id”的chunk，并按“n”排序，最后依次读取chunk中“data”对象的内容，还原成原来的文件。

什么时候适合使用Gridfs

Gridfs最适合大文件存储，特别是视频，音频，大型图片超过16MB大小的文件。小型文件也可以存储，不过需要付出2次查询代价(metadata与file content)。不要修改存储文件的内容，而是更新文件元数据如版本，或上传新版本的文件，删除老版本的文件。对于大量文件存储时，需要多个数据节点，复制，数据分片等。从互联网存储图片案例来看，图片大都是jpg, png与缩略图文件，分布式文件系统(DFS)会是更好的解决方案。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。