前言
项目中使用MongoDB存储文本数据,通过pymongo连接DB提供python查询接口。原始文件每天增长,项目需要评估MongoDB服务器使用什么规格的硬盘,那么当文本文件存入MongoDB后,相比原始文件,MongoDB磁盘占用多少,压缩率如何,怎么可以优化磁盘占用空间。本文尝试解答这些问题。
测试步骤
测试文件:
csv文件,13,515,366行,22列
文件大小: 4.6G
(csv文件使用mongodb是因为不同的csv文件中列是不同的)
测试方法:
测试三种情况下,MongoDB中collection大小情况。
- 使用mongoimport将数据导入MongoDB
- 在第一情况下,enable mongoimport的ignoreBlanks参数
- 将csv文件的header都改为比较小的,如c1,c2,…,c22。
在mongo shell中查看collection的状态信息。
db.your_collection.stats