mongo单表大量数据的读取
重要提示:建议不要直接使用find方法
下面是读取方法笔记:(python 语言 为主)
1. 使用batch_size 方法
可以在不大于16M的情况下,批量返回数据
**但是**在数据超过几千万的情况下,加载会导致游标超时,栈溢出等问题
建议千万级别在考虑服务器性能的情况下使用。
2. 使用索引切片的方法
通过pymongo 手册可以看到:
可以避免上述一的问题。
3. 使用mongo工具,将单表导出json文件或者csv文件
这种方法,比上述两种方法速度都快,唯一遗憾的是:只能将数据传送到一个文件里。
相对比前面两种方法,
上亿数据只用1天多时间,而前面的时间则会很慢。
例如 mongoexport 工具,利用脚本就更加的方便