Mongodb的mapreduce性能分析

MongoDB MapReduce性能对比：本地计算与分布式计算

最新推荐文章于 2025-08-29 00:27:51 发布

原创最新推荐文章于 2025-08-29 00:27:51 发布 · 2.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #mongodb #sharding #python #分布式计算 #测试

mongodb mapreduce 性能专栏收录该内容

1 篇文章

订阅专栏

本文通过实验对比了MongoDB在分布式计算环境与本地计算环境下MapReduce任务的性能表现，发现分布式计算环境下的MapReduce任务执行速度明显优于本地计算。同时，分析了使用不同sharding策略（基于ID与查询条件）对MapReduce性能的影响，并指出MongoDB MapReduce性能相对较弱，不建议在大规模数据集上直接使用。

这几天又进行了一下mongodb的性能分析，目前我用的是5台的sharding，2.0版本的mongodb，数据量是30G，7千万条记录。索引也有10-15G。测试的是一个mapreduce。先根据index，找到数据，然后再进行类似于group by的distinct和count操作。

我建立了两张表，一个是根据id进行sharding的，一个是根据查询条件进行sharding的，id的sharding中也建立了查询条件的索引。每个测试进行三次，为的是让所有的操作都能在内存中进行，一般来说第一次mapreduce会比较慢，第二三次mapreduce就比较快，时间也是一致的。

在以id为sharding的collection中执行mapredcue花了120秒，而以查询条件为sharding的collection中执行mapredcue中花了260秒。减低mapreduce的复杂度，只做group by的count，时间还是类似的，前置花了0.7秒，后者花了2秒。暂且不管mongodb的mapreduce的性能问题，我们可以得出结论，在分布式计算中，分到多台机器上计算比分到一台机器上计算性能有比较明显的提升。

继续进行试验，将mapreduce改成python脚本，mongodb本书只是做查询操作，把数据取出来后都在用python来进行group by的distinct和count操作。测试的是mongodb的mapreduce性能。

测试结果如下，在id为sharding的情况下mapreduce化了90秒，python脚本花了48秒。在查询条件为sharding的情况下mapredcue花了300秒，python脚本花了50秒。可以得出结论mongodb的mapreduce性能比较差，在本地做计算还不如在client做计算，这是不符合常识的。

mongodb本身的性能还是不错的，但是他的mapreduce性能不足。目前有人在将Hadoop的mapreduce移植到mongodb上，这个倒是一条好方法。