MxNet系列——how_to——perf

最新推荐文章于 2017-02-09 11:27:22 发布

xuezhisdc

最新推荐文章于 2017-02-09 11:27:22 发布

阅读量605

点赞数 1

分类专栏： MxNet 文章标签： MxNet 深度学习翻译

本文链接：https://blog.csdn.net/xuezhisdc/article/details/54927566

版权

25 篇文章 8 订阅

订阅专栏

博客新址: http://blog.xuezhisd.top
邮箱：xuezhisd@126.com

性能

下面是一些技巧，以尽可能的获取MXNet的最佳性能。

对于输入数据，需要注意以下内容：

数据格式。尽量使用 rec 格式。
解码。MXNet默认使用4个线程对图像进行解码。这对于每秒钟解码1000张图像来说，已经足够了。但如果你的CPU性能很差，或你的GPU性能很高，你可以增加线程数。
存储位置。任何的本地或分布式文件系统（HDFS, Amazon S3）都可以。但当多个设备同时从网络文件系统（NFS）读取数据时，就会出现问题。
使用较大的批。我们一般使用能填满GPU内存的最大批。如果批大小的值太大，会减慢收敛速度。例如，对于CIFAR10来说，安全的批大小大约为200；然而对于ImageNet1000来说，批大小的值可以超过1000。

使用一个快速的线性代数计算库（BLAS）：比如，openblas, atlas, 或 MKL。只有使用CPU时，这一条才是必要的。如果使用GPU的话，强烈建议使用 CUDNN。
如果使用多个GPU，选择合适的 kvstore。需要更多信息，请查看 doc/developer-guide/multi_node.md。
对于单个设备，默认值 local 一般已经足够了。对于大于100 MB的网络模型，比如 AlexNet和VGG，你可能会希望使用 local_allreduce_device。local_allreduce_device 比其它设置获取更多的GPU内存。
对于多个设备，首先尝试使用 dist_sync。如果模型非常大，或正在使用大量的设备，你可能会希望使用 dist_async。