syncbn在TensorFlow中的实现

最新推荐文章于 2024-08-19 10:45:33 发布

yjl9122

最新推荐文章于 2024-08-19 10:45:33 发布

阅读量2.7k

点赞数 1

分类专栏： tensorflow

本文链接：https://blog.csdn.net/yjl9122/article/details/84729057

版权

tensorflow 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在syncbn之前我们先简单介绍一下BN层以及多卡机制

BN层介绍
BN层中有两个可训练参数（beta, gamma），以及两个统计参数（moving mean, moving variance）。训练过程和测试过程，BN层计算方式是不同的。训练过程，beta和gamma与卷积层中的weight是一样参与训练的，然后moving mean与moving variance由当前的batch mean和batch variance统计的，可以在训练过程的BN层可以用下列公式表示：
$\gamma \times \frac{x- mean_{batch}}{\sqrt{variance_{batch} + \varepsilon}} + \beta$
$mean_{moving}=decay \times mean_{moving} + (1-decay) \times mean_{batch}$
$variance_{moving} = decay \times variance_{moving} + (1-decay) \times variance_{batch}$
测试过程（以及BN层不参与训练时），beta和gamma采用跟weight相同的使用方式，然而使用moving mean和moving variance替代batch mean和batch variance，所以测试过程中的BN层可以用下列公式表示：
$\gamma \times \frac{x- mean_{moving}}{\sqrt{variance_{moving} + \varepsilon}} + \beta$
多卡机制
目前的多卡训练可以分成异步式和同步式。我们这里讲同步式，同步式是指将模型复制到各个GPU上，数据切分分发到各个GPU上，如resnet50模型复制到8个GPU上，如果batch size=256, 那么每个GPU上的batch size=256/8=32。由于tensorflow, pytorch, caffe, caffe2等开源网络框架对于效率的考虑，且在传统图像分类任务中，单卡的batch size就能设置的很大对于BN层的统计影响不大，所以各大网络框架都没有做BN的同步（moving mean和moving variance的同步）。然而对于semantic segmentaion，object detection等任务来说，单卡统计的数量很小甚至为1，所以BN层中moving mean, mean variance存在很大的扰动，这便造成了BN层的失效。通过以上的分析可以看出BN的同步很有必要。对于BN层的更多实验结果可以参照旷视的文章《MegDet:A Large Mini-Batch Object Detector》
多卡同步
对于pytorch的多卡BN层同步已经有了一些解决方案，如 syncbn-pytorch 。对于MXNet的多卡同步已经被整合到了官方的API中。对于TensorFlow也有一些方法，如将每个操作均同步如：

def relu(list_input):
    assert type(list_input) == list
    list_output = []
    for i in range(len(list_input)):
        with tf.device('/gpu:%d' % i):
            output = tf.nn.relu(list_input[i], name='relu')
            list_output.append(output)
    return list_output

但是这种方式代码量略大。tensorpack大神也提出了他们的方法，但是他们的方法也需要依赖tensorpack。我实现了一下syncbn-tensorflow，具体实现可以看 syncbn-tensorflow，这种方式可以对原来的代码进行非常小的改动，就能实现多卡同步了。