背景介绍
很明显,作者针对之前的filter剪枝进行调整,原有的方法只对L1-NORM值比较低的filter进行剪枝,现在可以看到对于Large norm和meidum norm的filter也进行了剪枝,而且没有将全部的small norm的filter进行剪枝。
这是因为只对L1-NORM值比较低的filter进行剪枝有两个约束条件:
1)权重的标准差足够大 2)权重的最小的L1-norm应该趋近于0
这种情况下分布如图所示
也有可能分布如图所示
1)范数的标准差太小;2)最小范数的值仍然很大。如果出现情况1,很多滤波器有相似的重要性,我们不知道到底应该去掉哪个。如果出现情况2,我们很难找到特征图越接近于0的滤波器。
实际上的分布情况如何?
FPGM方法
一句话概括就是基于几何中位数的滤波器评价指标
几何中位数是对于欧几里得空间的点的中心的一个估计。我们认为滤波器也是欧氏空间中的点,于是我们可以根据计算GM来得到这些滤波器的“中心”,也就是他们的共同性质。如果某个滤波器接近于这个GM,可以认为这个滤波器的信息跟其他滤波器重合,甚至是冗余的,于是我们可以去掉这个滤波器而不对网络产生大的影响。去掉它后,它的功能可以被其他滤波器代替。