模型压缩
接上一章,在实际工程中,我们往往希望在保证一定性能的基础上,尽量的降低运算量和参数量,从而最大可能的利用计算资源。当我们拿到一个性能比较优越的模型,却又苦于它巨大的参数运算量时,我们往往会采取一些模型压缩的手段,这是因为,当模型很大时,它一定是会有很多信息是冗余的,比如说某些参数在你这个任务中所起到的作用很小,而这种参数又很多时,就可以通过将它剔除以达到模型压缩的效果。
常见的模型压缩方法有:模型裁剪(prune)、权值量化(Quantization)、稀疏化(sparsity)、特殊编码(coding)等等。有不少文章对这些方法进行了研究,比较有名的有,HanSong在2016年ICLR的best paper:Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding、以及他们团队今年的Exploring the Regularity of S