论文地址 http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/11977/12130
总结
代替Distilling the knowledge in a neural network (Hinton 2015)中作为知识的soft target,从隐藏层的神经元学习知识,同时考虑到神经元可能包含噪声或无关信息,需要对神经元进行选择,经过选择之后的特征作为训练学生网络的回归对象
思考:什么是有用的知识?
分两步,首先对teacher network的神经元进行选择,然后将选择之后神经元的输出作为监督信息来指导student network的训练,问题:是否要求学生网络的输出特征等于老师网络选择之后的特征图通道数和大小?
问题2:首先对老师网络进行剪枝,然后利用剪枝后神经元的输出指导学生网络训练?
知识设计的目的or本文针对的问题
在人脸识别领域,类别维数高,利用softmax输出(类别概率)作为知识的模型难收敛
主要贡献
1,更紧凑的监督信息加速收敛——最后一个fc层的输出不要求是N维,N表示类别数,只需要等于选择之后的神经元个数
2,揭露了人脸识别中的三个观察结果,由此设计了一种有效的神经元选择方式
为什么要进行神经元选择?
三个观察结果:
1,人脸识别任务