我们今天给大家分享一篇知识蒸馏的工作。
我们知道,现如今模型各种各样,效果方面屡创新高。但是,有的时候,效果提升会有效率的牺牲。那么知识蒸馏,就是能够让保证效果的同时,提升效率。这篇文章将给大家来介绍一篇知识蒸馏相关的知识。
原工作链接:https://arxiv.org/pdf/1503.02531
谷歌的三位大佬所著。
一、研究背景:模型训练与部署的矛盾困境
在机器学习的实际应用中,训练模型和部署模型就像两个性格迥异的 “小伙伴”,有着不同的需求。训练模型的时候,我们希望它能从大量数据里 “挖” 出有用的信息,哪怕计算量再大、耗时再久也没关系,就像一个耐心的矿工,慢慢挖掘宝藏。比如在语音识别和物体识别这些任务里,训练模型要处理海量、高度冗余的数据集,从中提取出关键的特征和规律。
但是,当模型训练好要部署到实际场景中时,情况就大不一样了。这时候,对模型的延迟和计算资源的要求变得非常严格。想象一下,你用手机语音搜索的时候,如果模型响应很慢,或者特别耗电,你肯定会觉得体验很差。所以,部署的模型需要能快速给出结果,还不能占用太多资源。
就像昆虫有幼虫和成虫两种形