免费链接: Blogger(需翻Q)
SWA简介
SWA,全程为“Stochastic Weight Averaging”(随机权重平均)。它是一种深度学习中提高模型泛化能力的一种常用技巧。
其思路为:对于模型的权重,不直接使用最后的权重,而是将之前的权重做个平均。
该方法适用于深度学习,不限领域、不限Optimzer,可以和多种技巧同时使用。
SWA公式
我们的模型参数记为: θ = { w 0 ,
免费链接: Blogger(需翻Q)
SWA,全程为“Stochastic Weight Averaging”(随机权重平均)。它是一种深度学习中提高模型泛化能力的一种常用技巧。
其思路为:对于模型的权重,不直接使用最后的权重,而是将之前的权重做个平均。
该方法适用于深度学习,不限领域、不限Optimzer,可以和多种技巧同时使用。
我们的模型参数记为: θ = { w 0 ,