论文阅读笔记：为什么深度神经网络的训练无论多少次迭代永远有效？可能类内分布已经坍缩为一个点，模型已经崩溃为线性分类器

最新推荐文章于 2024-07-17 08:37:16 发布

塔_Tass

最新推荐文章于 2024-07-17 08:37:16 发布

阅读量2.8k

点赞数 4

文章标签：机器学习人工智能深度学习 dnn 神经网络

本文链接：https://blog.csdn.net/weixin_44876302/article/details/121520172

版权

论文阅读笔记：Prevalence of neural collapse during the terminalphase of deep learning training，深度学习训练末期普遍的神经网络崩溃现象

重要性
摘要
简介

美国科学院的一篇在审论文
@article {Papyan24652,
author = {Papyan, Vardan and Han, X. Y. and Donoho, David L.},
title = {Prevalence of neural collapse during the terminal phase of deep learning training},
volume = {117},
number = {40},
year = {2020},
doi = {10.1073/pnas.2015509117},
publisher = {National Academy of Sciences},
issn = {0027-8424},
URL = {https://www.pnas.org/content/117/40/24652},
eprint = {https://www.pnas.org/content/117/40/24652.full.pdf},
journal = {Proceedings of the National Academy of Sciences}
}

重要性

用于图像分类的现代深层神经网络已经取得了甚至超过人类的性能。然而，训练有素的网络的复杂细节迫使大多数从业者和研究人员将其视为黑匣子，几乎无法理解。本文详细考虑了一种现在标准的训练方法：将交叉熵损失训练到零，在分类误差已经为零之后继续很久。将此方法应用于权威的标准deepnet和数据集，我们观察到deepnet的特征和deepnet分类器出现了简单且高度对称的几何结构，我们记录了几何学所传达的重要益处，从而帮助我们理解现代深度学习训练范式的一个重要组成部分。

摘要

训练深度神经网络分类任务的最后阶段（terminal phase of training，以下简称为TPT），该阶段即为始于训练误差首次消失的时期。在TPT过程中，训练误差实际上已经保持为零，而训练损失继续被推向零。通过对TPT过程直接观察，我们发现了一种普遍的归纳偏见，我们称之为神经崩溃（Nerual collapse，以下简称NC）。NC涉及四种深度关联的现象：

NC1：最后一层训练激活的跨示例类内可变性崩溃为零，因为个体激活本身崩溃为其类的意思。
NC2：该类的表示被折叠到单纯形等角紧框架（equiangular tight frame，ETF）的顶点。
NC3：在重新缩放之前，最后一层分类器塌陷为类均值，或者换句话说，塌陷为单纯形ETF（即，塌陷为自对偶配置）。
NC4：对于给定的激活函数，分类器的决策简化为简单地选择具有最接近的平均值的类别（即，基于最近的类别中心[nearest class center，NCC]决策规则）。TPT产生的对称且非常简单的几何体带来了重要的好处，包括更好的泛化性能、更好的鲁棒性和更好的解释性。

简介

我们的观察集中在当今深度学习的标准训练范式上，深度学习是随着时间的推移发展起来的几个基本要素的累积：

1. 网络被训练到了接近可忽略的交叉熵损失，并对样本训练数据进行插值；
2. 网络被过参数化，使得这种记忆成为可能；
3. 而且这些参数在不断增长的深度上分层，允许复杂的特征工程。最近的一系列研究重视训练的典型本质，即远远超越零分类错误，而寻求零损失。我们称零分类错误之后的阶段为训练的终端阶段（TPT）。

在数学统计方面有着标准准备的科学家可能会预期，这种范式产生的线性分类器，作为这种训练的副产品，将是非常任意的，并且在不同实例、不同数据集之间有很大的差异，以及体系结构到体系结构，因此不显示潜在的跨情境不变结构。科学家可能进一步期望，经过充分训练的决策边界和定义这些边界的基本线性分类器的配置将是非常任意的，并且在不同的情况下会发生混乱变化。这种期望可以通过呼吁模型的过度参数化性质和标准参数来支持，即数据中的任何噪声在过度参数化训练期间传播，从而在拟合参数中产生不成比例的变化。

与这些期望相反，我们在这里表明，TPT频繁地诱导了经过训练的deepnet模型的基本数学简单性，特别是在目前被认为是深度学习中经典的许多情况下的分类器和最后一层激活。此外，确定的结构自然表明性能优势。此外，事实上，我们还表明，随着网络泛化性能的提高以及对抗性鲁棒性的增强，这种刚性结构的收敛往往会同时发生。

我们将此过程称为神经崩溃（NC），通过观察最后一层激活函数和分类器可以得到四种典型现象：

NC1 可变性崩溃：随着训练的进行，当这些激活崩溃到其类的意义时，类内激活的变化变得可以忽略。
NC2 收敛到单纯形等角紧框架（ETF）：类内平均值的向量收敛到长度相等，在任何给定对之间形成大小相等的角度，并且是受前两个属性约束的最大成对距离配置。这在数学科学中这被称为单纯形ETF。
NC3 收敛到自对偶性：类意味着线性分类器和线性分类器虽然在数学上完全不同，但在对偶向量空间中的对象彼此收敛，直至重新缩放。结合NC2，这意味着网络分类器的决策完全对称：每个等分类决策区域通过刚性欧氏运动与任何其他此类区域等距；此外，类均值都集中在各自的特定区域内，因此任何两个类之间的混淆程度都不会高于任何其他两个类。
NC4 简化到最近的类中心（NCC）：对于给定的deepnet激活函数，网络分类器收敛到选择具有最近的类平均值（标准欧几里德距离）的类。

图1中是VCG13上NC1至NC3现象的可视化：绿色球体表示标准单纯形的版本，红色球体和棒状物表示线性分类器，蓝色球体和棒状物表示类别平均值，蓝色小球体表示最后一层特征。对于所有对象，我们通过颜色的阴影划分不同的类。随着训练的进行，最后一层特征塌陷到它们的类均值（NC1），类均值收敛到单纯形ETF的顶点（NC2），线性分类器接近它们相应的类均值（NC3）。

在这里插入图片描述

NC1-NC4表明，在广泛的深度学习工程中，具有明确解释性的高度对称和刚性的数学结构自发产生。

NC2意味着不同的特征手段在其构造的特征空间中围绕球体“等间距”；NC3在其自身的对偶空间中对线性分类器表示相同，而且，线性分类器与类“相同”，直到可能的重新缩放。这些数学上的对称性和刚性极大地简化了经过训练的分类器的分析。正如我们在下面所展示的那样，这将以前从理论上获得的定性理解与（NC4）可能的精确和高度受限的预测进行了对比。

（NC1）至（NC4）提供理论上确定的性能优势：抗随机噪声和对抗性噪声的稳定性。我们表明，在TPT过程中，经过训练的模型在泛化性和对抗鲁棒性方面都在提高。

塔_Tass

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记：为什么深度神经网络的训练无论多少次迭代永远有效？可能类内分布已经坍缩为一个点，模型已经崩溃为线性分类器

论文阅读笔记：Prevalence of neural collapse during the terminalphase of deep learning training，深度学习训练末期普遍的神经网络崩溃现象重要性摘要简介美国科学院的一篇在审论文@article {Papyan24652,author = {Papyan, Vardan and Han, X. Y. and Donoho, David L.},title = {Prevalence of neural collapse d
复制链接

扫一扫