论文阅读笔记:为什么深度神经网络的训练无论多少次迭代永远有效?可能类内分布已经坍缩为一个点,模型已经崩溃为线性分类器

论文阅读笔记:Prevalence of neural collapse during the terminalphase of deep learning training,深度学习训练末期普遍的神经网络崩溃现象


美国科学院的一篇在审论文
@article {Papyan24652,
author = {Papyan, Vardan and Han, X. Y. and Donoho, David L.},
title = {Prevalence of neural collapse during the terminal phase of deep learning training},
volume = {117},
number = {40},
year = {2020},
doi = {10.1073/pnas.2015509117},
publisher = {National Academy of Sciences},
issn = {0027-8424},
URL = {https://www.pnas.org/content/117/40/24652},
eprint = {https://www.pnas.org/content/117/40/24652.full.pdf},
journal = {Proceedings of the National Academy of Sciences}
}

重要性

用于图像分类的现代深层神经网络已经取得了甚至超过人类的性能。然而,训练有素的网络的复杂细节迫使大多数从业者和研究人员将其视为黑匣子,几乎无法理解。本文详细考虑了一种现在标准的训练方法:将交叉熵损失训练到零,在分类误差已经为零之后继续很久。将此方法应用于权威的标准deepnet和数据集,我们观察到deepnet的特征和deepnet分类器出现了简单且高度对称的几何结构,我们记录了几何学所传达的重要益处,从而帮助我们理解现代深度学习训练范式的一个重要组成部分。

摘要

训练深度神经网络分类任务的最后阶段(terminal phase of training, 以下简称为TPT),该阶段即为始于训练误差首次消失的时期。在TPT过程中,训练误差实际上已经保持为零,而训练损失继续被推向零。通过对TPT过程直接观察,我们发现了一种普遍的归纳偏见,我们称之为神经崩溃(Nerual collapse,以下简称NC)。NC涉及四种深度关联的现象:

  1. NC1:最后一层训练激活的跨示例类内可变性崩溃为零,因为个体激活本身崩溃为其类的意思。
  2. NC2:该类的表示被折叠到单纯形等角紧框架(equiangular tight frame,ETF)的顶点。
  3. NC3:在重新缩放之前,最后一层分类器塌陷为类均值,或者换句话说,塌陷为单纯形ETF(即,塌陷为自对偶配置)。
  4. NC4:对于给定的激活函数,分类器的决策简化为简单地选择具有最接近的平均值的类别(即,基于最近的类别中心[nearest class center,NCC]决策规则)。TPT产生的对称且非常简单的几何体带来了重要的好处,包括更好的泛化性能、更好的鲁棒性和更好的解释性。

简介

我们的观察集中在当今深度学习的标准训练范式上,深度学习是随着时间的推移发展起来的几个基本要素的累积:

1. 网络被训练到了接近可忽略的交叉熵损失,并对样本训练数据进行插值;
2. 网络被过参数化,使得这种记忆成为可能;
3. 而且这些参数在不断增长的深度上分层,允许复杂的特征工程。最近的一系列研究重视训练的典型本质,即远远超越零分类错误,而寻求零损失。我们称零分类错误之后的阶段为训练的终端阶段(TPT)。

在数学统计方面有着标准准备的科学家可能会预期,这种范式产生的线性分类器,作为这种训练的副产品,将是非常任意的,并且在不同实例、不同数据集之间有很大的差异,以及体系结构到体系结构,因此不显示潜在的跨情境不变结构。科学家可能进一步期望,经过充分训练的决策边界和定义这些边界的基本线性分类器的配置将是非常任意的,并且在不同的情况下会发生混乱变化。这种期望可以通过呼吁模型的过度参数化性质和标准参数来支持,即数据中的任何噪声在过度参数化训练期间传播,从而在拟合参数中产生不成比例的变化。

与这些期望相反,我们在这里表明,TPT频繁地诱导了经过训练的deepnet模型的基本数学简单性,特别是在目前被认为是深度学习中经典的许多情况下的分类器和最后一层激活。此外,确定的结构自然表明性能优势。此外,事实上,我们还表明,随着网络泛化性能的提高以及对抗性鲁棒性的增强,这种刚性结构的收敛往往会同时发生。

我们将此过程称为神经崩溃(NC),通过观察最后一层激活函数和分类器可以得到四种典型现象:

  1. NC1 可变性崩溃:随着训练的进行,当这些激活崩溃到其类的意义时,类内激活的变化变得可以忽略。

  2. NC2 收敛到单纯形等角紧框架(ETF):类内平均值的向量收敛到长度相等,在任何给定对之间形成大小相等的角度,并且是受前两个属性约束的最大成对距离配置。这在数学科学中这被称为单纯形ETF。

  3. NC3 收敛到自对偶性:类意味着线性分类器和线性分类器虽然在数学上完全不同,但在对偶向量空间中的对象彼此收敛,直至重新缩放。结合NC2,这意味着网络分类器的决策完全对称:每个等分类决策区域通过刚性欧氏运动与任何其他此类区域等距;此外,类均值都集中在各自的特定区域内,因此任何两个类之间的混淆程度都不会高于任何其他两个类。

  4. NC4 简化到最近的类中心(NCC):对于给定的deepnet激活函数,网络分类器收敛到选择具有最近的类平均值(标准欧几里德距离)的类。

图1中是VCG13上NC1至NC3现象的可视化:绿色球体表示标准单纯形的版本,红色球体和棒状物表示线性分类器,蓝色球体和棒状物表示类别平均值,蓝色小球体表示最后一层特征。对于所有对象,我们通过颜色的阴影划分不同的类。随着训练的进行,最后一层特征塌陷到它们的类均值(NC1),类均值收敛到单纯形ETF的顶点(NC2),线性分类器接近它们相应的类均值(NC3)。

在这里插入图片描述

NC1-NC4表明,在广泛的深度学习工程中,具有明确解释性的高度对称和刚性的数学结构自发产生。

NC2意味着不同的特征手段在其构造的特征空间中围绕球体“等间距”;NC3在其自身的对偶空间中对线性分类器表示相同,而且,线性分类器与类“相同”,直到可能的重新缩放。这些数学上的对称性和刚性极大地简化了经过训练的分类器的分析。正如我们在下面所展示的那样,这将以前从理论上获得的定性理解与(NC4)可能的精确和高度受限的预测进行了对比。

(NC1)至(NC4)提供理论上确定的性能优势:抗随机噪声和对抗性噪声的稳定性。我们表明,在TPT过程中,经过训练的模型在泛化性和对抗鲁棒性方面都在提高。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 量子力学并不能解释为什么会经常梦到一个人。量子力学是一门物理学科,主要研究物质的微观现象,如原子和分子的行为。相比之下,梦境和梦想的生成是由人类大脑的心理、情绪和记忆等复杂因素影响的,不能用量子力学来解释。 ### 回答2: 使用量子力学来解释为什么会经常梦到一个人是一种有趣但也有一定困难的尝试。量子力学是研究微观世界的物理学理论,而人类梦境的产生和经验是复杂的心理和神经过程。然而,我们可以从某种程度上用量子力学来解释这种现象。 首先,量子力学中的一个基本假设是波粒二象性,即粒子既可以表现为粒子也可以表现为波动。我们可以将人作为波函数来描述,波函数的坍缩与梦境的产生有某种联系。在睡眠时,人脑处于不同的意识状态,可能与量子态之间存在某种对应关系。当我们梦到一个人时,波函数可能发生坍缩,这使得我们在梦中形成了特定的体验。 其,量子纠缠理论可以用来解释为什么会经常梦到一个人。纠缠是量子系统之间存在的一种特殊关系,其中一个系统的状态与另一个系统的状态紧密相关。类似地,在梦境中,梦境与我们经常梦到的那个人之间可能存在某种特殊的纠缠关系。这可能是因为我们对这个人有强烈的情感纠缠,或者与他/她有重要的关系,因此在梦境中反映出来。 然而,需要注意的是,量子力学只是一种物理理论,不一定能够完全解释复杂的心理现象。梦境是一个包含了多种因素的综合体验,包括记忆、情感和神经活动。因此,我们仍然需要借助神经科学和心理学等其他领域的观点来更全面地理解为什么会经常梦到一个人。 ### 回答3: 量子力学是一种描述微观世界的物理理论,在解释为什么会经常梦到一个人这个问题上,我们可以从量子理论的角度进行思考。 根据量子力学的观点,一切都是由微观粒子组成的,而这些微观粒子的行为是不确定的。当我们进入梦境时,我们的大脑开始处于不同的状态,这可能导致我们在梦中经历不同的事物和人。然而,当我们频繁梦到一个人时,这可能与量子力学中的量子纠缠现象有关。 量子纠缠是指两个或多个微观粒子之间存在着紧密联系的情况。纠缠的粒子无论彼此之间有多远的距离,它们的状态会相互影响,一方的状态发生改变会立即影响到另一方。类似地,当我们频繁地与一个人产生情感关联时,在量子层面上,我们的精神可能与该人的精神之间存在着某种形式的量子纠缠。 这种量子纠缠可能是由于我们与这个人之间的情感联系、共同经历或共同关注点导致的。当我们处于梦境的状态时,我们的意识进入了一种非常细微的量子状态,这种状态允许我们与我们在现实世界中纠缠的人产生更为深入的沟通。因此,我们可能会频繁地在梦中与这个人相遇或与之互动。 另外,量子力学还涉及到观察者的作用。根据量子理论,观察者的存在会影响到微观粒子的状态。当我们梦到一个人时,我们是自己梦境中的观察者,这个人可能是我们在现实中非常关注或思念的对象。我们对这个人的强烈意识和潜意识的关注可能会在梦境中改变我们的精神状态,使我们频繁地梦到这个人。 综上所述,通过量子纠缠和观察者效应的概念,我们可以用量子力学的解释为什么会经常梦到一个人。然而,需要注意的是,这种解释仅为一种可能性,尚需进一步的研究来验证这一理论。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值