论文阅读笔记（14）：DEEP NETWORKS FROM THE PRINCIPLE OF RATE REDUCTION, 从率下降原理看深度网络

本文链接：https://blog.csdn.net/weixin_44876302/article/details/119782663

论文阅读笔记（14）：DEEP NETWORKS FROM THE PRINCIPLE OF RATE REDUCTION，从率下降原理看深度网络

1 介绍和动机
2 技术实现

拜读马毅老师的 maximal coding rate reduction (MCR $^2$ )
部分小节略过

1 介绍和动机

近年来，各种深度（卷积）网络架构，如AlexNet、VGG、ResNet、DenseNet、递归CNN、LSTM、胶囊网络等，在实际数据集（如语音和图像）的分类任务中表现出非常好的性能。然而，几乎所有此类网络，包括其架构、算子和训练方式，都是通过多年的经验和试错开发的。最近的一些实践甚至走到了极端，通过广泛的随机搜索技术来寻找有效的网络结构和训练策略，如神经架构搜索（Zoph&Le，2017；Baker等人，2017年）、AutoML（Hutter等人，2019年）和Learning to Learning（Andrychowicz等人，2016年）。

尽管在经验上取得了巨大的进步，但对于“深层”网络体系结构的必要性或原因仍然缺乏严格的理论证明，并且对每一层中的相关算子（例如，多通道卷积和非线性激活）缺乏基本的理解。因此，深度网络通常是经过启发式设计和训练，然后作为“黑箱”使用。每个阶段都严重缺乏指导原则：对于给定的任务，网络应该有多宽或多深？多个（卷积）通道之间的作用和关系是什么？网络的哪些部分需要学习和训练，哪些可以提前确定？如何评估结果网络的最优性？因此，除了经验评估外，通常不可能为经过训练的网络的某些性能提供任何严格的保证，例如变换不变性、或噪音过拟合甚至任意标签（Zhang等人，2017年）。

在本文中，我们不打算解决所有这些问题，但我们将试图通过从第一性原理导出一类深度网络来提供合理解释。我们认为，现代深度（卷积）神经网络的所有关键特征和结构都可以自然地从优化一个原则性目标中获得，即Yu等人（2020）最近提出的率下降（rate reduction），该目标寻求数据的紧凑判别（不变的）表示。更具体地说，用于优化目标的基本迭代梯度上升法自然采用深度神经网络的形式，每次迭代一层。

这种原则性的方法带来了：

首先，网络的架构、算子和参数可以以正向传播的方式逐层显式构建，并且都继承了精确的优化、统计和几何解释。因此，如此构造的“白盒”深度网络已经提供了良好的判别表示（并实现了良好的分类性能），而无需任何反向传播来训练深度网络。
其次，在寻求对移位或平移严格不变的表示的情况下，网络自然适合于多通道卷积网络。此外，推导表明，这种卷积网络在（傅里叶）频域中学习和构造的计算效率更高。

2 技术实现

考虑基本的分类任务：给定 $m$ 个样本 $\textbf X = [x^1,...,x^m]\in \mathbb R^{n\times m}$ 和对应 $k$ 个类的中的所属关系 $\pi (x^i)\in [k]$ 。传统上深度网络直接从输入数据 $x\in\mathbb R^n$ 到label进行映射 $f(x,\theta):x\mapsto y\in\mathbb R^k$ 。注意到 $y\in\mathbb R^k$ 意味着label是one-hot的。而 $\theta$ 则是网络的参数，通过梯度下降型反向传播法来学习最小化一个特定的损失函数（如交叉熵）。

虽然这种流行的方法为人们提供了一种直接而有效的方法来训练网络，但是这种学习的表达方式是隐式的，缺乏明确的解释。

2.1 率下降和群不变性（group invariance）原理

2.1.1 最大编码率下降（Maximal Coding Rate Reduction）

为了更好地理解在深度网络中学习到的特征，Yu等人最近的工作认为，（深度）学习的目标是先学习数据x的紧凑、有判别力、和多样的特征表示 $z=f(x)\in\mathbb R^n$ ，然后用于任何下游任务（如分类）：
在这里插入图片描述
也就是说，这实际上并非直接把输入 $x$ 拿去fit标签 $y$ ，我们的目标应当先学映射 $f (x)$ 来把 $x$ 变换到 $z$ ，它属于一组最具有判别力的、低维的、线性子空间集合 $\{\mathcal S^j\}^k_{j=1}\subset \mathbb R^n$ ，每个类 $\mathcal S^j$ 对应一个子空间 $j\in[k]$ 。

令 $Z=[z^1,...,z^m]=[f(x^1),...,f(x^m)]$ 给定数据集 $X$ 的features。不妨假设这些features都被规范化为单位范数： $z^i\in\mathbb S^{n-1}$ 。为方便期间，令 $\Pi^j\in\mathbb R^{m\times m}$ 为对角阵，其对角元素编码属于第 $j$ 类的样本/特征： $\Pi^j(i,i)=\pi(x^i)=\pi(z^i)$ 。

之后根据有损数据压缩原理（principles from lossy data compression），Yu等人（2020）提出了最佳的表达 $Z_*\subset \mathbb S^{n-1}$ 应当最大化下面的编码率下降目标函数（也就是MCR $^2$ ）：
在这里插入图片描述
其中：

给定一个规定的量化误差 $\epsilon$ , $∆ R (Z)$ 的第一项 $R (z)$ 度量所有特征 $Z$ 的总编码长度，第二项 $R_c(Z,\Pi)$ 是 $k$ 类中每个特征的编码长度之和。

在Yu等人（2020年）中，作者展示了最佳表达 $Z$ 使上述目标最大化的方法确实具有令人满意的效果。然而，他们采用了传统的深度网络（如ResNet）作为黑盒来建模和参数化特征映射： $z = f (x, θ)$ 。经验表明，通过这样的选择，可以有效地优化MCR $^2$ 目标，并获得用于对真实图像数据进行分类的区分性和多样性表示。

然而，仍然存在一些尚未解决的问题。虽然生成的特征表示更具可解释性，但网络本身仍然不具有可解释性。不清楚为什么任何选择的网络都能够优化预期的MCR $^2$ 目标：是否存在任何潜在的限制？良好的经验结果（比如使用ResNet）并不一定证明网络架构和算子的特定选择是合理的：为什么需要分层模型？多宽和多深是足够的？使用卷积和非线性运营商是否有严格的理由？在第2.2节中，我们展示了使用梯度上升来最大化速率下降 $∆ R (Z)$ 自然会导致一个代表这种映射的“白盒”深度网络。网络的所有线性/非线性算子和参数均以纯正向传播方式显式构造。

2.1.2 群不变性率下降（Group Invariant Rate Reduction）

到目前为止，我们将数据和特征视为向量。在许多应用中，如串行数据或图像数据，数据的语义（标签）及其特征对某些变换 $\mathcal g\in\mathbb G$ 具有不变性。例如，音频信号的含义对时移是不变的；图像的含义对图像平移是不变的。因此，我们需要特征映射 $f (x, θ)$ 对此类变换严格不变：

在这里插入图片描述
其中” $\sim$ ” 表示属于同一等效类的两个要素。在第2.3节中，我们展示了MCR $^2$ 原理以一种非常自然和精确的方式与不变性兼容：我们只需要指定所有变换后的版本 $\{x◦\mathfrak g|\mathfrak g∈\mathbb G\}$ 将它们都映射到同一子空间 $\mathcal S$ 。当群G是（离散的）循环1-D或2-D平移时，产生的深度网络自然成为多通道卷积网络！