论文阅读笔记(14):DEEP NETWORKS FROM THE PRINCIPLE OF RATE REDUCTION,从率下降原理看深度网络
拜读马毅老师的 maximal coding rate reduction (MCR 2 ^2 2)
部分小节略过
1 介绍和动机
近年来,各种深度(卷积)网络架构,如AlexNet、VGG、ResNet、DenseNet、递归CNN、LSTM、胶囊网络等,在实际数据集(如语音和图像)的分类任务中表现出非常好的性能。然而,几乎所有此类网络,包括其架构、算子和训练方式,都是通过多年的经验和试错开发的。最近的一些实践甚至走到了极端,通过广泛的随机搜索技术来寻找有效的网络结构和训练策略,如神经架构搜索(Zoph&Le,2017;Baker等人,2017年)、AutoML(Hutter等人,2019年)和Learning to Learning(Andrychowicz等人,2016年)。
尽管在经验上取得了巨大的进步,但对于“深层”网络体系结构的必要性或原因仍然缺乏严格的理论证明,并且对每一层中的相关算子(例如,多通道卷积和非线性激活)缺乏基本的理解。因此,深度网络通常是经过启发式设计和训练,然后作为“黑箱”使用。每个阶段都严重缺乏指导原则:对于给定的任务,网络应该有多宽或多深?多个(卷积)通道之间的作用和关系是什么?网络的哪些部分需要学习和训练,哪些可以提前确定?如何评估结果网络的最优性?因此,除了经验评估外,通常不可能为经过训练的网络的某些性能提供任何严格的保证,例如变换不变性、或噪音过拟合甚至任意标签(Zhang等人,2017年)。
在本文中,我们不打算解决所有这些问题,但我们将试图通过从第一性原理导出一类深度网络来提供合理解释。我们认为,现代深度(卷积)神经网络的所有关键特征和结构都可以自然地从优化一个原则性目标中获得,即Yu等人(2020)最近提出的率下降(rate reduction),该目标寻求数据的紧凑判别(不变的)表示。更具体地说,用于优化目标的基本迭代梯度上升法自然采用深度神经网络的形式,每次迭代一层。
这种原则性的方法带来了:
-
首先,网络的架构、算子和参数可以以正向传播的方式逐层显式构建,并且都继承了精确的优化、统计和几何解释。因此,如此构造的“白盒”深度网络已经提供了良好的判别表示(并实现了良好的分类性能),而无需任何反向传播来训练深度网络。
-
其次,在寻求对移位或平移严格不变的表示的情况下,网络自然适合于多通道卷积网络。此外,推导表明,这种卷积网络在(傅里叶)频域中学习和构造的计算效率更高。
2 技术实现
考虑基本的分类任务:给定 m m m个样本 X = [ x 1 , . . . , x m ] ∈ R n × m \textbf X = [x^1,...,x^m]\in \mathbb R^{n\times m} X=[x1,...,xm]∈Rn×m和对应 k k k个类的中的所属关系 π ( x i ) ∈ [ k ] \pi (x^i)\in [k] π(xi)∈[k]。传统上深度网络直接从输入数据 x ∈ R n x\in\mathbb R^n x∈Rn到label进行映射 f ( x , θ ) : x ↦ y ∈ R k f(x,\theta):x\mapsto y\in\mathbb R^k f(x,θ):x↦y∈Rk。注意到 y ∈ R k y\in\mathbb R^k y∈Rk意味着label是one-hot的。而 θ \theta θ则是网络的参数,通过梯度下降型反向传播法来学习最小化一个特定的损失函数(如交叉熵)。
虽然这种流行的方法为人们提供了一种直接而有效的方法来训练网络,但是这种学习的表达方式是隐式的,缺乏明确的解释。
2.1 率下降和群不变性(group invariance)原理
2.1.1 最大编码率下降(Maximal Coding Rate Reduction)
为了更好地理解在深度网络中学习到的特征,Yu等人最近的工作认为,(深度)学习的目标是先学习数据x的紧凑、有判别力、和多样的特征表示
z
=
f
(
x
)
∈
R
n
z=f(x)\in\mathbb R^n
z=f(x)∈Rn,然后用于任何下游任务(如分类):
也就是说,这实际上并非直接把输入
x
x
x拿去fit标签
y
y
y,我们的目标应当先学映射
f
(
x
)
f(x)
f(x)来把
x
x
x变换到
z
z
z,它属于一组最具有判别力的、低维的、线性子空间集合
{
S
j
}
j
=
1
k
⊂
R
n
\{\mathcal S^j\}^k_{j=1}\subset \mathbb R^n
{Sj}j=1k⊂Rn,每个类
S
j
\mathcal S^j
Sj对应一个子空间
j
∈
[
k
]
j\in[k]
j∈[k]。
令 Z = [ z 1 , . . . , z m ] = [ f ( x 1 ) , . . . , f ( x m ) ] Z=[z^1,...,z^m]=[f(x^1),...,f(x^m)] Z=[z1,...,zm]=[f(x1),...,f(xm)]给定数据集 X X X的features。不妨假设这些features都被规范化为单位范数: z i ∈ S n − 1 z^i\in\mathbb S^{n-1} zi∈Sn−1。为方便期间,令 Π j ∈ R m × m \Pi^j\in\mathbb R^{m\times m} Πj∈Rm×m为对角阵,其对角元素编码属于第 j j j类的样本/特征: Π j ( i , i ) = π ( x i ) = π ( z i ) \Pi^j(i,i)=\pi(x^i)=\pi(z^i) Πj(i,i)=π(xi)=π(zi)。
之后根据有损数据压缩原理(principles from lossy data compression),Yu等人(2020)提出了最佳的表达
Z
∗
⊂
S
n
−
1
Z_*\subset \mathbb S^{n-1}
Z∗⊂Sn−1应当最大化下面的编码率下降目标函数(也就是MCR
2
^2
2):
其中:
给定一个规定的量化误差
ϵ
\epsilon
ϵ,
∆
R
(
Z
)
∆R(Z)
∆R(Z)的第一项
R
(
z
)
R(z)
R(z)度量所有特征
Z
Z
Z的总编码长度,第二项
R
c
(
Z
,
Π
)
R_c(Z,\Pi)
Rc(Z,Π)是
k
k
k类中每个特征的编码长度之和。
在Yu等人(2020年)中,作者展示了最佳表达 Z Z Z 使上述目标最大化的方法确实具有令人满意的效果。然而,他们采用了传统的深度网络(如ResNet)作为黑盒来建模和参数化特征映射: z = f ( x , θ ) z=f(x,θ) z=f(x,θ)。经验表明,通过这样的选择,可以有效地优化MCR 2 ^2 2目标,并获得用于对真实图像数据进行分类的区分性和多样性表示。
然而,仍然存在一些尚未解决的问题。虽然生成的特征表示更具可解释性,但网络本身仍然不具有可解释性。不清楚为什么任何选择的网络都能够优化预期的MCR 2 ^2 2目标:是否存在任何潜在的限制?良好的经验结果(比如使用ResNet)并不一定证明网络架构和算子的特定选择是合理的:为什么需要分层模型?多宽和多深是足够的?使用卷积和非线性运营商是否有严格的理由?在第2.2节中,我们展示了使用梯度上升来最大化速率下降 ∆ R ( Z ) ∆R(Z) ∆R(Z)自然会导致一个代表这种映射的“白盒”深度网络。网络的所有线性/非线性算子和参数均以纯正向传播方式显式构造。
2.1.2 群不变性率下降(Group Invariant Rate Reduction)
到目前为止,我们将数据和特征视为向量。在许多应用中,如串行数据或图像数据,数据的语义(标签)及其特征对某些变换 g ∈ G \mathcal g\in\mathbb G g∈G具有不变性。例如,音频信号的含义对时移是不变的;图像的含义对图像平移是不变的。因此,我们需要特征映射 f ( x , θ ) f(x,θ) f(x,θ)对此类变换严格不变:
其中”
∼
∼
∼” 表示属于同一等效类的两个要素。在第2.3节中,我们展示了MCR
2
^2
2原理以一种非常自然和精确的方式与不变性兼容:我们只需要指定所有变换后的版本
{
x
◦
g
∣
g
∈
G
}
\{x◦\mathfrak g|\mathfrak g∈\mathbb G\}
{x◦g∣g∈G} 将它们都映射到同一子空间
S
\mathcal S
S。当群G是(离散的)循环1-D或2-D平移时,产生的深度网络自然成为多通道卷积网络!
2.2 从最优化率下降角度看深度网络
2.2.1 在训练数据时率下降的梯度上升法
首先,考虑对特征
Z
∈
S
n
−
1
Z\in \mathbb S^{n-1}
Z∈Sn−1最小化作为目标函数的
Δ
R
(
X
)
\Delta R(X)
ΔR(X)。对此我们使用步幅
η
>
0
\eta >0
η>0的梯度上升法:
该方法可解释为如何增量调整当前特征
Z
ℓ
Z_\ell
Zℓ的位置,以使修正后的
Z
ℓ
+
1
Z_{\ell+1}
Zℓ+1改善速下降
∆
R
(
Z
)
∆R(Z)
∆R(Z)。简单计算表明,梯度
∂
∆
R
∂
Z
\frac{∂∆R}{∂Z}
∂Z∂∆R需要计算公式(1)中以下项的导数:
[ l o g d e t ( A ) ] ′ = A − 1 ⋅ A ′ [logdet(A)]'=A^{-1}\cdot A' [logdet(A)]′=A−1⋅A′
注意,上式中 E ℓ E_\ell Eℓ项只取决于 Z ℓ Z_\ell Zℓ,且它的目标是扩展所有特征以提高总体编码率;矩阵 C ℓ j C_\ell^j Cℓj取决于每个类的特征,旨在压缩它们以降低每个类的编码率。那么完整的梯度是以下形式:
类间扩展,类内压缩,相当于把互相纠缠每个子空间独立出来,就好分类了
Remark 1 (对线性算子 E ℓ E_\ell Eℓ和 C ℓ j C_\ell^j Cℓj的解释)
对于任意特征
z
ℓ
∈
R
n
z_\ell\in\mathbb R^n
zℓ∈Rn,有:
请注意,
q
ℓ
∗
q^*_\ell
qℓ∗ 正是所有相关数据点
Z
ℓ
Z_\ell
Zℓ的岭回归解。因此,当m足够大时,
E
ℓ
E_\ell
Eℓ(类似于
C
ℓ
j
C_\ell^j
Cℓj)近似于:由
Z
ℓ
Z_\ell
Zℓ的列所张成(span)的子空间的正交补上的投影。
另一种对矩阵 E ℓ E_\ell Eℓ解释是根据协方差矩阵 Z ℓ Z ℓ ∗ Z_\ell Z^*_\ell ZℓZℓ∗的特征值分解。设 Z ℓ Z ℓ ∗ Z_\ell Z^*_\ell ZℓZℓ∗的特征分解表示为: Z ℓ Z ℓ ∗ = U ℓ Λ ℓ U ℓ ∗ , Λ ℓ = d i a g { σ 1 , . . . , σ d } Z_\ell Z^*_\ell = U_\ell \Lambda_\ell U^*_\ell,\Lambda_\ell=diag\{\sigma_1,...,\sigma_d\} ZℓZℓ∗=UℓΛℓUℓ∗,Λℓ=diag{σ1,...,σd},那么有:
因此,矩阵E通过拉伸对向量z进行运算,从而缩小大变化的方向,同时保持消失变化的方向。这些正是我们移动特征的方向(4),这样整体体积会扩大,编码率会增加,因此是正号。相反,与(5)相关联的方向是每类特征的“残差”,偏离了它们应该属于的子空间。这些正是特征需要压缩回各自子空间的方向,因此是负号(见图1)。
本质上,梯度上升中用于率下降的线性运算 E ℓ E_\ell Eℓ和 C ℓ j C_\ell^j Cℓj是由进行“岭回归”的训练数据确定的。最近对过参数化环境下岭回归的重新认识指出,使用看似冗余的采样数据(来自每个子空间)作为回归器不会导致过度拟合。
2.2.2 梯度引导的feature map递增
之前提到的梯度递增将所有的特征
Z
ℓ
=
[
z
ℓ
1
,
.
.
.
,
z
ℓ
m
]
Z_\ell=[z^1_\ell,...,z^m_\ell]
Zℓ=[zℓ1,...,zℓm]作为自由变量,每次迭代的增量
Z
ℓ
+
1
−
Z
ℓ
=
η
∂
∆
R
∂
Z
∣
Z
ℓ
Z_{\ell+1}-Z_\ell=\eta \frac{∂∆R}{∂Z}|_{Z_\ell}
Zℓ+1−Zℓ=η∂Z∂∆R∣Zℓ尚未对整个特征域
z
ℓ
∈
R
n
z_\ell∈\mathbb R^n
zℓ∈Rn进行变换,因此,为了显式地求解最佳
f
(
x
,
θ
)
f(x,\theta)
f(x,θ),我们可以考虑在
ℓ
\ell
ℓ层特征
Z
ℓ
Z_\ell
Zℓ上构造一个小增量变换
g
(
⋅
,
θ
ℓ
)
g(·,\theta_\ell)
g(⋅,θℓ)来模拟上述(投影)梯度:
使得:
也就是说,我们需要近似梯度流 ∂ ∆ R ∂ Z \frac{∂∆R}{∂Z} ∂Z∂∆R,通过再整个特征空间 z ℓ ∈ R n z_\ell\in \mathbb R^n zℓ∈Rn中定义的连续的映射 g ( z ) g(z) g(z)来对每一个训练的特征 { z ℓ i } i = 1 m \{z^i_\ell\}_{i=1}^m {zℓi}i=1m进行局部变形。
Remark 2 与神经网常微分方程(nerual ODE)的联系和区别
我们可以将公式(9)中的增量解释为连续常微分方程的离散化版本:
因此,这样构造的(深层)网络可以解释为某种神经常微分方程。然而不同的是,在神经ODE中,增量变换流
g
g
g被选择为一些通用结构,其参数在后面进行训练,这里我们的
g
(
z
,
θ
)
g(z,\theta)
g(z,θ)是在特征集上模拟率下降的梯度流
并且其结构和参数是完全由该目标函数导出和决定的,完全不依赖于其它先验知识、启发式或post-training。
通过观察(6)的梯度结构,发现这暗含了一个天然的增量transform g ( z ℓ , θ ℓ ) g(z_\ell,\theta_\ell) g(zℓ,θℓ)的候选:
其中
π
j
(
z
ℓ
)
∈
[
0
,
1
]
\pi^j(z_\ell)\in[0,1]
πj(zℓ)∈[0,1]可以看作是特征
z
ℓ
z_\ell
zℓ属于第
j
j
j个类的概率。注意到该增量取决于:
- 一个由 E ℓ E_\ell Eℓ表出的线性映射, E ℓ E_\ell Eℓ仅由所有来自前一层的所有特征的状态决定。
- 一个线性映射的集合 { C ℓ j } j = 1 k \{C_\ell^j\}^k_{j=1} {Cℓj}j=1k和它的特征对应的隶属度 { π j ( z ℓ ) } j = 1 k \{\pi^j(z_\ell)\}^k_{j=1} {πj(zℓ)}j=1k。
由于我们只有训练样本的隶属度 π j π^j πj,所以(11)中定义的函数 g g g只能在训练样本上求值。为了将函数 g g g外推到整个特征空间,我们需要在其第二项中估计 π j ( z ℓ ) π^j(z_\ell) πj(zℓ)。在传统的深度学习中,该映射通常被建模为一个深度网络,并从训练数据中学习,例如通过反向传播。然而,我们的目标不是要学习一个精确的分类器 π j ( z ℓ ) π^j(z_\ell) πj(zℓ)。相反,我们只需要对类信息进行足够好的估计,就可以使 g g g逼近梯度 ∂ ∆ R ∂ Z \frac{∂∆R}{∂Z} ∂Z∂∆R。
根据Remark 1给出的对线性映射
E
ℓ
E_\ell
Eℓ和
C
ℓ
j
C_\ell^j
Cℓj的几何解释,项
p
ℓ
j
=
C
ℓ
j
z
ℓ
p^j_\ell=C^j_\ell z_\ell
pℓj=Cℓjzℓ可以看作是将
z
ℓ
z_\ell
zℓ投影到每个类
j
j
j的正交分量上。因此,
∣
∣
p
ℓ
j
∣
∣
||p^j_\ell||
∣∣pℓj∣∣在
z
ℓ
z_\ell
zℓ属于类
j
j
j时较小,不属于时则较大。这启发我们基于如下形如softmax的函数去估计它的隶属度:
因此公式(11)的第二项可以用以上近似改写为:
如等式右侧所示,该项可以被定义为一种非线性算子
σ
\sigma
σ。该算子作用于特征
z
ℓ
z_\ell
zℓ经过
k
k
k个滤波器库
[
C
ℓ
1
,
.
.
.
,
C
ℓ
k
]
[C^1_\ell,...,C^k_\ell]
[Cℓ1,...,Cℓk]后的输出。注意到,这种非线性其实是由于将基于这些过滤器的特征隶属度进行“soft”分配而产生的。结合上述公式(9)(11)(12),将特征从
z
ℓ
z_\ell
zℓtransform到
z
ℓ
+
1
z_{\ell+1}
zℓ+1的增量可以如下表示:
利用上面定义的非线性函数
σ
(
⋅
)
σ(·)
σ(⋅)和
θ
ℓ
θ_\ell
θℓ收集所有分层参数,包括
E
ℓ
E_\ell
Eℓ、
C
ℓ
j
C^j_\ell
Cℓj、
γ
j
γ_j
γj和
λ
λ
λ,并且每个层的特征始终“归一化”到范数球
S
n
−
1
\mathbb S^{n−1}
Sn−1上,表示为
P
S
n
−
1
\mathcal P_{\mathbb S^{n−1}}
PSn−1。下图可以说明(13)中的增量形式。
2.2.3 从率下降看深度网络
请注意,增量的构造是为了模拟率下降
Δ
R
\Delta R
ΔR的梯度上升。因此,通过上述过程迭代地转换特征,我们期望率下降会增加,正如我们将在实验部分中看到的那样。这个迭代过程,一旦在L次迭代后收敛,就会给出在输入
z
0
=
x
z_0=x
z0=x上所期望的特征映射
f
(
x
,
θ
)
f(x,\theta)
f(x,θ),这正是深度网络的形式,其中每一层的结构上图所示:
这种深层网络我们称之为ReduNet。请注意,网络的所有参数都是以正向传播方式逐层显式构造的。一旦构建,就不需要任何额外的监督学习,比如通过反向传播。如此学习的特征可以通过最近的子空间分类器直接用于分类。
ReduNet的所有组件(层、通道和算子)都是由第一原理显式构造的,它们都有精确的优化、统计和几何解释。此外,不需要从反向传播中学习它们。但上如果需要进一步微调网络,它仍然可以学习。
2.3 从平移不变性(SHIFT-INVARIANT)的率下降看深度卷积网络
接下来,我们从变换不变性的角度来研究ReduNet。以移位/平移不变性这一基本且重要的例子为例,我们将表明,ReduNet构造自动采用(多通道)卷积神经网络的形式,而不是启发式地施加在其上。
2.3.1 一维串行数据和移位不变性
对于一维数据 x = [ x ( 0 ) , x ( 1 ) , . . . , x ( n − 1 ) ] ∈ R n x=[x(0),x(1),...,x(n-1)]∈\mathbb R^n x=[x(0),x(1),...,x(n−1)]∈Rn在移位对称的情况下,我们取 G \mathbb G G为循环移位的群。每个观测到的 x i x^i xi生成一个族 { x i ◦ g ∣ g ∈ G } \{x^i◦\mathfrak g | \mathfrak g∈\mathbb G\} {xi◦g∣g∈G}移位的copies,即循环矩阵 c i r c ( x i ) ∈ R n × n circ(x^i)\in\mathbb R^{n\times n} circ(xi)∈Rn×n的列:
如果我们从这些族 Z 1 = [ c i r c ( x 1 ) , . . . , c i r c ( x m ) ] Z_1=[circ(x^1),...,circ(x^m)] Z1=[circ(x1),...,circ(xm)]构造ReduNet会发生什么?数据协方差矩阵:
与此样本族关联的是一个对称的循环矩阵。此外,由于循环性质在和、逆和积下保持不变,因此矩阵
E
1
E_1
E1和
C
1
j
C_1^j
C1j也自动成为循环矩阵,这种应用于特征向量
z
z
z可以使用循环卷积来实现. 具体来说,我们有以下命题:
命题2.1: E 1 E_1 E1和 C 1 j C_1^j C1j的卷积结构
E 1 = α ( I + α Z 1 Z 1 ∗ ) − 1 E_1=\alpha ({I}+\alpha Z_1Z^*_1)^{-1} E1=α(I+αZ1Z1∗)−1为循环矩阵且可以表示为如下的循环卷积:
其中
e
1
∈
R
n
e_1\in\mathbb R^n
e1∈Rn为
E
1
E_1
E1第一列的向量,循环卷积被定义为:
类似地,与
Z
1
Z_1
Z1的任何子集相关联的矩阵
C
1
j
C^j_1
C1j也是循环卷积。
根据上述命题,我们有:
因为
g
(
⋅
,
θ
1
)
g(\cdot ,\theta_1)
g(⋅,θ1)仅包括随循环移位而变化的操作,下一级的特征
Z
2
Z_2
Z2又对应于
Z
2
=
[
c
i
r
(
x
1
+
η
g
(
x
1
,
θ
1
)
,
⋯
,
c
i
r
c
(
x
m
+
η
g
(
x
m
,
θ
m
)
)
]
Z_2=[cir(x^1+\eta g(x^1,\theta_1),\cdots,circ(x^m+\eta g(x^m,\theta_m))]
Z2=[cir(x1+ηg(x1,θ1),⋯,circ(xm+ηg(xm,θm))]的循环移位。如此循环,我们可以知道基于
Z
ℓ
Z_\ell
Zℓ的矩阵
E
ℓ
E_\ell
Eℓ和
C
ℓ
j
C^j_\ell
Cℓj都是循环的。
由于数据的属性,ReduNet采用了卷积网络的形式,无需显式选择此结构!
2.3.2 多通道提升(lifting)和稀疏性的作用
但有一个问题:一般来说,向量 z z z所有循环的集合形成了一个满秩矩阵。也就是说,与每个样本(因此每个类)关联的 n n n个“增强”特征通常已经跨越整个空间 R n \mathbb R^n Rn。MCR 2 ^2 2目标(1)将无法将类区分为不同的子空间。
一种自然的补救方法是通过将原始信号**“提升”到更高的维度空间来改善数据的可分性**,例如,通过将其响应乘以滤波器 k 1 , . . . , k C ∈ R n k_1,...,k_C∈\mathbb R^n k1,...,kC∈Rn:
这些滤波器可以是预先设计的不变性滤波器,或者从数据中自适应学习,或者像我们在实验中所做的那样随机选择。此操作将每个原始信号
x
x
x提升为
C
C
C-通道特征,表示为
z
‾
=
[
z
[
1
]
,
…
,
,
z
[
C
]
]
∗
∈
R
C
×
n
\overline z=[z[1],…,,z[C]]^∗ ∈\mathbb R^{C×n}
z=[z[1],…,,z[C]]∗∈RC×n。然后,我们可以在
z
‾
\overline z
z的向量表示上构造ReduNet,表示为
v
e
c
(
z
‾
)
=
[
z
[
1
]
∗
,
.
.
.
,
z
[
C
]
∗
]
∈
R
vec(\overline z)=[z[1]^∗, . . . , z[C]^∗] ∈ R
vec(z)=[z[1]∗,...,z[C]∗]∈R。所有对应的循环版本
c
i
r
c
(
z
‾
)
circ(\overline z)
circ(z)及其数据协方差矩阵表示为
Σ
‾
\overline \Sigma
Σ,如下所示:
其中 c i r c ( z [ c ] ) ∈ R n × n circ(z[c])∈\mathbb R^{n×n} circ(z[c])∈Rn×n与 c ∈ [ C ] c∈[C] c∈[C]是特征 z z z的第 C C C个通道的循环版本。那么 c i r c ( z ) circ(z) circ(z)的列最多只能跨越 R n C \mathbb R^{nC} RnC中的一个n维子空间。
然而,这种简单的线性提升操作还不足以使类之间可分离——与其他类相关联的特征将span相同的n维子空间。这反映了线性子空间建模和不变性之间的根本冲突。
解决这一冲突的一种方法是利用额外结构,即稀疏性:每一类中的信号都不是由一些基原子(或基序)的任意线性组合产生的,而只是它们的稀疏组合及其移位版本。 D j \mathcal D_j Dj表示与类 j j j相关的原子集合,也称为字典,则对于一些稀疏向量 z z z,该类中的每个信号稀疏生成为:
然后,不同类别的信号由原子(或基序)彼此不相干的不同词典生成。由于不相干性,一类中的信号不可能稀疏地由任何其他类中的原子表示。因此,k类中的所有信号都可以表示为:
其中
z
‾
\overline z
z是稀疏的。有大量关于如何从样本数据中学习最紧凑和最佳稀疏字典的文献,然后求解对偶问题并计算相关的稀疏编码
z
z
z或
z
‾
\overline z
z。
然而,这里我们对每个信号的最佳字典和精确稀疏代码不感兴趣。我们只对每一类的稀疏码集与其他类的稀疏码集是可分离的感兴趣。在稀疏生成模型的假设下,如果卷积核与上述稀疏字典(也称为分析滤波器)的“转置”或“逆”匹配良好,一类信号仅对这些滤波器的一小部分具有高响应,而对其他滤波器具有低响应(由于非相干假设)。在实践中,通常足够数量的随机滤波器足以确保不同类别的特征对不同滤波器具有不同的响应模式,从而使不同类别可分离。由于最优稀疏编码不是本文的重点,我们将在实验中使用简单的随机滤波器设计,这足以验证这一概念。
多通道响应的 z ‾ \overline z z应该是稀疏的。因此,为了近似稀疏代码 z ‾ \overline z z,我们可以通过将低值(如绝对值低于 ϵ \epsilon ϵ)或负响应设置为零,在滤波器输出上采用一个入口处稀疏化的非线性阈值,如 τ ( ⋅ ) \tau(\cdot) τ(⋅):
可以参考(Rubinstein&Elad,2014)对稀疏阈值算子的设计进行更系统的研究。非线性算子
τ
τ
τ可以简单地选择为软阈值或ReLU。这些可能的稀疏特征
z
‾
\overline z
z可以假设位于
R
n
×
C
\mathbb R^{n×C}
Rn×C中的低维(非线性)子流形上,该子流形可以通过后续的ReduNet层线性化并与其他类别分离,如图3所示。
多类信号输入>多通道提升&稀疏编码>不变性率下降>转化到不相干子空间中
从循环版本的多通道特征 z ‾ \overline z z(即 c i r c ( Z ‾ ) = [ c i r c ( z ‾ 1 ) , . . . , c i r c ( z ‾ m ) ] circ(\overline Z)=[circ(\overline z^1),...,circ(\overline z^m)] circ(Z)=[circ(z1),...,circ(zm)])构建的ReduNet保持了上述良好的不变性:线性算子 E E E和 C ‾ j \overline C^j Cj, 保持块循环并代表了多通道的一维循环卷积。具体来说有以下结论:
命题 2.2 E 1 E_1 E1和 C 1 j C_1^j C1j的 多通道 卷积结构
该矩阵是块循环的,即:
其中每个
E
‾
c
,
c
′
∈
R
n
×
n
\overline E_{c,c'}\in\mathbb R^{n\times n}
Ec,c′∈Rn×n为一个循环矩阵。此外,
E
‾
\overline E
E代表一个多通道的循环卷积,即对于任何一个多通道信号
z
‾
∈
R
C
×
n
\overline z\in\mathbb R^{C\times n}
z∈RC×n。我们有:
在上式中,
e
‾
∈
R
C
×
C
×
n
\overline e\in\mathbb R^{C\times C\times n}
e∈RC×C×n为多通道的kernel核,
e
‾
[
c
,
c
′
]
\overline e[c,c']
e[c,c′]为
E
‾
c
,
c
′
\overline E_{c,c'}
Ec,c′的第一列向量,且有如下多通道循环卷积计算的定义:
根据上述命题,ReduNet是一个对多通道一维信号的深度循环卷积。
2.3.3 与循环和卷积稀疏编码的联系
Gregor&LeCun(2010)的稀疏编码观点后来被扩展到串行数据的循环和卷积网络。尽管稀疏性和卷积性长期以来都被认为是深度网络的理想特征,但它们的必要性和精确作用从未得到明确和严格的证明,至少没有直接从网络的目标出发,比如分类。在我们的框架中,我们看到了多通道卷积 ( E ‾ , C ‾ j ) (\overline E,\overline C^j) (E,Cj),不同的非线性激活 ( π ^ j , τ ) (\hat π^j,τ) (π^j,τ)和稀疏性要求是从实现平移不变性的同时最大化特征的率下降目标推导而来的,而不是启发式地提出的。
2.3.4 自然界中的稀疏编码和谱计算
有趣的是,有强有力的科学证据表明,视觉皮层中的神经元以尖峰的速率编码和传递信息,因此被称为“尖峰神经元”。请注意,稀疏编码也是视觉皮层的一个主要特征。如此引人注目的是,大自然可能已经“学会”利用上述数学原理的优势,特别是稀疏编码和谱域的计算效率,以实现不变(视觉)识别。