Deep Sets
摘要
- 我们研究了定义在sets上的机器学习任务模型设计问题
- 考虑了定义在sets上的目标函数,该函数是permutation-invariant的
- 主要理论定义了invariant function的特征,并且提供了任意permutation invariant目标函数应当属于的函数族
- 推导了permutation-invariant在深度模型中的充要条件
1.引言
- 提出了一个基础框架DeepSets,解决了输入为sets的情况。
- 将这种结构进行扩展以适应任何目标的情况
- 开发了一种deep network,该网络可以对具有任意尺寸的sets进行操作
- 在有监督和半监督设置中,简单的parameter-sharing scheme能够对sets进行一般的处理
- 通过实验证明,在不同的任务中,我们网络的泛化性很好
2.Permutation Invariance and Equivariance
2.1 Problem Definition
Permutation Invariance
给定一个函数 f f f,能够将一个向量空间中的 X ∈ R d \mathcal{X} \in \mathbb{R}^d X∈Rd 转换为另一个向量空间中的 Y ∈ R c \mathcal{Y} \in \mathbb{R}^c Y∈Rc。在 s e t s sets sets上进行操作时,必须保证该函数对于sets中的元素permutation invariant,即对于任意的permutation, π : f ( { x 1 , … , x M } ) = f ( { x π ( 1 ) , … , x π ( M ) } ) \pi: f\left(\left\{x_{1}, \ldots, x_{M}\right\}\right)=f\left(\left\{x_{\pi(1)}, \ldots, x_{\pi(M)}\right\}\right) π:f({x1,…,xM})=f({xπ(1),…,xπ(M)})
Permutation Equivariance
给定permutation equivariant函数
f
\mathbf{f}
f,输入和输出都应当是Permutation Invariance的:
f
(
[
x
π
(
1
)
,
…
,
x
π
(
M
)
]
)
=
[
f
π
(
1
)
(
x
)
,
…
,
f
π
(
M
)
(
x
)
]
\mathbf{f}\left(\left[x_{\pi(1)}, \ldots, x_{\pi(M)}\right]\right)=\left[f_{\pi(1)}(\mathbf{x}), \ldots, f_{\pi(M)}(\mathbf{x})\right]
f([xπ(1),…,xπ(M)])=[fπ(1)(x),…,fπ(M)(x)]
2.2 Structure
Permutation Invariance
- 在set X X X上操作的函数 f ( X ) f(X) f(X)是一个valid set function,其中set X X X是从可数空间 X \mathfrak{X} X选取出来的。当且仅当该函数可以分解为 ρ ( ∑ x ∈ X ϕ ( x ) ) \rho\left(\sum_{x \in X} \phi(x)\right) ρ(∑x∈Xϕ(x))的形式,其中 ϕ \phi ϕ 和 ρ \rho ρ是合适的transformations, 那么这个函数对于 X X X中的元素permutation而言是invariant的。
- 在 X \mathfrak{X} X不可数的情况下,仅能证明 f ( X ) = f(X)= f(X)= ρ ( ∑ x ∈ X ϕ ( x ) ) \rho\left(\sum_{x \in X} \phi(x)\right) ρ(∑x∈Xϕ(x))在固定的元素数量下成立。——定理2
Permutation Equivariance
标准的神经网络层可以表示为 f Θ ( x ) = σ ( Θ x ) \mathbf{f}_{\Theta}(\mathbf{x})=\boldsymbol{\sigma}(\Theta \mathbf{x}) fΘ(x)=σ(Θx),其中 Θ ∈ R M × M \Theta \in \mathbb{R}^{M \times M} Θ∈RM×M是权值矩阵, σ : R → R \sigma: \mathbb{R} \rightarrow \mathbb{R} σ:R→R是激活函数,那么permutation-equivariance的充要条件为:
Lemma 3
当且仅当
Θ
\Theta
Θ中的非对角元素是tied together, 对角线元素都是相同的,即:
Θ
=
λ
I
+
γ
(
11
⊤
)
λ
,
γ
∈
R
1
=
[
1
,
…
,
1
]
⊤
∈
R
M
I
∈
R
M
×
M
is the identity matrix
\Theta=\lambda \mathbf{I}+\gamma\left(\mathbf{1 1}^{\top}\right) \quad \lambda, \gamma \in \mathbb{R} \quad \mathbf{1}=[1, \ldots, 1]^{\top} \in \mathbb{R}^{M} \quad \mathbf{I} \in \mathbb{R}^{M \times M} \text{is the identity matrix}
Θ=λI+γ(11⊤)λ,γ∈R1=[1,…,1]⊤∈RMI∈RM×Mis the identity matrix
那么上述定义的函数
f
Θ
:
R
M
→
R
M
\mathbf{f}_{\Theta}: \mathbb{R}^{M} \rightarrow \mathbb{R}^{M}
fΘ:RM→RM 是permutation equivariant的。
2.3 Related Results
de Finetti theorem
Bayesian statistics中的exchangeable model:
p
(
X
∣
α
,
M
0
)
=
∫
d
θ
[
∏
m
=
1
M
p
(
x
m
∣
θ
)
]
p
(
θ
∣
α
,
M
0
)
p\left(X \mid \alpha, M_{0}\right)=\int \mathrm{d} \theta\left[\prod_{m=1}^{M} p\left(x_{m} \mid \theta\right)\right] p\left(\theta \mid \alpha, M_{0}\right)
p(X∣α,M0)=∫dθ[m=1∏Mp(xm∣θ)]p(θ∣α,M0)
其中
θ
\theta
θ是隐藏特征,
α
,
M
0
\alpha, M_{0}
α,M0是先验的超参数。
考虑共轭先验的exponential families。在特殊情况下,
p
(
x
∣
θ
)
=
exp
(
⟨
ϕ
(
x
)
,
θ
⟩
−
g
(
θ
)
)
p(x \mid \theta)=\exp (\langle\phi(x), \theta\rangle-g(\theta))
p(x∣θ)=exp(⟨ϕ(x),θ⟩−g(θ)),
p
(
θ
∣
α
,
M
0
)
=
exp
(
⟨
θ
,
α
⟩
−
M
0
g
(
θ
)
−
h
(
α
,
M
0
)
)
p\left(\theta \mid \alpha, M_{0}\right)=\exp \left(\langle\theta, \alpha\rangle-M_{0} g(\theta)-h\left(\alpha, M_{0}\right)\right)
p(θ∣α,M0)=exp(⟨θ,α⟩−M0g(θ)−h(α,M0)),如果边缘掉
θ
\theta
θ,,可以得到:
p
(
X
∣
α
,
M
0
)
=
exp
(
h
(
α
+
∑
m
ϕ
(
x
m
)
,
M
0
+
M
)
−
h
(
α
,
M
0
)
)
p\left(X \mid \alpha, M_{0}\right)=\exp \left(h\left(\alpha+\sum_{m} \phi\left(x_{m}\right), M_{0}+M\right)-h\left(\alpha, M_{0}\right)\right)
p(X∣α,M0)=exp(h(α+m∑ϕ(xm),M0+M)−h(α,M0))
Representer theorem and kernel machines
Spectral methods
3. Deep Sets
3.1 Architecture
Invariant model
- 定理2中permutation invariant functions的结构暗示了一种对目标set进行推理的一般策略,我们称之为DeepSet。
- 用其他通用的approximators代替 ϕ \phi ϕ 和 ρ \rho ρ并不会改变事情的本质,因此会得到下述模型:
- 实例 x m x_m xm通过变换得到表示 ϕ ( x m ) \phi(x_m) ϕ(xm)
- 将表示 ϕ ( x m ) \phi(x_m) ϕ(xm)相加,并使用 ρ \rho ρ网络以与任何深度网络(例如全连接的层、非线性等)相同的方式处理输出。
- 可选项:如果有额外的元信息
z
z
z,那么上述网络就会有条件映射
ϕ
(
x
m
∣
z
)
\phi(x_m|z)
ϕ(xm∣z)。
总之,就是将所有表示相加,然后再应用非线性变换。
Equivariant model
基于Lemma 3的公式,当式子中的权重和输入 x \mathbf{x} x相乘时,会得到两个部分:
- I x \mathbf{Ix} Ix
- ( 11 ⊤ ) x \left(\mathbf{1 1}^{\top}\right)\mathbf{x} (11⊤)x
由于加法并不依赖permutation,因此这样的层是permutation-equivariant。
进一步地,我们可以使用其他的方法:
f
(
x
)
=
σ
(
λ
I
x
+
γ
maxpool
(
x
)
1
)
\mathbf{f(x)}=\boldsymbol{\sigma}(\lambda \mathbf{Ix}+\gamma\text{maxpool}(\mathbf{x})\mathbf{1 })
f(x)=σ(λIx+γmaxpool(x)1)
其中maxpool操作使得set中的元素是permutation-equivariant的。在实际应用中效果更好,这可能是因为,当
λ
=
γ
\lambda=\gamma
λ=γ时,非线性的输入是最大归一化。
4.实验
4.1.3Point Cloud Classification


生词
- anomaly n. 异常,反常
- piezometer n. 压力计
- embankment dams 土石坝
- cosmology n. 宇宙学
- If and only if ——> iff 当且仅当