笔记：Dissimilarity-Based Sparse Subset Selection

最新推荐文章于 2022-03-13 22:40:49 发布

XueShengke

最新推荐文章于 2022-03-13 22:40:49 发布

阅读量1.6k

点赞数

分类专栏：稀疏表示文章标签：相似度表示 ADMM selection 稀疏

Elhamifar, E., Sapiro, G., & Sastry, S. S. (2016). Dissimilarity-based sparse subset selection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(11), 2182-2197.
本文是这篇 PAMI 期刊论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。

摘要： 从一个大型的数据集或模板中找出有信息量的子集是一个重要的问题，对于许多的计算机视觉、推荐系统、生物/健康信息、和图像和自然语言处理的问题中。给予一对原集和目标集的元素之间的不相似度，考虑一个问题：从原集中找到一个子集，称为表示（representatives）或样例（exemplars），使得其可以有效地描述目标集。此文构建这个问题为一个行稀疏约束的迹最小化问题。由于该问题是一般的 NP-hard，需要考虑一个凸松弛代替。最优解找到一个表示，以及目标集中的每一个元素对原集中每一个的元素的赋值（权重）。也就是获得一个聚类。并分析了优化问题的解作为约束参数的解。此文并说明了当两个数据集被一起划分为多个组之后，此文的算法找到来自所有组的表示，并对数据集进行了聚类。另外，此文的算法可以有效地处理异常点。此文的算法可以处理任意的不相似度，可以是非对称的或违背了三角不等式。为了有效地实现该算法，此文考虑了 Alternating Direction Method of Multipliers (ADMM) 交替乘子法，使得问题为平方级的复杂度。并且 ADMM 使得问题可以被并行化，更减少了计算的时间。最终，通过真实的数据集，此文的算法提升了最好的结果在两个问题中：场景分类（用图像表示）和时间序列建模和分割（用模型表示）。

1 简介

略

2 Dissimilarity-Based Sparse Subset Selection (DS3)

2.1 问题陈述

假设有一个原集 $\mathbb{X} = \{\mathbf{x}_1,\cdots, \mathbf{x}_M\}$ 和一个目标集 $\mathbb{Y} = \{\mathbf{y}_1,\cdots, \mathbf{y}_N\}$ ，分别包含 $M$ 和 $N$ 个元素，已经得到了两个数据集之间每一对元素的的不相似度 $\{d_{ij}\}_{i=1,\cdots,M}^{j=1,\cdots,N}$ 。每一个 $d_{ij}$ 表示一个 $\mathbf{x}_i$ 能表示 $\mathbf{y}_j$ 的程度，也就是 $d_{ij}$ 的值越小， $\mathbf{x}_i$ 能越好地表示 $\mathbf{y}_j$ 。此文构建一个不相似度的矩阵

D ≜ ⎡ ⎣ ⎢ ⎢ d T 1 ⋮ d T M ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ d 11 ⋮ d M 1 d 12 ⋮ d M 2 \dots ⋱ \dots d 1 N ⋮ d M N ⎤ ⎦ ⎥ ⎥ \in R M \times N, (1)

$\begin{equation} \mathbf{D} \triangleq \begin{bmatrix} \mathbf{d}_1^\text{T} \\ \vdots \\ \mathbf{d}_M^\text{T} \end{bmatrix} = \begin{bmatrix} d_{11} & d_{12} & \cdots & d_{1N} \\ \vdots& \vdots & \ddots & \vdots \\ d_{M1} & d_{M2} & \cdots & d_{MN} \\ \end{bmatrix} \in \mathbb{R}^{M \times N} , \tag{1} \end{equation}$
其中

di∈RN $\mathbf{d}_i \in \mathbb{R}^N$ 表示

D $\mathbf{D}$ 的第

i $i$ 行。给定一个矩阵

D $\mathbf{D}$ ，目标是找到一个子集

X $\mathbb{X}$ 可以很好地表示集合

Y $\mathbb{Y}$ 中的元素，如图 2 所示。

这里写图片描述

对比一些当前的最先进的算法 1 2 3，此文不限制 $\mathbb{X}$ 和 $\mathbb{Y}$ 有同类的元素或相等。比如， $\mathbb{X}$ 可以为一个模型集合， $\mathbb{Y}$ 可以为数据集合，在这样的情况下，此文选择一系列模板，使得很好地表示数据集，如图 3 所示。

这里写图片描述

这里的不相似度，可以表示为用模板表示数据的编码误差。另一方面， $\mathbb{X}, \mathbb{Y}$ 可以包含同类的元素或相等。比如， $\mathbb{X}, \mathbb{Y}$ 对应模板的集合，于是此文的目标是选择有表达能力的模板。不相似度的例子是动态系统之间的距离，和概率分布之间的 KL 散度。而且，当 $\mathbb{X}, \mathbb{Y}$ 表示数据点，此文的目标是选择有表达性的数据点，如图 4 所示。比如数据点之间的汉明 (Hamming) 距离，欧几里得 (Euclidean) 距离，和测地距离。

这里写图片描述

2.2 不相似度

注意的是此文可以关注于相似度 $\{ s_{ij} \}$ 和不相似度 $\{ d_{ij} \}$ ，仅通过设置 $d_{ij} = - s_{ij}$ 。比如当 $\mathbb{X} = \mathbb{Y}$ ，可以设置 $d_{ij} = - \mathbf{K}_{ij}$ ，其中 $\mathbf{K}$ 表示一个数据集的核矩阵。当矩阵 $\mathbb{X}, \mathbb{Y}$ 的元素的合适的向量空间的表示给定之后，可以使用预定义的函数计算不相似度，比如编码误差 $d_{ij} = || \mathbf{x}_i - \mathbf{A} \mathbf{y}_j ||$ 对于一个适合的矩阵 $\mathbf{A}$ ，欧几里得距离 $d_{ij} = || \mathbf{x}_i - \mathbf{y}_j ||_2$ ，或截断二次距离 $d_{ij} = \min \{ \beta, || \mathbf{x}_i - \mathbf{y}_j ||_2^2 \}$ ，其中 $\beta$ 是一个常数。然而，这里可以计算（不）相似度而不通过数据的向量空间表示，比如社交网络图中的一些边，图像之间的按成对元素的主观比较，或句子之间的通过字符串核的比较。最终，可以得到（不）相似度，比如使用度量学习方法 4 5 。

2.3 DS3 算法

给定 $\mathbf{D}$ ，目标是选择一个子集 $\mathbb{X}$ ，称为表示（representatives）或样例（exemplars），使得其可以有效地表示 $\mathbb{Y}$ 。因此，考虑一个优化问题于未知的变量 $z_{ij}$ 关联着不相似度 $d_{ij}$ ，其所有的变量的矩阵定义如下

Z ≜ ⎡ ⎣ ⎢ ⎢ z T 1 ⋮ z T M ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ z 11 ⋮ z M 1 z 12 ⋮ z M 2 \dots ⋱ \dots z 1 N ⋮ z M N ⎤ ⎦ ⎥ ⎥ \in R M \times N, (2)

$\begin{equation} \mathbf{Z} \triangleq \begin{bmatrix} \mathbf{z}_1^\text{T} \\ \vdots \\ \mathbf{z}_M^\text{T} \\ \end{bmatrix} = \begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1N} \\ \vdots & \vdots & \ddots & \vdots \\ z_{M1} & z_{M2} & \cdots & z_{MN} \\ \end{bmatrix} \in \mathbb{R}^{M \times N} , \tag{2} \end{equation}$
其中

zi∈RN $\mathbf{z}_i \in \mathbb{R}^{N}$ 是

Z $\mathbf{Z}$ 的第

i $i$ 行。这里将

zij∈{0,1} $z_{ij} \in \{ 0, 1 \}$ 解释为

xi $\mathbf{x}_i$ 表示

yj $\mathbf{y}_j$ 的指示值，如果

xi $\mathbf{x}_i$ 是

yj $\mathbf{y}_j$ 的表示，其值为

1 $1$ 。为了确保每一个

yj $\mathbf{y}_j$ 能被一个

xi $\mathbf{x}_i$ 表示，必须满足

∑Ni=1zij=1 $\sum_{i=1}^{N} z_{ij} = 1$ 。

2.3.1 Simultaneous Sparse Recovery-Based Optimization

为了选择一部分的 $\mathbb{X}$ 的元素，根据不相似度，能很好地编码 $\mathbb{Y}$ ，此文提出了基于 $\mathbf{Z}$ 的行稀疏约束的迹最小化问题（row-sparsity regularized trace minimization），实现两个目标。首先， $\mathbb{Y}$ 能够被很好地编码。如果 $\mathbf{x}_i$ 被用于表示 $\mathbf{y}_j$ ，其表示的代价为 $d_{ij} z_{ij} \in \{ 0, d_{ij} \}$ 。于是，使用 $\mathbb{X}$ 表示 $\mathbf{y}_j$ 的代价是 $\sum_{i=1}^{M} d_{ij} z_{ij}$ ，并且，用 $\mathbb{X}$ 编码整个矩阵 $\mathbb{Y}$ 的代价为 $\sum_{j=1}^{N} \sum_{i=1}^{M} d_{ij} z_{ij}$ 。第二，希望能使用尽可能少的数据来表示。注意当 $\mathbf{x}_i$ 是 $\mathbb{Y}$ 的某一些元素的表示时，有 $\mathbf{z}_i \neq 0$ ，也就是 $\mathbf{Z}$ 的第 $i$ 行是非零的。于是，有较少的表示对应着有较少的非零行在 $\mathbf{Z}$ 中。结合以上的两个目标，考虑如下的优化问题

min {z i j} s.t. λ \sum i = 1 M I (| | z i | | p) + \sum j = 1 N \sum i = 1 M d i j z i j \sum i = 1 M z i j = 1, \forall j; z i j \in {0, 1}, \forall i, j, (3)

$\begin{align} \min_{\{z_{ij}\}} & \ \ \lambda \sum_{i=1}^{M} \text{I} \left(|| \mathbf{z}_i ||_p \right) + \sum_{j=1}^{N} \sum_{i=1}^{M} d_{ij} z_{ij} \\ \text{s.t.} & \ \ \sum_{i=1}^{M} z_{ij} = 1, \ \forall \, j ; \ z_{ij} \in \{ 0, 1 \}, \ \forall \, i, j, \tag{3} \end{align}$
其中