Derivation of Doubly Stochastic clustering

塔_Tass

已于 2023-04-14 00:12:11 修改

阅读量451

点赞数

文章标签：机器学习算法

于 2023-04-14 00:07:54 首次发布

本文链接：https://blog.csdn.net/weixin_44876302/article/details/130136765

版权

1. Original objective

given coefficient matrix C,
$\min_\textbf A \frac{1}{2}\||\textbf C|-\eta \textbf A\|_F^2\quad s.t. \ {\bf A\in\Omega}_n, \mathrm {diag}(\textbf C)=0 \quad \quad (1)$
where ${\bf \Omega}_n$ is doubly stochastic space. We have:
$\frac{1}{2}\||\textbf C|-\eta \textbf A\|_F^2= \frac{1}{2}\|\textbf C\|_F^2+ \frac{\eta^2}{2}\|\textbf A\|_F^2 +\langle {\bf -|C|, \eta A} \rangle \quad (2)$

Since $\bf C$ is fixed in A-DSSC, we are acturally optimizing:
$\min_\textbf A \langle {\bf -|C|, A} \rangle + \frac{\eta}{2}\|\textbf A\|_F^2 \quad s.t. \ {\bf A\in\Omega}_n \quad \quad \quad \quad \quad (3)$

2. Dual objective

Introducing Lagrange multipliers $\alpha, \beta \in \mathbb R^n$ and $A\geq 0$ for satisfying the doubly stochastic constraint, then we have a minmax problem:
$\min_{\textbf A\geq 0} \max_{\alpha, \beta} \langle {\bf -|C|, A} \rangle + \frac{\eta}{2}\|\textbf A\|_F^2 + \langle \alpha,{\bf A1-1} \rangle + \langle \beta,{\bf A^\top 1-1} \rangle \quad \quad(4)$

内积是拉格朗日法实现矩阵约束的标准表示形式，优化 $\alpha$ 用于满足行和为1约束，优化 $\beta$ 用于满足列和为1约束

Note that
$\langle \alpha,{\bf A1-1} \rangle + \langle \beta,{\bf A^\top 1-1} \rangle=\langle \alpha \textbf 1^\top + \textbf 1\beta^\top,\textbf A \rangle-\textbf1^\top(\alpha+\beta)$

P.S. $\langle \alpha,{\bf A1}\rangle=tr(\alpha^\top \cdot {\bf A1})=tr({\bf A1} \cdot \alpha^\top)=tr({\bf A \cdot 1}\alpha^\top)=tr({\bf 1}\alpha^\top \cdot \bf A)=\langle \alpha \textbf 1^\top ,\textbf A \rangle$

Therefore, strong duality holds by Slater’s condition, so this is equivalent to:
$\max_{\alpha, \beta} -\textbf1^\top(\alpha+\beta) + \min_{\textbf A\geq 0} \langle {\bf -|C|, A} \rangle + \frac{\eta}{2}\|\textbf A\|_F^2 + \langle \alpha \textbf 1^\top + \textbf 1\beta^\top,\textbf A \rangle \quad (5)$

3. Search Optimal A and Dual Solution $\alpha,\beta$

Let $\bf K=|C|-\alpha 1^\top-1\beta^\top$ , we have:

$\bf \langle -|C|,A\rangle+\langle \alpha \textbf 1^\top + \textbf 1\beta^\top,\textbf A \rangle=\bf \langle -|C|+\alpha \textbf 1^\top + \textbf 1\beta^\top,A \rangle=\langle -K,A\rangle$

Therefore, the inner $\min$ term becomes:

$\eta\cdot{\bf \min_{A\geq n}\langle -\frac{K}{\eta},A\rangle} + \frac{\eta}{2}\|\textbf A\|_F^2 \quad \quad \quad \quad \quad (6)$

we can complement Eqn.(6) to a F-norm form:
$(6)=-\frac{1}{2\eta}\|\textbf K\|_F^2+\eta\min_{A\geq n}\frac{1}{2}\|{\bf \frac{K}{\eta}-A}\|_F^2 \quad (7)$

Apparently，the optimal $\bf A$ satisfies $\bf A=K/\eta$ ，but requires $\bf A\geq 0$ ，therefore, $\bf A$ is given as:
${\bf A}=\frac{1}{\eta}{\bf[|C|-\alpha 1^\top-1\beta^\top]_+}$

Therefore, we have
$(7)=-\frac{1}{2\eta}\|\textbf K\|_F^2+\frac{1}{2\eta}\|\textbf K_-\|_F^2=-\frac{1}{2\eta}\|\textbf K_+\|_F^2 \quad (8)$

Finally, the version of the dual becomes (See Eqn.5-8):
$\max_{\alpha, \beta} -\textbf1^\top(\alpha+\beta)-\frac{1}{2\eta}\|K_+\|_F^2$
i.e.,
$\max_{\alpha, \beta} -\textbf1^\top(\alpha+\beta)-\frac{1}{2\eta}\|{\bf[|C|-\alpha 1^\top-1\beta^\top]_+}\|_F^2$
i.e.,
$\min_{\alpha, \beta} \textbf1^\top(\alpha+\beta) + \frac{1}{2\eta}\|{\bf[|C|-\alpha 1^\top-1\beta^\top]_+}\|_F^2$