矩阵变换好例子
要将表达式
arg
min
P
(
⟨
Y
1
,
X
−
P
H
−
E
V
⟩
+
μ
2
∣
∣
X
−
P
H
−
E
V
∣
∣
F
2
)
\arg\min_{\mathbf{P}} \left( \langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle + \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2 \right)
argPmin(⟨Y1,X−PH−EV⟩+2μ∣∣X−PH−EV∣∣F2)
重写为
arg
min
P
μ
2
∣
∣
X
−
P
H
−
E
V
+
1
μ
Y
1
∣
∣
F
2
,
\arg\min_{\mathbf{P}} \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V + \frac{1}{\mu}\mathbf{Y}_1||_F^2,
argPmin2μ∣∣X−PH−EV+μ1Y1∣∣F2,
可以利用矩阵内积的性质以及范数的定义来完成这个转换。
首先,考虑矩阵内积 ⟨ A , B ⟩ \langle \mathbf{A}, \mathbf{B} \rangle ⟨A,B⟩ 可以被定义为 trace ( A T B ) \text{trace}(\mathbf{A}^T \mathbf{B}) trace(ATB) 或者等价地 ∑ i , j A i j B i j \sum_{i,j} A_{ij} B_{ij} ∑i,jAijBij。对于给定的向量或矩阵 A \mathbf{A} A,有以下关系:
⟨ A , A ⟩ = ∣ ∣ A ∣ ∣ F 2 . \langle \mathbf{A}, \mathbf{A} \rangle = ||\mathbf{A}||_F^2. ⟨A,A⟩=∣∣A∣∣F2.
具体展开原始表达式中的两部分:
- 矩阵内积项 ⟨ Y 1 , X − P H − E V ⟩ \langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle ⟨Y1,X−PH−EV⟩。
- 范数平方项 μ 2 ∣ ∣ X − P H − E V ∣ ∣ F 2 \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2 2μ∣∣X−PH−EV∣∣F2。
把这两部分组合起来,并且加上一个恒等于零的项
1
2
μ
∣
∣
Y
1
∣
∣
F
2
−
1
2
μ
∣
∣
Y
1
∣
∣
F
2
\frac{1}{2\mu}||\mathbf{Y}_1||_F^2 - \frac{1}{2\mu}||\mathbf{Y}_1||_F^2
2μ1∣∣Y1∣∣F2−2μ1∣∣Y1∣∣F2(即加0),这样不会改变原问题的解,但可以帮助重新组织表达式:
⟨
Y
1
,
X
−
P
H
−
E
V
⟩
+
μ
2
∣
∣
X
−
P
H
−
E
V
∣
∣
F
2
+
1
2
μ
∣
∣
Y
1
∣
∣
F
2
−
1
2
μ
∣
∣
Y
1
∣
∣
F
2
.
\langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle + \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2 + \frac{1}{2\mu}||\mathbf{Y}_1||_F^2 - \frac{1}{2\mu}||\mathbf{Y}_1||_F^2.
⟨Y1,X−PH−EV⟩+2μ∣∣X−PH−EV∣∣F2+2μ1∣∣Y1∣∣F2−2μ1∣∣Y1∣∣F2.
接下来,利用范数的性质
∣
∣
A
∣
∣
F
2
=
⟨
A
,
A
⟩
||\mathbf{A}||_F^2 = \langle \mathbf{A}, \mathbf{A} \rangle
∣∣A∣∣F2=⟨A,A⟩,我们可以将上述表达式改写为:
⟨
Y
1
,
X
−
P
H
−
E
V
⟩
+
1
2
μ
∣
∣
Y
1
∣
∣
F
2
+
μ
2
∣
∣
X
−
P
H
−
E
V
∣
∣
F
2
−
1
2
μ
∣
∣
Y
1
∣
∣
F
2
.
\langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle + \frac{1}{2\mu}||\mathbf{Y}_1||_F^2 + \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2 - \frac{1}{2\mu}||\mathbf{Y}_1||_F^2.
⟨Y1,X−PH−EV⟩+2μ1∣∣Y1∣∣F2+2μ∣∣X−PH−EV∣∣F2−2μ1∣∣Y1∣∣F2.
然后,利用矩阵内积的线性性质和范数的性质,可以进一步合并前两项:
⟨
Y
1
,
X
−
P
H
−
E
V
⟩
+
1
2
μ
∣
∣
Y
1
∣
∣
F
2
=
1
2
μ
(
2
μ
⟨
Y
1
,
X
−
P
H
−
E
V
⟩
+
∣
∣
Y
1
∣
∣
F
2
)
.
\langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle + \frac{1}{2\mu}||\mathbf{Y}_1||_F^2 = \frac{1}{2\mu} \left( 2\mu \langle \mathbf{Y}_1, \mathbf{X} - \mathbf{PH} - \mathbf{E}_V \rangle + ||\mathbf{Y}_1||_F^2 \right).
⟨Y1,X−PH−EV⟩+2μ1∣∣Y1∣∣F2=2μ1(2μ⟨Y1,X−PH−EV⟩+∣∣Y1∣∣F2).
由于
⟨
A
,
B
⟩
=
⟨
B
,
A
⟩
\langle \mathbf{A}, \mathbf{B} \rangle = \langle \mathbf{B}, \mathbf{A} \rangle
⟨A,B⟩=⟨B,A⟩,上式可以写作:
1
2
μ
(
∣
∣
Y
1
∣
∣
F
2
+
2
μ
⟨
X
−
P
H
−
E
V
,
Y
1
⟩
)
.
\frac{1}{2\mu} \left( ||\mathbf{Y}_1||_F^2 + 2\mu \langle \mathbf{X} - \mathbf{PH} - \mathbf{E}_V, \mathbf{Y}_1 \rangle \right).
2μ1(∣∣Y1∣∣F2+2μ⟨X−PH−EV,Y1⟩).
又 ∣ ∣ A + B ∣ ∣ F 2 = ∣ ∣ A ∣ ∣ F 2 + 2 < A , B > + ∣ ∣ B ∣ ∣ F 2 ||\mathbf{A} + \mathbf{B}||_{F}^2=||\mathbf{A}||_{F}^2 + 2<A,B> + ||\mathbf{B}||_{F}^2 ∣∣A+B∣∣F2=∣∣A∣∣F2+2<A,B>+∣∣B∣∣F2
因此,根据范数的性质,可以得到:
1
2
μ
(
∣
∣
Y
1
∣
∣
F
2
+
2
μ
⟨
X
−
P
H
−
E
V
,
Y
1
⟩
)
+
μ
2
∣
∣
X
−
P
H
−
E
V
∣
∣
F
2
=
1
2
μ
(
∣
∣
Y
1
∣
∣
F
2
+
2
μ
⟨
X
−
P
H
−
E
V
,
Y
1
⟩
+
μ
2
∣
∣
X
−
P
H
−
E
V
∣
∣
F
2
)
=
1
2
μ
∣
∣
Y
1
+
μ
(
X
−
P
H
−
E
V
)
∣
∣
F
2
.
\frac{1}{2\mu} \left( ||\mathbf{Y}_1||_F^2 + 2\mu \langle \mathbf{X} - \mathbf{PH} - \mathbf{E}_V, \mathbf{Y}_1 \rangle \right)+\frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2\\ = \frac{1}{2\mu} \left( ||\mathbf{Y}_1||_F^2 + 2\mu \langle \mathbf{X} - \mathbf{PH} - \mathbf{E}_V, \mathbf{Y}_1 \rangle + \mu^2 ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V||_F^2 \right)\\ =\frac{1}{2\mu} ||\mathbf{Y}_1 + \mu (\mathbf{X} - \mathbf{PH} - \mathbf{E}_V)||_F^2.
2μ1(∣∣Y1∣∣F2+2μ⟨X−PH−EV,Y1⟩)+2μ∣∣X−PH−EV∣∣F2=2μ1(∣∣Y1∣∣F2+2μ⟨X−PH−EV,Y1⟩+μ2∣∣X−PH−EV∣∣F2)=2μ1∣∣Y1+μ(X−PH−EV)∣∣F2.
因此,整个表达式变为:
1
2
μ
∣
∣
Y
1
+
μ
(
X
−
P
H
−
E
V
)
∣
∣
F
2
−
1
2
μ
∣
∣
Y
1
∣
∣
F
2
.
\frac{1}{2\mu} ||\mathbf{Y}_1 + \mu (\mathbf{X} - \mathbf{PH} - \mathbf{E}_V)||_F^2 - \frac{1}{2\mu}||\mathbf{Y}_1||_F^2.
2μ1∣∣Y1+μ(X−PH−EV)∣∣F2−2μ1∣∣Y1∣∣F2.
注意到
−
1
2
μ
∣
∣
Y
1
∣
∣
F
2
- \frac{1}{2\mu}||\mathbf{Y}_1||_F^2
−2μ1∣∣Y1∣∣F2 是与
P
\mathbf{P}
P 无关的常数项,所以它不影响优化问题的结果。因此,我们可以忽略这一项,最终得到:
1
2
μ
∣
∣
Y
1
+
μ
(
X
−
P
H
−
E
V
)
∣
∣
F
2
\frac{1}{2\mu} ||\mathbf{Y}_1 + \mu (\mathbf{X} - \mathbf{PH} - \mathbf{E}_V)||_F^2
2μ1∣∣Y1+μ(X−PH−EV)∣∣F2
为了简化形式,我们可以提取公共因子
μ
2
\frac{\mu}{2}
2μ,并利用范数的性质
α
∣
∣
A
∣
∣
F
2
=
∣
∣
α
A
∣
∣
F
2
\alpha ||\mathbf{A}||_F^2 = ||\sqrt{\alpha} \mathbf{A}||_F^2
α∣∣A∣∣F2=∣∣αA∣∣F2,从而得到:
arg
min
P
μ
2
(
∣
∣
1
μ
Y
1
+
(
X
−
P
H
−
E
V
)
∣
∣
F
2
)
.
\arg\min_{\mathbf{P}} \frac{\mu}{2} \left( ||\frac{1}{\mu}\mathbf{Y}_1 + (\mathbf{X} - \mathbf{PH} - \mathbf{E}_V)||_F^2 \right).
argPmin2μ(∣∣μ1Y1+(X−PH−EV)∣∣F2).
这就是所求的重写形式:
arg
min
P
μ
2
∣
∣
X
−
P
H
−
E
V
+
1
μ
Y
1
∣
∣
F
2
.
\arg\min_{\mathbf{P}} \frac{\mu}{2} ||\mathbf{X} - \mathbf{PH} - \mathbf{E}_V + \frac{1}{\mu}\mathbf{Y}_1||_F^2.
argPmin2μ∣∣X−PH−EV+μ1Y1∣∣F2.