MVU

最新推荐文章于 2024-03-25 18:19:38 发布

whitesilence

最新推荐文章于 2024-03-25 18:19:38 发布

阅读量9.4k

点赞数 3

分类专栏： machine-learning

本文链接：https://blog.csdn.net/whitesilence/article/details/51027247

版权

machine-learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

MVU

MVU算法核心思想

在局部等距约束条件下通过最大化非近邻点间的距离,在低维空间中展开高维数据。
数据集的局部等距要求每个数据点和它的近邻点在平移、旋转等作用下它们之间的角度和距离保持不变。
设原样本 $X=[x_1,x_2,\cdots,x_n]\in R^{D\times n}$ ，样本在低维空间的表示为 $Y=[y_1,y_2,\cdots,y_n]\in R^{d\times n}$ ，
设 $x_j$ 与 $x_k$ 是 $x_i$ 的两个近邻点，局部等距要求满足 $(y_i-y_k)(y_i-y_j)=(x_i-x_k)(x_i-x_j)$ 。
因为在三角形中当确定了三角形的两边及两边所夹的角，三角形就可保持不变。同时当确定三角形三边时三角形也保持不变。
所以上述约束等价于 $||y_i-y_j||^2=||x_i-x_j||^2$
因此问题转化为：

m a x s . t . \sum i = 1 n \sum j = 1 n | | y i - y j | | 2 \sum i = 1 n y i = 0 ， 中 心 化 约 束 ， 以 消 除 数 据 集 低 维 表 示 的 平 移 自 由 度 | | y i - y j | | 2 = | | x i - x j | | 2 ， 等 距 约 束 ， 当 x j 与 x i 是 近 邻 点 时 要 求 满 足 此 约 束

$\begin{array}$max& \sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2\\ s.t. & \sum_{i=1}^ny_i=0，中心化约束，以消除数据集低维表示的平移自由度\\ &||y_i-y_j||^2=||x_i-x_j||^2，等距约束，当x_j与x_i是近邻点时要求满足此约束\end{array}$
这是一个在二次等式约束条件下最大化平方函数的非凸优化问题，为了获得最优解，需要定义内积矩阵

Kij=yi⋅yj $K_{ij}=y_i\cdot y_j$ ，该矩阵满足对称半正定约束

K≥0 $K\geq0$
同时

0=∑ni=1yi $0=\sum_{i=1}^ny_i$ =

||∑ni=1yi||2 $||\sum_{i=1}^ny_i||^2$ =

∑ni=1∑nj=1yi⋅yj $\sum_{i=1}^n\sum_{j=1}^ny_i\cdot y_j$ =

∑ni=1∑nj=1Kij $\sum_{i=1}^n\sum_{j=1}^nK_{ij}$

||yi−yj||2=Kii−2Kij+Kjj=||xi−xj||2 $||y_i-y_j||^2=K_{ii}-2K_{ij}+K_{jj}=||x_i-x_j||^2$
因此，MVU的优化问题转化为一个半定规划（SDP)问题

m a x s . t . t r a c e (K) K \geq 0 \sum i = 1 n \sum j = 1 n K i j = 0 K i i - 2 K i j + K j j = | | x i - x j | | 2 ， 当 x j 与 x i 是 近 邻 点 时

$\begin{array} $max&trace(K)\\ s.t. &K\geq0\\ &\sum_{i=1}^n\sum_{j=1}^nK_{ij}=0\\ &K_{ii}-2K_{ij}+K_{jj}=||x_i-x_j||^2，当x_j与x_i是近邻点时 \end{array}$
求解该SDP问题可得到半正定矩阵

K $K$ 。对

K $K$ 进行特征值分解，得到

K $K$ 的最大的

d $d$ 个特征值对应的特征向量

v1,v2,⋯,vd $v_1,v_2,\cdots,v_d$ ,则

[y1,y2,⋯,yn]=[v1,v2,⋯,vd]T $[y_1,y_2,\cdots,y_n]=[v_1,v_2,\cdots,v_d]^T$
这里说一下SDP的标准形式：

C,X $C , X$ 为

n×n $n\times n$ 对称矩阵，定义它们的内积

C⋅X=∑ni=1∑nj=1CijXij=tr(CTX) $C \cdot X=\sum_{i=1}^n\sum_{j=1}^nC_{ij}X_{ij}=tr(C^TX)$

Ai $A_i$ 为

n×n $n\times n$ 对称矩阵，

bi $b_i$ 为一个实数，

i=1,2,...,m $i=1,2,...,m$
下面的最优化问题即为SDP问题

m i n i m i z e s . t . C \cdot X A i \cdot X = b i ， i = 1, 2, . . ., m X \geq 0

$\begin{array} $minimize&C \cdot X\\ s.t. & A_i\cdot X=b_i，i=1,2,...,m\\ &X\geq 0\end{array}$
在上述MVU问题中，令

C=−I $C=-I$ ，

X=K $X=K$ ，

m $m$ 为近邻点对数，设

i $i$ 为第

i $i$ 对对应点，表示对应点对

xj↔xk $x_j\leftrightarrow x_k$ ，

Ai $A_i$ 为0,1矩阵，只有

Ajji=1,Akki=1,Ajki=1,Akji=1 $A_i^{jj}=1,A_i^{kk}=1,A_i^{jk}=1,A_i^{kj}=1$ 其它元素都为0,

bi $b_i$ 表示第

i $i$ 对对应点在原空间的距离，即

bi=||xj−xk||2 $b_i=||x_j-x_k||^2$ .则MVU问题可用解决SDP问题的方法得到最优解

K $K$ .

MVU算法步骤

1.计算原样本空间中每个点到其它点的距离构造距离矩阵，根据k近邻法或 $\epsilon$ 邻域法选出每个点的近邻。
2.构造约束矩阵 $A_i$ ，根据距离矩阵设定 $b_i$
3.用SDPA或CSDP或SDPT3或SeDuMi或DSDP或SDPLR解决算法中的SDP问题，求出 $K$
4.对 $K$ 进行特征值分解

有区别方差嵌入DVE

DVE算法首先构造数据集的近邻图和非近邻图以表征它的局部和全局结构信息，利用近邻点间的距离和保持不变的约束以保证数据集的局部结构不变，通过最大化非近邻点在低维空间中的距离从而在全局上展开嵌入流形。
对于给定的原样本空间 $X=[x_1,x_2,\cdots,x_n]\in R^{D\times n}$ ，首先构造它的近邻图 $G$ 和非近邻图 $G'$ .
对于近邻图 $G$ ，当 $x_i$ 与 $x_j$ 是近邻时， $x_i$ 与 $x_j$ 之间建立一条边，并赋予权重 $W_{ij}$ .
$W_{ij} = \begin{cases} 1, & \text{if $x_i$与$x_j$是近邻} \\ 0, & \text{otherwise} \end{cases}$
对于非近邻图 $G'$ ，当 $x_i$ 与 $x_j$ 不是近邻时， $x_i$ 与 $x_j$ 之间建立一条边，并赋予权重 $W_{ij}'$ .
$W_{ij}’= \begin{cases} 1, & \text{if $x_i$与$x_j$不是近邻} \\ 0, & \text{otherwise} \end{cases}$
重写MVU的目标函数 $max \sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2$ = $\sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}$ + $\sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}'$
将原来的每对近邻点间的距离相等约束松弛为距离和相等约束，即 $\sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}$ = $\sum_{i=1}^n\sum_{j=1}^n||x_i-x_j||^2W_{ij}$
这里由于对近邻点间距离和相等的约束实际是保持流形的局部结构。 $W_{ij}$ 反映的是近邻点间的相似度，这里 $W_{ij}$ 常用热核函数计算， $W_{ij} = \begin{cases} \exp(-\frac{||x_i-x_j||^2}{\sigma^2}), & \text{if $x_i$与$x_j$是近邻} \\ 0, & \text{otherwise} \end{cases}$ .
由于距离和 $\sum_{i=1}^n\sum_{j=1}^n||x_i-x_j||^2W_{ij}$ 是一定的，设为 $c$ ,则 $\sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}=c$ ,故目标函数即为 $max \sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}'$
原问题转化为

m a x s . t . \sum i = 1 n \sum j = 1 n | | y i - y j | | 2 W' i j = 2 t r (Y L' Y T) \sum i = 1 n \sum j = 1 n | | y i - y j | | 2 W i j = c 即 2 t r (Y L Y T) = c

$\begin{array} $max &\sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}'=2tr(YL'Y^T)\\ s.t. & \sum_{i=1}^n\sum_{j=1}^n||y_i-y_j||^2W_{ij}=c即2tr(YLY^T)=c\end{array}$
利用拉格朗日乘数法解决上述问题：

L(Y,λ)=tr(YL′YT)−λ((tr(YLYT)−c) $L(Y,\lambda)=tr(YL'Y^T)-\lambda((tr(YLY^T)-c)$

∂L∂Y=YL′T+YL′−λ(YLT+YL) $\frac{\partial{L}}{\partial{Y}}=YL'^T+YL'-\lambda(YL^T+YL)$ =0即

YL′=λYL $YL'=\lambda YL$ 两边取转置得

L′YT=λLYT $L'Y^T=\lambda LY^T$ .(注意到

L $L$ 与

L′ $L'$ 都是对称阵）
DVE的优化问题可转化为广义特征值分解问题

L′YT=λLYT $L'Y^T=\lambda LY^T$
选取其前

d $d$ 个最大特征值对应的特征向量

v1,v2,...,vd $v_1,v_2,...,v_d$ ，则

YT=[v1,v2,...,vd] $Y^T=[v_1,v_2,...,v_d]$

LDVE

DVE相比于MVU减小了计算量但非邻域图 $G'$ 的拉普拉斯矩阵 $L'$ 是稠密矩阵，对齐进行特征值分解，所需的计算量和存储空间都比较大，只能处理小样本，对于海量数据无能为力。基于基准点的有区别方差嵌入（LDVE)致力于提高对海量高维数据的处理能力。
对于给定的原样本空间 $X=[x_1,x_2,\cdots,x_n]\in R^{D\times n}$ ，随机选取 $p$ 个基准点，设这 $p$ 个基准点组成的集合为 $X_1$ ，剩下的样本点组成的集合为 $X_2$ .将随机选取的 $p$ 个基准点排在数据集 $X$ 的前面，剩下的排在后面，记 $X=[X_1,X_2]$ .
构造邻域图G，当 $x_i$ 与 $x_j$ 是近邻时， $x_i$ 与 $x_j$ 之间建立一条边，并赋予权重 $W_{ij}$ . $W_{ij} = \begin{cases} \exp(-\frac{||x_i-x_j||^2}{\sigma^2}), & \text{if $x_i$与$x_j$是近邻} \\ 0, & \text{otherwise} \end{cases}$ .
构造非邻域图 $G'$ ，当 $x_i$ 与 $x_j$ 不是近邻且 $x_i$ 与 $x_j$ 在所选的基准点点集中时， $x_i$ 与 $x_j$ 之间建立一条边，并赋予权重 $W_{ij}'$ . $W_{ij} '=1$
优化问题可转化为广义特征值分解问题 $L'Y^T=\lambda LY^T$
其中 $L'$ 相对之前的 $L'$ ，有较少的非0元。
选取其前 $d$ 个最大特征值对应的特征向量 $v_1,v_2,...,v_d$ ，则 $Y^T=[v_1,v_2,...,v_d]$

LMVU

在给定的样本空间 $X=[x_1,x_2,\cdots,x_n]\in R^{D\times n}$ 中随机选取 $p$ 个基准点， $d<p<D$ ，设这 $p$ 个基准点组成的集合为 $X_1$ ，剩下的样本点组成的集合为 $X_2$ .将随机选取的 $p$ 个基准点排在数据集 $X$ 的前面，剩下的排在后面，记 $X=[X_1,X_2]$ . $X_1$ 的低维表示为 $Y_1$ ， $X_2$ 的低维表示为 $Y_2$ ，设数据集 $X_1$ 到数据集 $X$ 的投影矩阵为 $Q$ ， $Q$ 为 $n\times p$ 矩阵，则可通过 $Y=Y_1Q^T$ 计算 $Y$ .则核矩阵 $K=Y^TY=QY_1^TY_1Q^T$ .

线性变换矩阵 $Q$ 的计算

令 $Q^T=[Q_1,Q_2]$ ，则 $Y=[Y_1,Y_2]=Y_1Q^T=Y_1[Q_1,Q_2]=[Y_1Q_1,Y_1Q_2]$ ，所以 $Q_1=E$ ，其中 $E$ 为 $p\times p$ 的单位矩阵，下面主要计算 $Q_2$ ， $Q_2$ 需要借助 $X_2$ 计算。
对任意 $x_i\in X_2$ ，设 $x_i$ 的近邻点组成的集合为 $\cal{N}(x_i)$ ，则 $x_i$ 可用其近邻点近似表示为 $x_i=\sum_{x_j\in \cal{N}(x_i)}x_jw_{ij}=\sum_{j=1}^nx_jw_{ij}$ ，其中当 $x_j\notin\cal{N}(x_i)$ 时 $w_{ij}=0$ .
则近邻点间的权值矩阵 $W=(w_{ij})_{(n-p)\times n}$ 可通过类似于LLE的方式获得

W = a r g m i n \sum i = p + 1 n | | x i - \sum j = 1 n x j w i j | | 2 s . t . \sum j = 1 n w i j = 1

$\begin{array} $W=argmin \sum_{i=p+1}^n||x_i-\sum_{j=1}^nx_jw_{ij}||^2\\ s.t. \sum_{j=1}^nw_{ij}=1\end{array}$

由于 $x_i=\sum_{j=1}^nx_jw_{ij}=\sum_{j=1}^px_jw_{ij}+\sum_{j=p+1}^nx_jw_{ij}$

令 $W=[W_{(n-p)\times P},W_{(n-p)\times (n-p)}]=[ W_1,W_2]$

即 $X_2=X_1W_1^T+X_2W_2^T$

$\therefore Y_2=Y_1W_1^T+Y_2W_2^T$

$\therefore Y_2(E-W_2^T)=Y_1W_1^T$ ,其中 $E$ 是 $(n-p)\times (n-p)$ 矩阵

$\therefore Y_2=Y_1W_1^T(E-W_2^T)^{-1}$

注意到 $Y_2=Y_1Q_2$

$\therefore Q_2=W_1^T(E-W_2^T)^{-1}$

其中 $(E-W_2^T)^{-1}$ 可通过 $(E-W_2^T)^{-1}=(E-W_2^T)^T((E-W_2^T)(E-W_2^T)^T)^{-1}$ 计算

计算 $Y_1$

在基准点集上借助SDP求解 $Y_1$

$K=Y^TY=QY_1^TY_1Q^T=QLQ^T$ ,其中 $L=Y_1^TY_1$

m a x s . t . t r a c e (K) L \geq 0 \sum i = 1 n \sum j = 1 n K i j = 0 K k k - 2 K k j + K j j = | | x k - x j | | 2 ， x i, x j \in N (x i), 1 \leq i \leq p

$\begin{array} $max&trace(K)\\ s.t. &L\geq0\\ &\sum_{i=1}^n\sum_{j=1}^nK_{ij}=0\\ &K_{kk}-2K_{kj}+K_{jj}=||x_k-x_j||^2，{x_i,x_j\in \cal{N}(x_i)},1\leq i\leq p \end{array}$

对 $L$ 进行特征值分解，选取前 $d$ 个最大特征值对应的特征向量即可得 $Y1$ ,
$Y=Y1Q^T$