第10章降维与度量学习

最新推荐文章于 2020-05-01 21:52:47 发布

CharlesVan

最新推荐文章于 2020-05-01 21:52:47 发布

阅读量308

点赞数

分类专栏： Machine Learning 文章标签： MDS算法 PCA算法 KPCA算法 Isomap算法 LLE算法

本文链接：https://blog.csdn.net/williananjhon/article/details/95769683

版权

Machine Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

第10章降维与度量学习

10.1 k近邻学习

k-近邻(k-Nearest Neighbor,KNN)学习是一种常用的监督学习方法，其工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这个k个“邻居”的信息来进行预测

在分类任务中可使用投票法，即选择这k个样本中出现最多的类别标记作为预测结果

在回归任务中可使用平均法，即将这k个样本的实值输出标记的平均值作为预测结果

懒惰学习(lazy learning)：此类学习技术在训练阶段仅仅把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。

急切学习(eager learning)：在训练阶段对样本进行学习处理的方法

给定测试样本x，若其最近邻样本为z，则最近邻分类器出错的概率就是x与z类别标记不同的概率

$P\left( \text{err} \right) = 1 - \sum_{c \in y}^{}{P\left( c \middle| x \right)P\left( c \middle| z \right)}$

假设样本独立同分布，且对任意x和任意小正数 $\delta$ ，在x附近 $\delta$ 距离范围内总能找到一个训练样本。

$P\left( \text{err} \right) = 1 - \sum_{c \in y}^{}{P\left( c \middle| x \right)P\left( c \middle| z \right)}$

$\simeq 1 - \sum_{c \in y}^{}{P^{2}\left( c \middle| x \right)}$

$\leq 1 - P^{2}\left( c^{*} \middle| x \right)$

$\left( 1 + P\left( c^{*} \middle| x \right) \right)\left( 1 - P\left( c^{*} \middle| x \right) \right)$

$\leq 2 \times \left( 1 - P\left( c^{*} \middle| x \right) \right)$

10.2 低维嵌入

训练样本的采样密度足够大或称为密采样(dense sample)

维度灾难(curse of dimensionality)：在高维情形下出现的数据样本稀疏、距离计算困难等问题

维数约简：缓解维数灾难的一个重要途径是降维(dimension reduction)，即通过某种数学变换将原始高维属性空间转变为一个低维子空间

若要求原始空间中的样本之间的距离在低维空间得以保持，即得到多维缩放(Multiple
Dimensional Scaling, MDS)

假定m个样本在原始空间的距离矩阵为 $\in \mathbb{R}^{m \times m}$ ，其第i行j列的元素 $\text{dist}_{\text{ij}}$ 为样本 $x_{i}$ 到 $x_{j}$ 的距离。

目标：获得样本在 $d^{'}$ 维空间表示 $\in \mathbb{R}^{d^{'} \times m},d^{'} \leq d$ ，且任意两个样本在 $d^{'}$ 维空间中的欧式距离等于原始空间中的距离，即 $\left\| z_{i} - z_{j} \right\| = \text{dist}_{\text{ij}}$

令 $Z^{T}Z \in \mathbb{R}^{m \times m}$ ，其中B为降维后样本的内积矩阵， $b_{\text{ij}} = z_{i}^{T}z_{j}$ ，有

$\text{dist}_{\text{ij}}^{2} = \left\| z_{i} \right\|^{2} + \left\| z_{j} \right\|^{2} - 2z_{i}^{T}z_{j} = b_{\text{ii}} + b_{\text{jj}} - 2b_{\text{ij}}$

令降维后的样本Z被中心化，即 $\sum_{i = 1}^{m}{z_{i} = 0}$ ，则矩阵B的行和列之和均为零，即 $\sum_{i = 1}^{m}{b_{\text{ij}} = \sum_{j = 1}^{m}{b_{\text{ij}} = 0}}$ ，则

$\sum_{i = 1}^{m}{\text{dist}_{\text{ij}}^{2} = \text{tr}\left( B \right) + mb_{\text{jj}}}$

$\sum_{j = 1}^{m}{\text{dist}_{\text{ij}}^{2} = \text{tr}\left( B \right) + mb_{\text{ii}}}$

$\sum_{i = 1}^{m}{\sum_{j = 1}^{m}{\text{dist}_{\text{ij}}^{2} = 2m\text{tr}\left( B \right)}}$

其中 $\text{tr}\left( . \right)$ 表示矩阵的迹(trace)， $\text{tr}\left( B \right) = \sum_{i = 1}^{m}\left\| z_{i} \right\|^{2}$ 。令

$\text{dist}_{i}^{2} = \frac{1}{m}\sum_{j = 1}^{m}\text{dist}_{\text{ij}}^{2}$

$\text{dist}_{j}^{2} = \frac{1}{m}\sum_{i = 1}^{m}\text{dist}_{\text{ij}}^{2}$

$\text{dist}_{\text{..}}^{2} = \frac{1}{m^{2}}\sum_{i = 1}^{m}{\sum_{j = 1}^{m}\text{dist}_{\text{ij}}^{2}}$

则

$b_{\text{ij}} = - \frac{1}{2}\left( \text{dist}_{\text{ij}}^{2} - \text{dist}_{\text{i.}}^{2} - \text{dist}_{\text{.j}}^{2} + \text{dist}_{\text{..}}^{2} \right)$

由此即可通过降维前后保持不变的距离矩阵D求取内积矩阵B

对矩阵B做特征值分解(eigenvalue decomposition)， $V\Lambda V^{T}$ ，其中 $\Lambda = diag\left( \lambda_{1},\lambda_{2},\ldots,\lambda_{d} \right)$ 为特征构成的对角矩阵， $\lambda_{1} \geq \lambda_{2} \geq \ldots{\geq \lambda}_{d}$ ，V为特征向量矩阵。假定其中有 $d^{*}$ 个非零特征值，它们构成对角矩阵 $\Lambda_{*} = diag\left( \lambda_{1},\lambda_{2},\ldots,\lambda_{d^{*}} \right)$ ，令 $\Lambda_{*}$ 表示相应的特征向量矩阵，则Z可表达为

$\Lambda_{*}^{\frac{1}{2}}V_{*}^{T} \in \mathbb{R}^{d^{*} \times m}$

此时可取 $d^{'} \ll d$ 个最大特征值构成对角矩阵 $\tilde{\Lambda} = \text{dia}g\left( \lambda_{1},\lambda_{2},\ldots,\lambda_{d^{'}} \right)$ ，令 $\tilde{V}$ 表示相应的特征向量矩阵，则

${\tilde{\Lambda}}^{\frac{1}{2}}{\tilde{V}}^{T} \in \mathbb{R}^{d^{'} \times m}$
在这里插入图片描述

10.3 主成分分析

主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法。

最大重构性：样本点到这个超平面的距离都足够近

最大可分性：样本点在这个超平面上的投影能尽可能分开

假定数据样本进行中性化，即 $\sum_{i}^{}{x_{i} = 0}$ ；再假定投影变换后得到的新坐标系为 $\left\{ \omega_{1},\omega_{2},\ldots,\omega_{d} \right\}$ ，其中 $\omega_{i}$ 是标准正交基向量， $\left\| \omega_{i} \right\|_{2} = 1,\omega_{i}^{T}\omega_{j} = 0\left( i \neq j \right)$ ，将维度降低到 $d^{'} < d$ ，则样本点 $x_{i}$ 在低维坐标系中的投影为 $z_{i} = \left( z_{i1};z_{i2};\ldots;z_{\text{id}^{'}} \right)$ ，其中 $z_{ij} = \omega_{j}^{T}x_{i}$ 是 $x_{i}$ 在低维坐标系下第j维的坐标。若基于 $z_{i}$ 来重构 $x_{i}$ ，则会得到 ${\hat{x}}_{i} = \sum_{j = 1}^{d^{'}}{z_{\text{ij}}\omega_{j}}$ 。

考虑整个训练集，原样本点 $x_{i}$ 与基于投影重构的样本点 ${\hat{x}}_{i}$ 之间的距离为

$\sum_{i = 1}^{m}\left\| \sum_{j = 1}^{d^{'}}{z_{\text{ij}}\omega_{j} -}x_{i} \right\|_{2}^{2} = \sum_{i = 1}^{m}z_{i}^{T}z_{i} - 2\sum_{i = 1}^{m}{z_{i}^{T}W^{T}x_{i}}$

$\propto - \text{tr}\left( W^{T}\left( \sum_{i = 1}^{m}{x_{i}x_{i}^{T}} \right)W \right)$

其中 $\left( \omega_{1},\omega_{2},\ldots,\omega_{d} \right)$ 。根据最近重构性，上式应被最小化，考虑到 $\omega_{j}$ 是标准正交基， $\sum_{i = 1}^{m}x_{i}^{T}x_{i}$ 是协方差矩阵，优化目标有
在这里插入图片描述

投影后样本点的方差是 $\sum_{i = 1}^{m}{{W^{T}x}_{i}x_{i}^{T}}W$ ，则
在这里插入图片描述
使用拉格朗日乘子法有

$XX^{T}\omega_{i} = \lambda_{i}\omega_{i}$

只需要对协方差矩阵 $XX^{T}$ 进行特征值分解。将求得的特征值排序 $\lambda_{1} \geq \lambda_{2} \geq ,\ldots, \geq \lambda_{d}$ ，再取前 $d^{'}$ 个特征值对应的特征向量构成 $W^{*} = \left( \omega_{1},\omega_{2},\ldots,\omega_{d^{'}} \right)$
在这里插入图片描述

10.4 核化线性降维

核主成分分析(Kernelized PCA,KPCA)是一种基于核技巧对线性降维方法进行核化，是非线性降维的一种常用方法。

假定将在高维特征空间中把数据投影到由 $\left( \omega_{1},\omega_{2},\ldots,\omega_{d} \right)$ 确定的超平面上，则对于 $\omega_{j}$ 有

$\left( \sum_{i = 1}^{m}{z_{i}z_{i}^{T}} \right)\omega_{j} = \lambda_{j}\omega_{j}$

其中 $z_{i}$ 是样本点 $x_{i}$ 在高维特征空间中的像，则

$\omega_{j} = \frac{1}{\lambda_{j}}\left( \sum_{i = 1}^{m}{z_{i}z_{i}^{T}} \right)\omega_{j} = \sum_{i = 1}^{m}{z_{i}\frac{z_{i}^{T}\omega_{j}}{\lambda_{j}}} = \sum_{i = 1}^{m}{z_{i}\alpha_{i}^{j}}$

其中 $\alpha_{i}^{j} = \frac{1}{\lambda_{j}}z_{i}^{T}\omega_{j}$ 是 $\alpha_{i}$ 的第j个分量。

假定 $z_{i}$ 是由原始属性空间中的样本点 $x_{i}$ 通过映射 $\phi$ 产生，即 $z_{i} = \phi\left( x_{i} \right),i = 1,2,\ldots,m$ ，若 $\phi$ 能被显式表达出来，则

$\left( \sum_{i = 1}^{m}{\phi\left( x_{i} \right){\phi\left( x_{i} \right)}^{T}} \right)\omega_{j} = \lambda_{j}\omega_{j}$

$\omega_{j} = \sum_{i = 1}^{m}{\phi\left( x_{i} \right)\alpha}_{i}^{j}$

引入核函数：

$\mathcal{K}\left( x_{i}x_{j} \right) = {\phi\left( x_{i} \right)}^{T}\phi\left( x_{i} \right)$

则化简为

$K\alpha^{j} = \lambda_{j}\alpha^{j}$

其中K为 $\mathcal{K}$ 对应的核矩阵， $\left( K \right)_{\text{ij}} = \mathcal{K}\left( x_{i}x_{j} \right),\alpha^{j} = \left( \alpha_{1}^{j};\alpha_{2}^{j};\ldots;\alpha_{m}^{j} \right)$

对新样本x，其投影后的第 $1,2,\ldots,d')$ 维坐标为

$z_{i} = \omega_{j}^{T}\phi\left( x \right) = \sum_{i = 1}^{m}\alpha_{i}^{j}{\phi\left( x \right)}^{T}\phi\left( x \right) = \sum_{i = 1}^{m}{\alpha_{i}^{j}\mathcal{K}\left( x_{i,}x_{j} \right)}$

10.5 流形学习

流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法。在局部具有欧式空间的性质，能用欧式距离历来进行距离计算。

10.5.1 等度量映射

等度量映射(Isometric Mapping,Isomap)基本出发点是低维流形嵌入到高维空间之后，直接在高维空间中计算直线距离具有误导性。

每个点基于欧式距离找出其近邻点，然后就能建立一个近邻连接图，图中近邻点之间存在连接，而非近邻点之间不存在连接。计算两点之间测地线距离的问题，就转变为计算近邻连接图上两点之间的最短路径问题。
在这里插入图片描述
对近邻图的构建通常的方法：指定近邻点个数或指定距离阈值 $\epsilon$

15.5.2 局部线性嵌入

局部线性嵌入(Locally Linear Embedding, LLE)试图保持领域内样本之间的线性关系。

假定样本点 $x_{i}$ 的坐标能通过它的领域样本 $x_{j},x_{k},x_{l}$ 的坐标通过线性组合而重构，即

$x_{i} = \omega_{\text{ij}}x_{j} + \omega_{ik}x_{k} + \omega_{il}x_{l}$

LLE先为每个样本 $x_{i}$ 找到其近邻下标集合 $Q_{i}$ ，然后计算出基于 $Q_{i}$ 中的样本点 $x_{i}$ 进行线性重构的系数 $\omega_{i}$ ：
在这里插入图片描述
其中 $x_{i}$ 和 $x_{j}$ 均为已知，令 $C_{\text{jk}} = \left( x_{i} - x_{j} \right)^{T}\left( x_{i} - x_{k} \right)$ 有闭解

$\omega_{\text{ij}} = \frac{\sum_{k \in Q_{i}}^{}C_{\text{jk}}^{- 1}}{\sum_{l,s \in Q_{i}}^{}C_{\text{ls}}^{- 1}}$

LLE在低维空间中保持 $\omega_{i}$ 不变，于是 $x_{i}$ 对应的低维空间坐标 $z_{i}$ 可通过下式求解：
在这里插入图片描述

令 $z_{1},z_{2},\ldots,z_{m} \in \mathbb{R}^{d^{'} \times m},\left( W \right)_{\text{ij}} = \omega_{\text{ij}}$ ，则

$\left( I - M \right)^{T}\left( I - M \right)$

则
在这里插入图片描述
可通过特征值分解求解：M最小的 $d^{'}$ 个特征值对应的特征向量组成的矩阵即为 $Z^{T}$

10.6 度量学习

度量学习(metric learning)的基本动机：寻找一个合适的距离度量。

对两个的维度样本 $x_{i}$ 和 $x_{j}$ ,它们之间的平方欧式距离为

$\text{dist}_{\text{ed}}^{2}\left( x_{i},x_{j} \right) = \left\| x_{i} - x_{j} \right\|_{2}^{2} = \text{dist}_{ij,1}^{2} + \text{dist}_{ij,2}^{2} + \ldots + \text{dist}_{ij,d}^{2}$

其中 $\text{dist}_{ij,k}$ 表示 $x_{i}$ 和 $x_{j}$ 在第k维上的距离。

若假定不同属性的重要性不同，则可引入属性权重 $\omega$ ，得到

$\text{dist}_{\text{ed}}^{2}\left( x_{i},x_{j} \right) = \left\| x_{i} - x_{j} \right\|_{2}^{2} = {\omega_{1} \bullet \text{dist}}_{ij,1}^{2} + \omega_{2} \bullet \text{dist}_{ij,2}^{2} + \ldots + \omega_{d} \bullet \text{dist}_{ij,d}^{2} = \left( x_{i} - x_{j} \right)^{T}W\left( x_{i} - x_{j} \right)$

将上式中的M替换为一个普通的半定对称矩阵M，得到马氏距离(Mahalanobis distance)：

$\text{dist}_{\text{mah}}^{2}\left( x_{i},x_{j} \right) = \left( x_{i} - x_{j} \right)^{T}M\left( x_{i} - x_{j} \right) = \left\| x_{i} - x_{j} \right\|_{M}^{2}$

其中M亦称度量矩阵。M必须是正定对称矩阵，即必有正交基P使得M能写为 $M = PP^{T}$

近邻成分分析(Neighborhood Component Analysis, NCA)

对任意样本 $x_{j}$ ，它对 $x_{i}$ 分类结果影响的概率为

$p_{\text{ij}} = \frac{\exp\left( - \left\| x_{i} - x_{j} \right\|_{M}^{2} \right)}{\sum_{l}^{}{\exp\left( - \left\| x_{i} - x_{l} \right\|_{M}^{2} \right)}}$

若以留一法正确率的最大化为目标，被自身之外的所有样本正确分类的概率为

$p_{i} = \sum_{j \in \Omega_{i}}^{}p_{\text{ij}}$

其中 $\Omega_{i}$ 表示与 $x_{i}$ 属于相同类别的样本的下标集合，则整个样本集上的留一法正确率为

$\sum_{i = 1}^{m}{p_{i} = \sum_{i = 1}^{m}{\sum_{j \in \Omega_{i}}^{}p_{\text{ij}}}}$

则NCA的优化目标为
在这里插入图片描述

通过求解下面的这个凸优化问题获得适当的度量矩阵M
在这里插入图片描述

CharlesVan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第10章降维与度量学习

第10章降维与度量学习10.1 k近邻学习k-近邻(k-Nearest Neighbor,KNN)学习是一种常用的监督学习方法，其工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这个k个“邻居”的信息来进行预测在分类任务中可使用投票法，即选择这k个样本中出现最多的类别标记作为预测结果在回归任务中可使用平均法，即将这k个样本的实值输出标记的平均值作为预...
复制链接

扫一扫