目录
4、线性降维
1、降维是一个一个投影算子,降维结果是原始数据的投影
2、线性降维主要有主成分分析(PCA),经典多维缩放(CMDS),随机投影(RP)
3、主成分分析用于最大化数据能量/最大化方差,对输入数据的协方差矩阵进行谱分解,选择从小到大的特征值对应的特征向量作为降维数据;在线性降维方法中,PCA是最经典、最重要的方法之一
4、PCA线性降维的流程
-
把n个D维样本写成Dxn的矩阵(也即将样本写成行向量)
-
每一行求一个平均值,每一位减去对应平均值,得到均值化矩阵X
-
求矩阵的协方差矩阵C
-
求出协方差矩阵的特征值与特征向量,从大到小排序。
-
要降到几维就用前几个大的特征值对应的特征向量作为行向量组成特征向量矩阵P。
-
Y = PX。(这里的X是均值化的矩阵,而非原数据构成的矩阵)
Y即为降维后的数据。
5、经典多维缩放(CMDS)是一种降维技术,用以展示可以计算“距离”的数据的结构,把数据以几何图像的形式展示。
6、MDS类的输入只需要数据间的相似度(或者距离矩阵),不需要数据集本身。
7、MDS问题里的一些概念
-
n-中心化矩阵H = I(n维单位阵) -(1/n)ones(n,n)
-
对数据X进行中心化:X = X_0 H,X为中心化后的数据
-
X的Gram矩阵(也被称为X_0的中心化Gram矩阵): G^C = X^T * X(X的转置与X的乘积)
-
X_0的Gram矩阵为G,X的中心化Gram矩阵为HGH
-
数据集X_0的欧氏距离平方矩阵S与中心化Gram矩阵G^{C}的关系为 G^{C} = -(1/2)*S^{C}
8、CMDS算法流程:
-
构建中心化的Gram矩阵
令距离矩阵为A,每一项平方得到距离平方矩阵P。
H = I(n维单位阵) -(1/n)ones(n,n),B = -(1/2)* H * P * H
得到中心化的Gram矩阵B
-
对Gram 矩阵进行谱分解
对Gram矩阵进行谱分解,得到特征值和特征向量,并从大到小排序。要降到几维就取前几大特征值对应的特征向量
-
得到分布点集(降维结果)
降维后数据 = 特征向量为列向量构成的矩阵(在前)x 特征值开方构成的对角阵(在后)
9、PCA与CMDS的目标不同,PCA是为了数据投影后方差最大,CMDS是为了寻找一组低维数据(分布点集)具有相似的距离矩阵。如果CMDS使用的点间距离矩阵为欧式矩阵时,PCA和CMDS是等价的。
10、PCA和MDS都是全局优化的,无法保持原始数据的局部分离性,随即投影可以保持原始数据的局部分离性
11、随机投影实现的降维以高概率的形式实现Lipschitz嵌入(局部分离性),且时间消耗为线性,计算效率高
5、非线性降维
1、非线性降维结果是原始数据的流形坐标表示或者特征向量,主要有等距映射,最大方差展开,局部线性嵌入,Laplace特征映射
2、等距映射流程
-
定义邻域(两种邻域)
-
把每一个点与它邻域中的点连接,生成一张带权无向图
-
用Floyd或Dijkstra算法计算图上两点之间最短路径作为这两点之间测地距离的近似
-
计算低维空间Y上的一个嵌入,尽可能保持原始数据的流形几何结构,构造核矩阵(是一个GRAM矩阵)G^C = (-1/2)HSH。
-
对GRAM矩阵进行特征分解,取前d个特征值构成降维后的d维空间基向量
-
将数据投影到这些基向量上,获得降维后的数据点集
3、最大方差展开MVU
4、Isomap保持点间的几何距离,MVU方法保持局部方差最大,也即点间的局部距离和角度;MVU采用半定规划来求解降维问题
5、局部线性嵌入LLE; LLE是一种全局方法,图中所有点对之间距离都要计算,难以用到大数据集;LLE是一种局部方法,核矩阵是稀疏矩阵,可应用到大数据集,计算高效;LLE的缺点是要得到理想的降维结果,原始数据集必须相当稠密;邻域选择是LLE算法的关键
6、Laplace特征映射
-
构造邻域(两种邻域)
-
生成带权图(简单权重,核函数权重)
-
构造降维的核,得到Laplace矩阵
-
对降维核进行谱分解
6、图曲面与复形
1、任意两个顶点之间都有边连接的简单图,称为完全图
2、如果序列中不存在重复的顶点,则称该路径是简单的
3、任意两个顶点之间都存在路径的图,称为连通图
4、任意两个顶点之间都有 唯一路径连接的图称为树
5、判断点在闭曲线内外:
作一条射线看与曲线交点个数,若有奇数个点,说明在内部,若有偶数个说明在外部,若遇到了顶点另外处理
6、证明球面上每条简单封闭闭曲线将球面分成两个连通分量:
球面上取不在曲线上的点,不妨设点为北极点 (0,0,1),使用去北极点 球面到平面的一种同胚映射,球极投影:
得到平面上的简单闭曲线。由 Jordan 曲线定理,它把平面分为两个连通分量。又由球极投影的双向连续性,平面上的两个连通分量分别对应于球面上的两个开集连通分量 S1 ,S2 。由于球面简单闭曲线是球面的闭集,故北极点处存在一个球面上的邻域,使得邻域包含于两个连通分量中的其中一个,设为S2。从而S1,S2U(0,0,1)是球面上的两个联通分量且
7、会数环绕数
8、欧拉示性数 = 顶点数-边数+面数
9、若平面连通图G中任意添加一条边后都不是平面图,则G是最大平面连通图,最大平面连通图的任意一个面都由三条边组成
10、平面连通图的欧拉示性数为2
11、紧可定向二维流形的亏格就是其“洞”的数量
12、亏格为g的紧可定向性曲面的欧拉示性数为2-2g
13、每两个曲面粘合在一起欧拉示性是要减2
14、紧不可定向流形的欧拉示性数为2-g
15、单纯复形的维数就是其中维数最大的单形的维数。
16、Jodarn曲线定理:平面上每条简单闭曲线都将R^2分解成两个连通分量。
17、这个定理对于环面不成立,取环面上的一个不可收缩的简单闭曲线即可。