拓扑数据处理资料整理2

最新推荐文章于 2022-02-17 00:32:50 发布

鲸鲸爱柠檬

最新推荐文章于 2022-02-17 00:32:50 发布

阅读量916

点赞数 3

文章标签：拓扑学大数据矩阵算法线性代数

本文链接：https://blog.csdn.net/weixin_58256469/article/details/122561964

版权

4、线性降维

1、降维是一个一个投影算子，降维结果是原始数据的投影

2、线性降维主要有主成分分析（PCA)，经典多维缩放（CMDS)，随机投影（RP）

3、主成分分析用于最大化数据能量/最大化方差，对输入数据的协方差矩阵进行谱分解，选择从小到大的特征值对应的特征向量作为降维数据；在线性降维方法中，PCA是最经典、最重要的方法之一

4、PCA线性降维的流程

把n个D维样本写成Dxn的矩阵（也即将样本写成行向量）
每一行求一个平均值，每一位减去对应平均值，得到均值化矩阵X
求矩阵的协方差矩阵C
$C= \frac{1}{n}XX^T$
求出协方差矩阵的特征值与特征向量，从大到小排序。
要降到几维就用前几个大的特征值对应的特征向量作为行向量组成特征向量矩阵P。
Y = PX。（这里的X是均值化的矩阵，而非原数据构成的矩阵）

Y即为降维后的数据。

5、经典多维缩放（CMDS）是一种降维技术，用以展示可以计算“距离”的数据的结构，把数据以几何图像的形式展示。

6、MDS类的输入只需要数据间的相似度（或者距离矩阵），不需要数据集本身。

7、MDS问题里的一些概念

n-中心化矩阵H = I(n维单位阵) -（1/n)ones(n,n)
对数据X进行中心化：X = X_0 H，X为中心化后的数据
X的Gram矩阵（也被称为X_0的中心化Gram矩阵）： G^C = X^T * X（X的转置与X的乘积）
X_0的Gram矩阵为G，X的中心化Gram矩阵为HGH
数据集X_0的欧氏距离平方矩阵S与中心化Gram矩阵G^{C}的关系为 G^{C} = -(1/2)*S^{C}

8、CMDS算法流程：

构建中心化的Gram矩阵

令距离矩阵为A,每一项平方得到距离平方矩阵P。

H = I(n维单位阵) -（1/n)ones(n,n)，B = -(1/2)* H * P * H

得到中心化的Gram矩阵B
对Gram 矩阵进行谱分解

对Gram矩阵进行谱分解，得到特征值和特征向量，并从大到小排序。要降到几维就取前几大特征值对应的特征向量
得到分布点集（降维结果）

降维后数据 = 特征向量为列向量构成的矩阵（在前）x 特征值开方构成的对角阵（在后）

9、PCA与CMDS的目标不同，PCA是为了数据投影后方差最大，CMDS是为了寻找一组低维数据（分布点集）具有相似的距离矩阵。如果CMDS使用的点间距离矩阵为欧式矩阵时，PCA和CMDS是等价的。

10、PCA和MDS都是全局优化的，无法保持原始数据的局部分离性，随即投影可以保持原始数据的局部分离性

11、随机投影实现的降维以高概率的形式实现Lipschitz嵌入（局部分离性），且时间消耗为线性，计算效率高

5、非线性降维

1、非线性降维结果是原始数据的流形坐标表示或者特征向量，主要有等距映射，最大方差展开，局部线性嵌入，Laplace特征映射

2、等距映射流程

定义邻域（两种邻域）
把每一个点与它邻域中的点连接，生成一张带权无向图
用Floyd或Dijkstra算法计算图上两点之间最短路径作为这两点之间测地距离的近似
计算低维空间Y上的一个嵌入，尽可能保持原始数据的流形几何结构，构造核矩阵（是一个GRAM矩阵）G^C = (-1/2)HSH。
对GRAM矩阵进行特征分解，取前d个特征值构成降维后的d维空间基向量
将数据投影到这些基向量上，获得降维后的数据点集

3、最大方差展开MVU

4、Isomap保持点间的几何距离，MVU方法保持局部方差最大，也即点间的局部距离和角度；MVU采用半定规划来求解降维问题

5、局部线性嵌入LLE； LLE是一种全局方法，图中所有点对之间距离都要计算，难以用到大数据集；LLE是一种局部方法，核矩阵是稀疏矩阵，可应用到大数据集，计算高效；LLE的缺点是要得到理想的降维结果，原始数据集必须相当稠密；邻域选择是LLE算法的关键

6、Laplace特征映射

构造邻域（两种邻域）
生成带权图（简单权重，核函数权重）
构造降维的核，得到Laplace矩阵
对降维核进行谱分解

6、图曲面与复形

1、任意两个顶点之间都有边连接的简单图，称为完全图

2、如果序列中不存在重复的顶点，则称该路径是简单的

3、任意两个顶点之间都存在路径的图,称为连通图

4、任意两个顶点之间都有唯一路径连接的图称为树

5、判断点在闭曲线内外：

作一条射线看与曲线交点个数，若有奇数个点，说明在内部，若有偶数个说明在外部，若遇到了顶点另外处理

6、证明球面上每条简单封闭闭曲线将球面分成两个连通分量：

球面上取不在曲线上的点，不妨设点为北极点 (0,0,1)，使用去北极点球面到平面的一种同胚映射，球极投影：

$(x,y,z)\mapsto (\frac{x}{1-z},\frac{y}{1-z})$

得到平面上的简单闭曲线。由 Jordan 曲线定理，它把平面分为两个连通分量。又由球极投影的双向连续性，平面上的两个连通分量分别对应于球面上的两个开集连通分量 S1 ,S2 。由于球面简单闭曲线是球面的闭集，故北极点处存在一个球面上的邻域，使得邻域包含于两个连通分量中的其中一个，设为S2。从而S1,S2U(0,0,1)是球面上的两个联通分量且

$S_1\cup(S_2\cup(0,0,1)) = \mathbb{S}^2-\gamma$