维度约简

最新推荐文章于 2024-01-01 21:53:54 发布

pjiang000

最新推荐文章于 2024-01-01 21:53:54 发布

阅读量335

点赞数

分类专栏：机器学习文章标签：算法 python 机器学习人工智能聚类算法

本文链接：https://blog.csdn.net/weixin_44412864/article/details/116171840

版权

机器学习专栏收录该内容

48 篇文章 3 订阅

订阅专栏

LCA独立成分分析

1：FA 因素分析

2：鸡尾酒会问题

1：问题描述

N个人在意见房间里面开party，在每一个时刻都有n个人一起说话，被收集器采集到。结束之后，我们得到了m个声音的样例，我们如何从这m个样本中，分离n个人的声音

2：盲源和相关性

盲源分离
- 假设数据来自于不同的物理过程，数据之间是没有关系的
相关性
- 协方差
  - cov(x,y) = E(XY) - E(X)E(Y)
  - 如果两个变量是独立的，则X,Y没关系，此时E(XY) = E(X)E（Y）
  - 此时的协方差为0
- 如果协方差为0，则不一定是独立的
  - 但是我们称之为不相关的

3：过程

x1 = as1 + bs2

x2 = cs1 + ds2

则 x =As ，接的 s = A-1x

s = A-1X =Wx

令 z = A^TW ，构造 y = W^TAs = z^Ts

y是s的线性组合，其非高斯性最大化等价z中只有一个非零元素

基本假设
- 数据源是相互独立的，但是混合的数据不相互独立
- 数据源必须是非高斯变量，但是混合数据可以服从高斯分布

4：独立性的评价方法

熵
负熵 J(y) = H(z) - H(y)
使用近似的方法 J(y) = (E(G(y)) - E(G(z))) ^ 2
在所有的等方差的随机变量中，**高斯变量的熵最大，**由中心极限定理可以直到，若干个有限方差随机变量（无论是否服从何种分布）的和，越逼近高斯分布。反言之，原信号比混合信号的非高斯i性更强，用负熵度量其非高斯性。

5：独立成分分析任务

已经直到信号S，经过混合矩阵变换后的信息是：X = AS
对交叠的信号X，求解混矩阵W，使得 Y = WX各个分量相互独立
求解W的过程并不一定是A的逆，Y也不是S的近似，只是为了使得Y分量之间相互独立
目的是从仅有的观测数据X出发寻找一个解决混合的矩阵。

PCA	ICA
将数据降维并且提取出不相关的属性	数据降维并提取出互相独立的
重构误差最小，最能够代表原事物的特征	每个分量最大化的独立
最大方差的方向，各个方向是正交的	最大独立的方向，各个方向是独立的
信息提取的过程，将原始数据降维，现在称为ICA数据标准化的预处理步骤	统计独立的分享的线性组合，是一个解混过程

3：LLE 局部线性嵌入

1：原则

努力去保留相邻数据之间的关系
数据集中的数据用其局部近邻线性近似

2：近邻点

个数
距离

3：权重约束

离得远，就是Wij = 0
数据用局部紧邻线性的近似

$\varepsilon=\sum_{i=1}^{N}\left(\mathbf{x}_{i}-\sum_{j=1}^{N} \mathbf{W}_{i j} \mathbf{x}_{j}\right)^{2}$

4：算法

找到每个点的近邻点
根据约束条件计算让原始目标最小的权矩阵W
根据约束条件计算让低维优化目标的低维向量yi

4：ISOMAP 等距特征映射

映射后努力去保留相邻数据之间的关系
通过检查所有点对间的距离和计算全局测地线的方法来最小化全局误差
MDS使用了成对样本之间的相似性，使得在低维空间中样本在空间中耕的距离和高维空间中的样本相似度尽可能的保持一致。
已知高维上样本点两两之间的距离，尝试在低维上(通常是2维，但是可以是任意维)找到一组新的样本点，使降维后两点间的距离与它们在高维上的距离相等

1：五个要素

客体，几种类别，比如西瓜的好坏，好瓜或者是坏瓜
主体：训练数据，N个
准则：用以评判客体优劣的标准，P
准则权重：主题衡量准则
主体权重

已经知道所有点对之间的距离，寻找第i个向量，使得他们的距离相等
$\min _{x_{1}, \ldots, x_{I}} \sum_{i<j}\left(\left\|x_{i}-x_{j}\right\|-\delta_{i, j}\right)^{2}$

2：流形空间

任何对象都可以看作是低维流形在高维空间中的嵌入
距离
- 球上两点的距离，是测地线距离，而不是欧式距离

3：测地线距离

两点之中距离最短的线（各点的主曲率方向均和该点上曲面法线重合）
在二维平面上是直线，在球面上是大圆弧

4：算法思路

创建所有点对之间的距离
确定每个点的邻近点，并且做一个权表G
通过找最短的路径法估计测地线距离dG
- dijkstra算法
- 宽度优先搜索
把经典的MDS算法用于一系列的dG

参考

独立成分分析 ( ICA ) 与主成分分析 ( PCA ) 的区别在哪里：https://www.zhihu.com/question/28845451

LLE算法：https://baike.baidu.com/item/LLE%E7%AE%97%E6%B3%95/13349157?fr=aladdin

MDS（multidimensional scaling）多维尺度分析：https://blog.csdn.net/yang_xian521/article/details/7301121?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs&dist_request_id=1332049.10918.16194341797228901&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs

pjiang000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
维度约简

LCA独立成分分析1：FA 因素分析2：鸡尾酒会问题1：问题描述N个人在意见房间里面开party，在每一个时刻都有n个人一起说话，被收集器采集到。结束之后，我们得到了m个声音的样例，我们如何从这m个样本中，分离n个人的声音2：盲源和相关性盲源分离假设数据来自于不同的物理过程，数据之间是没有关系的相关性协方差cov(x,y) = E(XY) - E(X)E(Y)如果两个变量是独立的，则X,Y没关系，此时E(XY) = E(X)E（Y）此时的协方差为0如果协方差为0
复制链接

扫一扫

专栏目录