维度约简

LCA独立成分分析

1:FA 因素分析

2:鸡尾酒会问题

1:问题描述
  • N个人在意见房间里面开party,在每一个时刻都有n个人一起说话,被收集器采集到。结束之后,我们得到了m个声音的样例,我们如何从这m个样本中,分离n个人的声音
2:盲源和相关性
  • 盲源分离
    • 假设数据来自于不同的物理过程,数据之间是没有关系的
  • 相关性
    • 协方差
      • cov(x,y) = E(XY) - E(X)E(Y)
      • 如果两个变量是独立的,则X,Y没关系,此时E(XY) = E(X)E(Y)
      • 此时的协方差为0
    • 如果协方差为0,则不一定是独立的
      • 但是我们称之为不相关的

3:过程

x1 = as1 + bs2

x2 = cs1 + ds2

则 x =As ,接的 s = A-1x

s = A-1X =Wx

令 z = A^TW ,构造 y = W^TAs = z^Ts

y是s的线性组合,其非高斯性最大化等价z中只有一个非零元素

  • 基本假设
    • 数据源是相互独立的,但是混合的数据不相互独立
    • 数据源必须是非高斯变量,但是混合数据可以服从高斯分布

4:独立性的评价方法

  • 负熵 J(y) = H(z) - H(y)
  • 使用近似的方法 J(y) = (E(G(y)) - E(G(z))) ^ 2
  • 在所有的等方差的随机变量中,**高斯变量的熵最大,**由中心极限定理可以直到,若干个有限方差随机变量(无论是否服从何种分布)的和,越逼近高斯分布。反言之,原信号比混合信号的非高斯i性更强,用负熵度量其非高斯性。

5:独立成分分析任务

  • 已经直到信号S,经过混合矩阵变换后的信息是:X = AS
  • 对交叠的信号X,求解混矩阵W,使得 Y = WX各个分量相互独立
  • 求解W的过程并不一定是A的逆,Y也不是S的近似,只是为了使得Y分量之间相互独立
  • 目的是从仅有的观测数据X出发寻找一个解决混合的矩阵。
PCAICA
将数据降维并且提取出不相关的属性数据降维并提取出互相独立的
重构误差最小,最能够代表原事物的特征每个分量最大化的独立
最大方差的方向,各个方向是正交的最大独立的方向,各个方向是独立的
信息提取的过程,将原始数据降维,现在称为ICA数据标准化的预处理步骤统计独立的分享的线性组合,是一个解混过程

3:LLE 局部线性嵌入

1:原则

  • 努力去保留相邻数据之间的关系
  • 数据集中的数据用其局部近邻线性近似

2:近邻点

  • 个数
  • 距离

3:权重约束

  • 离得远,就是Wij = 0
  • 数据用局部紧邻线性的近似

ε = ∑ i = 1 N ( x i − ∑ j = 1 N W i j x j ) 2 \varepsilon=\sum_{i=1}^{N}\left(\mathbf{x}_{i}-\sum_{j=1}^{N} \mathbf{W}_{i j} \mathbf{x}_{j}\right)^{2} ε=i=1N(xij=1NWijxj)2

4:算法

  • 找到每个点的近邻点
  • 根据约束条件计算让原始目标最小的权矩阵W
  • 根据约束条件计算让低维优化目标的低维向量yi

4:ISOMAP 等距特征映射

  • 映射后努力去保留相邻数据之间的关系
  • 通过检查所有点对间的距离和计算全局测地线的方法来最小化全局误差
  • MDS使用了成对样本之间的相似性,使得在低维空间中样本在空间中耕的距离和高维空间中的样本相似度尽可能的保持一致。
  • 已知高维上样本点两两之间的距离,尝试在低维上(通常是2维,但是可以是任意维)找到一组新的样本点,使降维后两点间的距离与它们在高维上的距离相等

1:五个要素

  • 客体,几种类别,比如西瓜的好坏,好瓜或者是坏瓜
  • 主体:训练数据,N个
  • 准则:用以评判客体优劣的标准,P
  • 准则权重:主题衡量准则
  • 主体权重

已经知道 所有点对之间的距离,寻找第i个向量,使得他们的距离相等
min ⁡ x 1 , … , x I ∑ i < j ( ∥ x i − x j ∥ − δ i , j ) 2 \min _{x_{1}, \ldots, x_{I}} \sum_{i<j}\left(\left\|x_{i}-x_{j}\right\|-\delta_{i, j}\right)^{2} x1,,xImini<j(xixjδi,j)2

2:流形空间

  • 任何对象都可以看作是低维流形在高维空间中的嵌入
  • 距离
    • 球上两点的距离,是测地线距离,而不是欧式距离

3:测地线距离

  • 两点之中距离最短的线(各点的主曲率方向均和该点上曲面法线重合)
  • 在二维平面上是直线,在球面上是大圆弧

4:算法思路

  • 创建所有点对之间的距离
  • 确定每个点的邻近点,并且做一个权表G
  • 通过找最短的路径法估计测地线距离dG
    • dijkstra算法
    • 宽度优先搜索
  • 把经典的MDS算法用于一系列的dG

参考

独立成分分析 ( ICA ) 与主成分分析 ( PCA ) 的区别在哪里:https://www.zhihu.com/question/28845451

LLE算法:https://baike.baidu.com/item/LLE%E7%AE%97%E6%B3%95/13349157?fr=aladdin

MDS(multidimensional scaling)多维尺度分析:https://blog.csdn.net/yang_xian521/article/details/7301121?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs&dist_request_id=1332049.10918.16194341797228901&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实体对准、实体除冗、数据压缩、值、维度、元组是数据清洗和数据预处理中常用的技术和方法。下面是对每个技术的要说明: 1. 实体对准(Entity Alignment):指将来自不同数据源或表格中表示相同实体的记录进行匹配和对准。这可以通过共享属性、相似性度量或者外部参考源来实现。常见的方法包括字符串匹配、基于规则的匹配、基于相似性度量的匹配等。 2. 实体除冗(Entity Deduplication):用于识别和删除数据中重复的实体记录。这可以通过比较记录之间的属性值或者使用哈希函数来实现。常见的方法包括基于规则的去重、基于相似性度量的去重、基于聚类的去重等。 3. 数据压缩(Data Compression):用于减少数据存储和传输所需的存储空间和带宽。数据压缩可以使用压缩算法,如Lempel-Ziv-Welch (LZW) 算法、gzip等,通过消除冗余和利用数据的统计特性来实现。 4. 值(Value Reduction):用于减少数据中不必要的细节或精度,从而减少存储和计算的开销。例如,可以将连续数据进行分段或者进行取整操作,将浮点数保留小数点后几位等。 5. 维度(Dimension Reduction):用于减少数据集中的维度数量,从而减少存储和计算的开销,同时保持对数据的合理表示。常见的方法包括主成分分析(PCA)、奇异值分解(SVD)等。 6. 元组(Tuple Reduction):用于减少数据集中的记录数量,从而减少存储和计算的开销。常见的方法包括基于采样的、基于聚类的等。 实现实体对准、实体除冗、数据压缩、值、维度和元组的具体方法和步骤会根据数据的特点和需求而有所不同。在实际应用中,可以根据具体情况选择适当的技术和方法,并进行实验和评估,以确保清洗和预处理的效果和质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值