论文题目:
Sparse principal component analysis via random
projections
SPCAvRP 论文阅读与思考
1. 论文泛读
1.1. 标题
通过随机矩阵投影来进行稀疏PCA
1.2. 摘要
1.2.1. 方案
- 通过样本协方差矩阵选出多个随机投影矩阵
- 使用这些随机投影矩阵获取多个特征向量信息
- 在这些特征向量信息上进行SPCA
1.2.2. 优势
- 和其他方法不同,该方案不需要迭代,因此初始值选差了结果也差不到哪去
- 数值实验确认了该算法在有限样本上具有高度竞争性【表现很强】
1.2.3. 要点
- 平衡计算量与统计
- 为了达到目的,有效样本大小与随机矩阵投影的互相影响
- minmax:minimizing the possible loss for a worst case (maximum loss) scenario.
- When dealing with gains, it is referred to as “maximin”—to maximize the minimum gain
1.3. 介绍
1.3.1. 前人方法
1.3.1.1. PCA
- 方法:
- 找出母体中贡献最多方差的方向,将数据沿着该方向投影。
- 想估算出该方向,就计算样本协方差矩阵的主要特征向量
- 缺点:数据维度p和数据容量n一样大,就容易崩
- 啊在这里强调下,向量/矩阵范数默认是二范数,开过根号的那种。
- v 1 v_1 v1的估计是除以了n的;因为这玩意儿估计的 v v v就是大小为1
1.3.1.2. 高维PCA
- 请注意,(2)式的带上标的 Σ \Sigma Σ不是求和符号
- 为了解决(2)式中的非凸优化问题,前人提出了L-1惩罚项的方案。然而虽然能提高速度,但是没理论支持(作者后面会笑的)
- 为了解决(2)也有使用半正定松弛法的,但是慢(作者后面会笑的)
- 重点!it is now understood that, conditional on a
Planted Clique hypothesis from theoretical computer science, there is an asymptotic regime in which no randomized polynomial time algorithm can attain the minimax optimal rate
(ref:Wang, T., Berthet, Q. and Samworth, R. J. (2016a) Statistical and computational trade-offs in estimation of sparse principal components. Ann. Statist., 44, 1896–1930.
)
1.3.1.3. 迭代算法的弊端
- 迭代的算法在确定的情况下,初值与真实值对应得很好:
Various fast, iterative algorithms were introduced by Johnstone and Lu (2009), Paul and Johnstone (2012), and Ma (2013); these have been shown to attain the minimax rate under certain conditions, provided that the initial starting point is reasonably well-aligned with the true signal. - the loss function:
图表的是做100次取平均 - 迭代算法:初值不好全完蛋。 Remarkably, each of the previously proposed algorithms we tested produces estimates that are almost orthogonal to the true principal component!啧,这感叹号用的,我怀疑作者在笑。笑啥,你用的是人家程序的默认初始化程序……等等,好像确实可以笑人家2333
1.3.2. SPCAvRP
- 作者还是很满意的,our algorithm, which we refer to as SPCAvRP
and implement in a publicly available R package ,is also attractive for both theoretical and computational reasons。对比前人要么没理论支持要么慢的情况,确实是很不错的trade-off - 当有效样本量很大的时候,想要得到目标结果,只需要随着样本维度p的增大稍快增加PR数目
- 但这可没违背2016a那篇文章, which applies to an intermediate
effective sample size regime where the SPCAvRP algorithm would require an exponential
number of projections to attain the optimal rate.令人尴尬的是(?)作者的算法是并行的(林源:拍桌笑),并且不用计算 Σ \Sigma Σ的估计值,因为用RP提取目标子矩阵来算就够了(2016a:?)。当维度p非常大的时候,能显著节省计算。在section 4 中提到,有使用数值实验和真实数据的有限样本估计来进行算法比较 - 本文也参考了贪婪算法:We also mention the computationallyefficient combinatorial approaches proposed by Moghaddam, Weiss and Avidan (2006) and
d’Aspremont, Bach and El Ghaoui (2008) that aim to find solutions to the optimization
problem in (2) using greedy methods. - PR应用挺广的,也有例子:
- 记号:
请注意这里:用 S 1 S_1 S1记录了 v 1 v_1 v1的非零元素的index。也记录了 v 1 v_1 v1的绝对值最小的非零元素的index。矩阵 P S P_S PS是对角线上元素为1的p*p大小的矩阵
1.4. 小标题
第三章和附录先直接跳过[捂脸]
1.5. 结论
我手上这版是没有结论和讨论的,arXiv上的进度看了也没有。只能说果然大佬。
1.6. 图表
第一章的是举例。第二章的图(?)主要是算法。第三章先跳过。第四章是数值实验
1.6.1. 模型的参数选择【4.2】
- p,A,B:
- 这里d,l,k都是固定的。变的是p,A,B
- 这里明显要分组,从每个组里抽效果要好。这里变的是A,B
在A,B里,固定一个变动另一个
对B的选择
- d,l
1.6.2. 与他人模型比较
- 第一主成分
这里厚道了些,把他人的参数用交叉验证选出来 - 高阶主成分
1.6.3. Microarray数据
这是箱型图
总的来说结果还不错。论文写得蛮清楚,挺厚道的
2. 论文精读
说是精读但其实和RPENSEMBLE差不多,看代码为主
2.1. SPCA via random projections【第二章】
2.1.1. 单一主成分估计
2.1.2. 复合主成分估计
2.2. Numerical experiments【第四章】
3. 实验要点与思考
- loss function做一百次取均值
- SPCA前人的迭代算法,初值不好全完蛋