1. 充分降维的概念
本章笔记来自wiki,符号与论文统一
1.1. 概要
- 在统计学中,充分降维(SDR)是一种分析数据的范例,它结合了降维的思想和充分性的概念。
- 有响应变量 Y Y Y和预测变量 X X X。回归分析就是去学习 Y ∣ X Y|X Y∣X的分布。也就是给定 X X X求 Y Y Y的条件分布
- E ( y ∣ X = x ) = E ( a + b x + ϵ ∣ X = x ) = a + b x E(y|X=x)=E(a+bx+\epsilon|X=x)=a+bx E(y∣X=x)=E(a+bx+ϵ∣X=x)=a+bx
- 降维就是一个函数 R ( X ) R(X) R(X),把 X X X映射到 R k \mathbb{R}^k Rk上,其中 k < p k < p k<p。举个例子, R ( X ) R(X) R(X)可以是 X X X的一个或多个线性组合。
- 一个降维函数 R ( X ) R(X) R(X)倘若能使得 Y ∣ R ( X ) Y|R(X) Y∣R(X)的分布与 Y ∣ X Y|X Y∣X的相同,便被称之充分降维。换言之,在充分降维里,没有因为 X X X的维度减少而发生回归信息的丢失
- 高维图形可视化里可用。大多数都是关注涉及 X X X的线性组合的降维
1.2. 降维子空间(DRS)
- 假设 R ( X ) = β T X R(X)=\beta^TX R(X)=βTX是个充分降维的函数。在这里有 β ∈ R p × k \beta\in\mathbb{R}^{p\times k} β∈Rp×k,且 k ≤ p k\leq p k≤p。
- 那么,可以通过研究 Y ∣ β T X Y|\beta^TX Y∣βTX的分布来推断关于 Y ∣ X Y|X Y∣X的回归信息。
- 在不失一般性的情况下,可以只考虑 β \beta β列向量张成的空间。令 η \eta η作为 β \beta β的列向量空间的基,然后有 η \eta η张成的空间 S ( η ) S(\eta) S(η)
- 根据充分降维的定义,有
F Y ∣ X = F Y ∣ η T X F_{Y|X}=F_{Y|\eta^TX} FY∣X=FY∣ηTX
F F F为合适的分布函数 - 另一种写法有
Y ⊥ ⊥ X ∣ η T X Y \perp \!\!\! \perp X |\eta^TX Y⊥⊥X∣ηTX
也就是条件独立。在给定 η T X \eta^TX ηTX的情况下, Y Y Y条件独立于 X X X。这代表了在这一条件下,Y和X内容无关,摘干净了, Y = y 1 , ⋯ , y n Y=y_1,\cdots,y_n Y=y1,⋯,yn不会因为 X X X而不独立,换言之没有信息损失 - 那么称呼子空间
S
(
η
)
S(\eta)
S(η)为降维子空间【DRS】
【理解:也就是这整个子空间可以把 X X X处理到低维还不丢信息。】
【 η T \eta^T ηT大小是 # b a s i s ( β ) × p \#basis(\beta)\times p #basis(β)×p】
1.3. 结构维度
- 对于回归 Y ∣ X Y|X Y∣X,结构维度 d d d是保持 Y ∣ X Y|X Y∣X的条件分布所必须的 X X X的不同线性组合的最小数目【对应论文的 q q q】
- 换言之,对应的DRS是 d d d维的【其他的DRS维度可以大于d;d是基的个数?】
1.4. 最小降维子空间
- 一个子空间 S S S可以被称为 Y ∣ X Y|X Y∣X的最小降维子空间,如果它是个降维子空间且它的维度不大于 Y ∣ X Y|X Y∣X的其他DRSs。一个最小子空间 S S S未必是唯一的,但是它的维度必然等于 Y ∣ X Y|X Y∣X的结构维度 d d d
- 若 S S S有基 η \eta η同时是最小DRS,Y与 η T X \eta^TX ηTX的图是个 d + 1 d+1 d+1维的minimal sufficient summary plot(?)
2. 中心子空间【属于最小降维子空间】
- 如果一个子空间 S S S是 Y ∣ X Y|X Y∣X的DRS,且 S ⊂ S d r s S\subset S_{drs} S⊂Sdrs。这里的 S d r s S_{drs} Sdrs是指其他全部的DRSs。那么这个子空间 S S S就被叫做中心降维子空间,或者就简称中心子空间,使用符号 S Y ∣ X S_{Y|X} SY∣X来代表。
- 换言之, Y ∣ X Y|X Y∣X的中心子空间存在 ⟺ \iff ⟺ 所有降维子空间的交 ⋂ S d r s \bigcap S_{drs} ⋂Sdrs是降维子空间。这个交就是中心子空间。
- 中心子空间未必存在。但是若 S Y ∣ X S_{Y|X} SY∣X存在,那么就也是唯一的最小降维子空间。
2.1. 中心子空间的存在性
- 虽然并不是在每种回归情况下都保证中心子空间 S Y ∣ X S_{Y|X} SY∣X的存在,但是有一些相当广泛的条件直接保证了中心子空间的存在。例如,考虑Cook(1998)提出的命题(略)。根据这个命题,对于这样的 X X X,中心子空间 S Y ∣ X S_{Y|X} SY∣X存在。
2.2 示例
考虑回归模型
Y
=
α
+
β
T
X
+
ε
Y = \alpha + \beta^TX+\varepsilon
Y=α+βTX+ε。有
ε
⊥
⊥
X
\varepsilon \perp \!\!\! \perp X
ε⊥⊥X
- 注意 Y ∣ X Y|X Y∣X与 Y ∣ β T X Y|\beta^TX Y∣βTX的分布相同。因此 β \beta β张成的子空间就是降维子空间。同样的, β \beta β是一维的(除非是0向量),所以这个回归的结构维数是 d = 1 d=1 d=1
- OLS估计出的 β \beta β的估计 β ^ \hat{\beta} β^是一致的,因此 β \beta β张成的空间是 S Y ∣ X S_{Y|X} SY∣X的一致估计量。
以上的符号尚未同一
3. 充分降维概览
本节来自论文1.2节
3.1. 背景介绍
- 高维稀疏数据结构限制了局部平滑的测试(?)方法,因此维数灾难问题浮出水面然而大多数测试方法不能有效工作。
- 因此使用降维
- 常见的降维方法有SDR(重点),偏最小二乘法,主成分分析
- 充分降维面对的是
- 处理数据结构的稀疏性且没有预先指定的参数化模型结构
- 不丢失任何关于 Y Y Y关于 X X X回归的信息
- 做法是将原始数据投影到低维子空间
3.2. 定义
-
S
Y
∣
X
S_{Y|X}
SY∣X代表中心子空间,定义为满足
Y ⊥ ⊥ X ∣ P S X Y \perp \!\!\! \perp X|P_SX Y⊥⊥X∣PSX
的所有子空间S的交集 - 上式中 P ( ⋅ ) P_{(\cdot)} P(⋅)代表投影操作,就是指示关于标准内积的投影运算符。 P S P_S PS对标wiki中的 η T \eta^T ηT【也就是 P S P_S PS大小为 # b a s i s ( η ) × p \#basis(\eta)\times p #basis(η)×p】
- 条件均值记作 E ( Y ∣ X ) E(Y|X) E(Y∣X)
-
S
E
(
Y
∣
X
)
S_{E(Y|X)}
SE(Y∣X)是中心均值子空间,实际是所有子空间
S
S
S的交,使得
Y ⊥ ⊥ E ( Y ∣ X ) ∣ P S X Y \perp \!\!\! \perp E(Y|X)|P_SX Y⊥⊥E(Y∣X)∣PSX - 在任何情况下,充分的降维使得我们可以找到
q
≤
p
q\leq p
q≤p个新的预测因子,可以写成原始预测因子的线性组合:
β 1 T X , ⋯ , β q T X \beta_1^TX,\cdots,\beta_q^TX β1TX,⋯,βqTX
β i \beta_i βi, i = 1 , ⋯ , q i=1,\cdots,q i=1,⋯,q被视为中心子空间亦或者中心均值子空间的基
3.3 进展
- 逆回归
- 直接回归
- 相关方法如傅里叶方法
3.4. 缺陷
- 逆回归方法实现简单,应用广泛。但这些方法都需要较强的预测条件,如线性条件或恒条件方差条件,甚至不能全面实现中心子空间的一致估计
- 相反,直接回归方法对预测因子的分布要求较弱,在有限样本中表现得更好。然而,这些方法除了寻找中心平均子空间外没有其他方向,计算量大