机器学习-数据降维算法

姓名:Jyx
描述:人工智能学习笔记

降维的意义

  1. 在实际的机器学习案例里,因为我们不能完全的知道那些信息有用,而倾向于收集跟多的信息。这就导致样本非常多,而每个样本数也特别多。直接在这样的样本上进行学习,计算成本非常高。

  2. 在对于给定样本数量,有一个特别的峰值现象,就是随着提供的特征增加,预测效果通常不是越来越好,而是存在一个拐点,当特征数量超过这个拐点之后,预测效果反而越来越差。拐点与所选算法的VC维有关。

  3. 降维不是必须的,事实上,有时候降维反而会使分类效果变差,这视原始特征有无某种形式的相关性而定。

PCA(主成分分析)

  1. PCA是一种线性降为技术,PCA假定原始特征之间存在线性相关性(即 E ( x i x j ) ≠ 0 , i ≠ j E(x_i x_j) \neq 0, i \neq j E(xixj)=0,i=j),PCA的目标就是原始特征映射成互不相关(即 E ( y i y j ) = 0 , i ≠ j E(y_i y_j) = 0, i \neq j E(yiyj)=0,i=j,这里是统计里的相关性而不是线性代数里的线性相关)的特征而不丢失过多的信息。
  2. 计算,令
    y = A T x (1) \bf{y} = \bf{A}^T\bf{x} \tag{1} y=ATx(1)
    考虑 x , y \bf{x}, \bf{y} x,y的自相关矩阵 R x , R y \bf{R}_x, \bf{R}_y Rx,Ry, 有
    R y = E ( y y T ) = E ( A T x x T A ) , because  y = A T x , y T = [ A T x ] T = x T A = A T E ( x x T ) A = A T R x A (2) \begin{aligned} \bf{R}_y &= E(\bf{y} \bf{y}^T) \\ &=E(\bf{A}^T \bf{x} \bf{x}^T \bf{A}), \text{because } \bf{y} = \bf{A}^T\bf{x}, \bf{y}^T = [\bf{A}^T\bf{x}]^T= \bf{x}^T \bf{A} \\ &=\bf{A}^T E( \bf{x} \bf{x}^T)\bf{A} \\ &=\bf{A}^T \bf{R}_x \bf{A} \tag{2} \end{aligned} Ry=E(yyT)=E(ATxxTA),because y=ATx,yT=[ATx]T=xTA=ATE(xxT)A=ATRxA(2)
    如前所述,我们希望 E ( y i y j ) = 0 , i ≠ j E(y_i y_j) = 0, i \neq j E(yiyj)=0,i=j,所以 R y \bf{R}_y Ry除对角线外,其余元素全部为0,即 R y \bf{R}_y Ry为对角阵。于是2式相当于对 R x \bf{R}_x Rx进行对角化,A为由 R x \bf{R}_x Rx的特征向量组成的正交矩阵, R y = d i a g { λ 1 , λ 2 , . . . } , λ i \bf{R}_y = diag \{\lambda_1, \lambda_2, ...\}, \lambda_i Ry=diag{λ1,λ2,...},λi R x \bf{R}_x Rx的特征值。
    这样我们就求出了变换矩阵 A A A
    显然此时维度没有降低(除非有某些 E ( x i 2 ) = 0 E(x_i^2) = 0 E(xi2)=0),PCA的基本思想就是保留那些特征值最大的特征向量,而令其余为0,下面介绍之一思想的好处
  3. PCA之所以应用如此广泛,还因为他有如下的性质。
    3.1 还原误差最小,PCA是所有将原始特征降到某一维度的不相关变换中还原后方差最小的
    如前所述, A A A为一正交矩阵 A − 1 = A T \bf{A}^{-1} = \bf{A}^T A1=AT,令 a i \bf{a}_i ai R x \bf{R}_x Rx的特征向量(列向量),即KaTeX parse error: No such environment: smallmatrix at position 57: …= \bigl\{\begin{̲s̲m̲a̲l̲l̲m̲a̲t̲r̲i̲x̲}̲ y_1 \\ y_2 \\…,对于 K K K 纬的特征向量我们有
    x = [ A T ] − 1 y = [ A − 1 ] − 1 y = A y = ∑ k = 1 K a k y k (3) \bf{x} = [\bf{A}^T]^{-1} \bf{y} = [\bf{A}^{-1}]^{-1} \bf{y} =\bf{A} \bf{y} = \sum_{k = 1}^K \bf{a}_k y_k \tag{3} x=[AT]1y=[A1]1y=Ay=k=1Kakyk(3)
    对于PCA,当降到 M ( M < K ) M(M < K) M(M<K)维时,我们只保留前M个 y i y_i yi,令其余 y i = 0 , i > M y_i = 0,i > M yi=0,i>M,此时,还原后的 x \bf{x} x
    x ^ = ∑ m = 1 M a m y m (4) \hat{\bf{x}} = \sum_{m = 1}^M \bf{a}_m y_m \tag{4} x^=m=1Mamym(4)
    均方差估计
    E ( ∣ ∣ x − x ^ ∣ ∣ 2 ) = E ( ∣ ∣ ∑ m = 1 K a m y m − ∑ m = 1 M a m y m ∣ ∣ 2 ) = E ( ∣ ∣ ∑ m = M + 1 K a m y m ∣ ∣ 2 ) (5) E(|| \bf{x} - \hat{\bf{x}} ||^2) = E(|| \sum_{m = 1}^K \bf{a}_m y_m - \sum_{m = 1}^M \bf{a}_m y_m ||^2) \\ = E(|| \sum_{m = M + 1}^K \bf{a}_m y_m ||^2) \tag{5} E(xx^2)=E(m=1Kamymm=1Mamym2)=E(m=M+1Kamym2)(5)
    因为特征向量的正交性质,有 a i a j = 0 , i ≠ j , a i T a i = 1 \bf{a}_i \bf{a}_j = 0, i \neq j,\bf{a}_i^T \bf{a}_i = 1 aiaj=0,i=j,aiTai=1, 所以5式中的平方展开后所有交叉项均为0,只留下平方项,即
    E ( ∣ ∣ x − x ^ ∣ ∣ 2 ) = E ( ∑ m = M + 1 K y m 2 ) = ∑ m = M + 1 K E ( y m 2 ) (6) E(|| \bf{x} - \hat{\bf{x}} ||^2) = E(\sum_{m = M + 1}^K y_m ^2) = \sum_{m = M + 1}^K E(y_m ^2) \tag{6} E(xx^2)=E(m=M+1Kym2)=m=M+1KE(ym2)(6)
    根据
    y = A T x = [ a 1 T a 2 T ⋮ ] x = [ a 1 T x a 2 T x ⋮ ] \bf{y} = \bf{A}^T\bf{x} = \left [ \begin{matrix} \bf{a}_1^T \\ \bf{a}_2^T \\ \vdots \end{matrix} \right ] \bf{x} = \left [ \begin{matrix} \bf{a}_1^T\bf{x} \\ \bf{a}_2^T\bf{x} \\ \vdots \end{matrix} \right ] y=ATx=a1Ta2Tx=a1Txa2Tx
    有 $y_i = \bf{a}_i^T\bf{x} $,带入6式
    E ( ∣ ∣ x − x ^ ∣ ∣ 2 ) = ∑ m = M + 1 K E ( a m T x x T a m ) = ∑ m = M + 1 K a m T E ( x x T ) a m = ∑ m = M + 1 K a m T R x a m (7) E(|| \bf{x} - \hat{\bf{x}} ||^2) =\sum_{m = M + 1}^K E(\bf{a}_m^T\bf{x} \bf{x}^T \bf{a}_m) = \sum_{m = M + 1}^K \bf{a}_m^T E(\bf{x} \bf{x}^T) \bf{a}_m = \sum_{m = M + 1}^K \bf{a}_m^T \bf{R}_x \bf{a}_m \tag{7} E(xx^2)=m=M+1KE(amTxxTam)=m=M+1KamTE(xxT)am=m=M+1KamTRxam(7)
    根据定义 a m \bf{a}_m am R x \bf{R}_x Rx的特征向量,即 R x a m = λ m a m \bf{R}_x \bf{a}_m = \lambda_m \bf{a}_m Rxam=λmam,所以7式可继续化简为
    E ( ∣ ∣ x − x ^ ∣ ∣ 2 ) = ∑ m = M + 1 K a m T λ m a m = ∑ m = M + 1 K λ m E(|| \bf{x} - \hat{\bf{x}} ||^2) = \sum_{m = M + 1}^K \bf{a}_m^T \lambda_m \bf{a}_m = \sum_{m = M + 1}^K\lambda_m E(xx^2)=m=M+1KamTλmam=m=M+1Kλm
    由于我们保留了最大的特征值,显然上式和在所有可能的选择中和最小
    3.2 方差最大,PCA是所有将原始特征降到某一维度的不相关变换中变换后方差最大的。通常我们将随机变量的方差看成变量所包含的信息,从这一意义上,PCA保留了原始特征的最多信息。
    证明::参考上面的计算过程,我们已经证明了
    E ( y m 2 ) = λ m E(y_m ^2) = \lambda_m E(ym2)=λm
    由于我们保留的是最大特征值,所以显然此时方差最大
    3.3 熵最大
    对于m维离散随机变量

    H y = 1 2 E [ y T R y − 1 y ] + 1 2 ln ⁡ ∣ R y ∣ + m 2 ln ⁡ ( 2 π ) w h e r e   E [ y T R y − 1 y ] = E [ t r [ y T R y − 1 y ] ] = E [ t r [ R y − 1 y T y ] ] = E [ I ] = m ln ⁡ ∣ R y ∣ = ln ⁡ ( λ 1 λ 2 ⋯   ) H_y = \frac{1}{2}E[\bf{y}^T \bf{R}_y^{-1} \bf{y}] + \frac{1}{2} \ln{|\bf{R}_y|} + \frac{m}{2} \ln{(2 \pi)} \\ where\ E[\bf{y}^T \bf{R}_y^{-1} \bf{y}] = E[tr[\bf{y}^T \bf{R}_y^{-1} \bf{y}]] =E[tr[ \bf{R}_y^{-1} \bf{y}^T \bf{y}]] =E[ I] = m \\ \ln{|\bf{R}_y|} = \ln{(\lambda_1 \lambda_2 \cdots)} Hy=21E[yTRy1y]+21lnRy+2mln(2π)where E[yTRy1y]=E[tr[yTRy1y]]=E[tr[Ry1yTy]]=E[I]=mlnRy=ln(λ1λ2)
    显然此时熵最大
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值