关于sPLS analysis的一些学习

sPLS:Sparse partial least-squares regression 稀疏偏最小二乘回归  

最小二乘法,又称最小平方法,是一种数学优化建模方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便的求得未知的数据,并使得求得的数据与实际数据之间误差的平方和为最小。 “最小二乘法”是对线性方程组,即方程个数比未知数更多的方程组,以回归分析求得近似解的标准方法。最小二乘法,所谓“二乘”就是平方的意思,就是最小化误差的平方。

首先什么是最小二乘回归?其实就是多元线性回归,而标准线性回归(linear regression),就是用线性函数去拟合一组数据,使得损失最小,一般采用cost function (mse) 。

那么lasso 回归和岭回归(ridge regression)又是什么?它们俩实就是在标准线性回归的基础上分别加入 L1 和 L2 正则化(regularization)。

那么为什么 L1 正则化会比 L2 正则化让线性回归的权重更加稀疏,即使得线性回归中很多权重为 0,而不是接近 0。或者说,为什么 L1 正则化(lasso)可以进行 feature selection,而 L2 正则化(ridge)不行。

Lasso 的全称为 least absolute shrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法。

从贝叶斯角度看,lasso(L1 正则)等价于参数 ww 的先验概率分布满足拉普拉斯分布,而 ridge(L2 正则)等价于参数 ww 的先验概率分布满足高斯分布。

lasso 限制了 ω 的取值范围为有棱角的方形,而 ridge 限制了ω的取值范围为圆形,等高线和方形区域的切点更有可能在坐标轴上,而等高线和圆形区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。

正是由于 lasso 容易使得部分权重取 0,所以可以用其做 feature selection,lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献,直接去掉权重为 0 的 feature,模型的输出值不变。

那到这里对最小二乘回归,稀疏有了一点概念,那LASSO回归就是sPLS(稀疏偏最小二乘回归)吗?

那我们还得先介绍偏最小二乘回归(PLS)是什么? 又是对各种回归傻傻分不清的一天。。。

  • 主成分回归:类似于主成分分析,将具有相关性的多维变量降维到互不相关的少数几维变量上,可以处理变量之间具有相关性的情况。
  • 岭回归:同上,但方法不同。
  • 偏最小二乘回归:当数据量小,甚至比变量维数还小,而相关性又比较大时使用,这个方法甚至优于主成分回归。所以说和主成分回归有类似,但是适用场景不同。
  • 多元线性回归:入门练习常见,但用在模型上基本无用,因为多个变量之间难免有复杂的相关性,多元线性回归不能处理多个自变量之间的“糅合”性。
  • 逻辑回归:当预测的是1/0时使用。 这也是机器学习中的一种常用二分类方法。

那么建模的时候到底应该怎么选呢?回归的检验:

  • 自变量与因变量是否具有预期的关系。如果有非常不符合逻辑的系数,我们就应该考虑剔除它了。
  • 自变量对模型是否有帮助。如果自变量的系数为零(或非常接近零),我们认为这个自变量对模型没有帮助,统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值(p值),则表示系数为零的概率很小。如果概率小于0.05,汇总报告上概率(Probability)旁边的一个星号(*)表示相关自变量对模型非常重要。换句话说,其系数在95%置信度上具有统计显著性。
  • 残差是否有空间聚类。残差在空间上应该是随机分布的,而不应该出现聚类。
  • 模型是否出现了倾向性。如果我们正确的构建了回归分析模型,那么模型的残差会符合完美的正态分布,其图形为钟形曲线。
  • 自变量中是否存在冗余。建模的过程中,应尽量去选择表示各个不同方面的自变量,也就是尽量避免传达相同或相似信息的自变量。 
  • 评估模型的性能。评估矫R2值,有时还要加上修正的Akaike信息准则/Akaike's information criterion (AIC),效果是否好。

为什么会产生偏最小二乘回归?

  • 一般来说,能用主成分分析就能用偏最小二乘。偏最小二乘集成了主成分分析、典型相关分析、线性回归分析的优点。在普通多元线形回归的应用中,我们常受到许多限制。 最典型的问题就是:自变量之间的多重相关性。并且有的时候样例很少,甚至比变量的维度还少,变量之间又存在多重相关性。偏最小二乘回归就是为解决这些棘手的问题而生的。
  • 举个例子,比如现在,有一堆因素(X1,X2,...Xn)(这是自变量),这些因素可以导致(Y1,Y2,...Yn)(这是因变量),给的样例很少,而我们又完全不清楚自变量之间、因变量之间存在的关系,这时问自变量与因变量之间到底是一个什么关系?这就是偏最小二乘要解决的问题。

推导偏最小二乘回归的步骤:

  • step1:数据说明与标准化
  • step2:求符合要求的主成分
  • step3:建立主成分与原自变量、因变量之间的回归
  • step4:继续求主成分,直到满足要求
  • step5:推导因变量之于自变量的回归表达式
  • step6:检验-交叉有效性

主成分分析是从普通最小二乘回归过度到偏最小二乘回归法的最关键的技术。

那为什么又有稀疏偏最小二乘回归呢?稀疏偏最小二乘回归方法在PLS中内置了变量选择过程,并且在融合两组组学和对结果的生物学解释方面有良好的性能。也就是将lass惩罚变量选择法加入了PLS。

参考:

线性回归——lasso回归和岭回归(ridge regression)

PLS偏最小二乘回归原理与应用

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值