PLS系列004 多因变量非线性PLS

最新推荐文章于 2023-12-29 01:50:26 发布

zhulinniao

最新推荐文章于 2023-12-29 01:50:26 发布

阅读量988

点赞数 1

分类专栏：机器学习

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/103651564

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

多因变量非线性PLS

1 多因变量非线性PLS[不是拟线性方法]
Reference

1 多因变量非线性PLS[不是拟线性方法]

1.1 计算推导

在PLS进行之前，首先要进行预备分析，目的是判断自变量(因变量)是否存在多重共线性，判断因变量与自变量是否存在相关关系，进而决定是否需要采用PLS方法建模，具体计算方法：记矩阵 $Z = (X, Y)$ ，求 $Z$ 的各列数据之间的简单相关系数。然后考虑是否采用PLS，若采用：
①样本数据 $X$ 与 $Y$ 标准化预处理
②记 ${{t}_{1}}$ 是 $X$ 的第1个成分有 ${{t}_{1}}=X{{w}_{1}}$ ，其中 ${{w}_{1}}$ 是 $X$ 的第1个轴(单位列向量即 $\left\| {{w}_{1}} \right\|\text{=}1$ )。
${{u}_{1}}$ 是 $Y$ 的第1个成分有 ${{u}_{1}}=Y{{v}_{1}}$ ，其中 ${{v}_{1}}$ 是 $X$ 的第1个轴(单位列向量即 $\left\| {{v}_{1}} \right\|\text{=}1$ )。
${{t}_{1}}$ 、 ${{u}_{1}}$ 为列向量，行数为 $n$ ，即正好是样本集合数。
${{w}_{1}}$ 为列向量，行数为 $p$ ，即正好是自变量个数
${{v}_{1}}$ 为列向量，行数为 $q$ ，即正好是因变量个数
${{t}_{1}}$ 和 ${{u}_{1}}$ 满足(1)中两个条件则有：
变异信息最大： $Var({{t}_{1}})\to \max ,Var({{u}_{1}})\to \max$
相关程度最大： $r({{t}_{1}},{{u}_{1}})\to \max$
综合可得协方差最大： $Cov({{t}_{1}},{{u}_{1}})=r({{t}_{1}},{{u}_{1}})\sqrt{Var({{t}_{1}})Var({{u}_{1}})}\to \max$
由于 $\frac{1}{n}<X{{w}_{1}},Y{{v}_{1}}>=Cov({{t}_{1}},{{u}_{1}})$ 且 $n$ 为常数，则：
$\begin{aligned} & \max <X{{w}_{1}},Y{{v}_{1}}>={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}} \\ & s.t\left\{ \begin{matrix} w_{_{1}}^{T}{{w}_{1}}={{\left\| {{w}_{1}} \right\|}^{2}}=1 \\ v_{_{1}}^{T}{{v}_{1}}={{\left\| {{v}_{1}} \right\|}^{2}}=1 \\ \end{matrix} \right. \\ \end{aligned}$
根据拉格朗日算法有：
$f=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}-\lambda (w_{_{1}}^{T}{{w}_{1}}-1)-\mu (v_{_{1}}^{T}{{v}_{1}}-1)$
对 $f$ 分别求关于 ${{w}_{1}},{{v}_{1}},\lambda ,\mu$ 的偏导且置0(求)，有：
$\left\{ \begin{matrix} \frac{\partial f}{\partial {{w}_{1}}}={{X}^{T}}Y{{v}_{1}}-2\lambda {{w}_{1}}=0 \\ \frac{\partial f}{\partial {{v}_{1}}}={{Y}^{T}}X{{w}_{1}}-2\mu {{v}_{1}}=0 \\ \frac{\partial f}{\partial \lambda }=-(w_{_{1}}^{T}{{w}_{1}}-1)=0\ \ \ \ \\ \frac{\partial f}{\partial \mu }=-(v_{_{1}}^{T}{{v}_{1}}-1)=0\ \ \ \ \ \\ \end{matrix} \right.$
由上式可推出：
$2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}\text{=}<X{{w}_{1}},Y{{v}_{1}}>$
记 ${{\theta }_{1}}=2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}$ ,则 ${{\theta }_{1}}$ 是优化问题的目标函数且使是 ${{\theta }_{1}}$ 达到最大必须有有：
$\left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right.$
将上面组合式结合得：
${{X}^{T}}Y(\frac{1}{{{\theta }_{1}}}{{Y}^{T}}X{{w}_{1}})={{\theta }_{1}}{{w}_{1}}\Rightarrow {{X}^{T}}Y{{Y}^{T}}X{{w}_{1}}=\theta _{_{1}}^{2}{{w}_{1}}$
同理可得：
${{Y}^{T}}X{{X}^{T}}Y{{v}_{1}}=\theta _{_{1}}^{2}{{v}_{1}}$
可见， ${{w}_{1}}$ 是矩阵 ${{X}^{T}}Y{{Y}^{T}}X$ 的特征向量，对应的特征值为 $\theta _{_{1}}^{2}$ 。 ${{\theta }_{1}}$ 为目标函数值且为最大。则 ${{w}_{1}}$ 是 ${{X}^{T}}Y{{Y}^{T}}X$ 的最大特征值 $\theta _{_{1}}^{2}$ 的单位特征向量（列向量）。同理， ${{v}_{1}}$ 是 ${{Y}^{T}}X{{X}^{T}}Y$ 最大特征值 $\theta _{_{1}}^{2}$ 的单位特征向量（列向量）。
我们通过求得 ${{w}_{1}}$ 和 ${{v}_{1}}$ 之后即可得到第1成分：
$\left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}} \\ \end{aligned} \right.$
由(1)式我们可以进一步推导出：
${{\theta }_{1}}\text{=}<{{t}_{1}},{{u}_{1}}>=w_{1}^{T}{{X}^{T}}Y{{v}_{1}}$

然后分别进行 $X$ 、 $Y$ 对 ${{t}_{1}}$ 的非线性回归(这里 $Y$ 对 ${{t}_{1}}$ 的非线性回归)：
$\left\{ \begin{aligned} & X=g\left( {{t}_{1}} \right)+{{X}_{1}} \\ & Y=f\left( {{t}_{1}} \right)+Y_{1}^{{}} \\ & Y=\psi \left( {{u}_{1}} \right)+Y_{1}^{*} \\ \end{aligned} \right.$
另外， ${{X}_{1}}$ 、 ${{Y}_{1}}$ 则为 $X$ 、 $Y$ 的残差信息矩阵。(回归系数向量可利用PLS回归性质推导？)
在PLS方法中，我们称 $w$ 为模型效应权重(Model Effect Weights)， $v$ 为因变量权重(Dependent Variable Weights)， $p$ 为模型效应载荷量(Model Effect Loadings)。模型效应指的就是X即自变量O(∩_∩)O哈哈~
得分向量 $t$ ，载荷向量 $p$ ，权重向量 $w$ .
[注意]在上面3个非线性回归方程中，Y对u的非线性回归方程在后面计算中不再接触到，因此，不会再求解这个方程。
③用残差信息矩阵 ${{X}_{1}}$ 、 ${{Y}_{1}}$ 取代 $X$ 、 $Y$ ，求第2个成分 ${{t}_{2}}$ 、 ${{u}_{2}}$ 和第2个轴 ${{w}_{2}}$ 、 ${{v}_{2}}$ ，即：
$\left\{ \begin{aligned} & {{t}_{2}}={{X}_{1}}{{w}_{2}} \\ & {{u}_{2}}={{Y}_{1}}{{v}_{2}} \\ \end{aligned} \right.$
${{\theta }_{2}}=<{{t}_{2}},{{u}_{2}}>=w_{2}^{T}X_{1}^{T}{{Y}_{1}}{{v}_{2}}$

${{w}_{2}}$ 是对应于矩阵 $X_{1}^{T}{{Y}_{1}}Y_{1}^{T}{{X}_{1}}$ 最大特征值 ${{\theta }_{2}}$ 的特征向量（列向量）， ${{v}_{2}}$ 是对应于矩阵 $Y_{1}^{T}{{X}_{1}}X_{1}^{T}{{Y}_{1}}$ 最大特征值的特征向量（列向量），于是回归方程：
$\left\{ \begin{aligned} & {{X}_{1}}=f\left( {{t}_{2}} \right)+{{X}_{2}} \\ & {{Y}_{1}}=g\left( {{t}_{2}} \right)+{{Y}_{2}} \\ \end{aligned} \right.$
④如此利用剩下的残差信息矩阵不断迭代计算，我们假设 $X$ 的秩为 $m$ (即可以有A个成分)：
$\left\{ \begin{aligned} & X=g\left( {{t}_{1}} \right)+g\left( {{t}_{2}} \right)+\cdots +g\left( {{t}_{m}} \right)+{{X}_{m}} \\ & Y=f\left( {{t}_{1}} \right)+f\left( {{t}_{2}} \right)+\cdots +f\left( {{t}_{m}} \right)\text{+}{{Y}_{m}} \\ \end{aligned} \right.$

1.2 简化算法

在上面的非线性偏最小二乘模型计算过程中，每次求出主成分后，都需要求出自变量数据集和主成分之间的非线性回归，如提取第1个主成分 $t$ 后，计算 $X=g\left( {{t}_{1}} \right)+{{X}_{1}}$ ，这里 ${{t}_{1}}$ 是 $X$ 中提取出来的主成分，并且是线性的，即 ${{t}_{1}}$ 是自变量数据集的线性组合，反之，自变量数据集同时也是 ${{t}_{1}}$ 的线性组合，因此， $X=g\left( {{t}_{1}} \right)+{{X}_{1}}$ 进行的非线性关系方程其实本质上是一个线性回归方程，因此，在后面的计算中， $X$ 对主成分的回归可简化为线性回归。即 $X={{t}_{1}}p_{1}^{T}+{{X}_{1}}$ ，再次进行推导有：
$\left\{ \begin{aligned} & X=g\left( {{t}_{1}} \right)+{{X}_{1}}\leftrightarrow X={{t}_{1}}p_{1}^{T}+{{X}_{1}} \\ & Y=f\left( {{t}_{1}} \right)+Y_{1}^{{}} \\ \end{aligned} \right.$
其中
${{p}_{1}}=\frac{{{X}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}}$
$\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T}+{{X}_{m}} \\ & Y=f\left( {{t}_{1}} \right)+f\left( {{t}_{2}} \right)+\cdots +f\left( {{t}_{m}} \right)\text{+}{{Y}_{m}} \\ \end{aligned} \right.$
等价于
由于 $w_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}\ \And \ \ {{t}_{h}}=Xw_{h}^{*}$ (性质)则有：
$\begin{aligned} & Y=f\left( {{t}_{1}} \right)+f\left( {{t}_{2}} \right)+\cdots +f\left( {{t}_{m}} \right)+{{Y}_{m}} \\ & \ \ \ =f(Xw_{1}^{*})+f(Xw_{2}^{*})+\cdots +f(Xw_{m}^{*})+{{Y}_{m}} \\ \end{aligned}$
【注意】
对于主成分个数的判定，不会完全提取全部 $A$ 个主成分（ $A$ 为原始自变量数据集的秩），一般情况下，提取的前 $m$ 个主成分能够代表自变量原始数据的绝大部分比例数据信息就可停止后续计算步骤，或者残差信息比较小时也可停止计算步骤。两者代表的意义是相同的。因此，在一般的案例实证分析中，一般要求对原始自变量数据集提取信息的比例超过80%即可停止继续提取主成分。

1.3 性质

根据
$\left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right.$
和
$\left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}} \\ \end{aligned} \right.$
可以得到:
$\left\{ \begin{matrix} \begin{aligned} & {{t}_{h}}={{X}_{h-1}}{{w}_{h}} \\ & {{u}_{h}}={{Y}_{h-1}}{{v}_{h}} \\ \end{aligned} \\ {{w}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}Y{{v}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}{{u}_{h}} \\ {{v}_{h}}=\frac{1}{{{\theta }_{h}}}Y_{h-1}^{T}X{{w}_{h}}=\frac{1}{{{\theta }_{h}}}X_{h-1}^{T}{{t}_{h}} \\ \end{matrix} \right.$
①轴 ${{w}_{1}},{{w}_{2}},\cdots ,{{w}_{m}}$ 之间相互直交
②成分 ${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}$ 之间相互直交
③ $t_{h}^{T}{{X}_{l}}=0(l\ge h)$
④ $p_{h}^{T}{{w}_{h}}=(\frac{t_{h}^{T}{{X}_{h-1}}}{{{\left\| {{t}_{h}} \right\|}^{2}}}){{w}_{h}}=\frac{t_{h}^{T}({{X}_{h-1}}{{w}_{h}})}{{{\left\| {{t}_{h}} \right\|}^{2}}}=\frac{t_{h}^{T}{{t}_{h}}}{{{\left\| {{t}_{h}} \right\|}^{2}}}=1$
⑤轴 ${{w}_{h}}$ 与后续回归系数向量正交即 $w_{h}^{T}{{p}_{l}}=w_{h}^{T}\frac{X_{l-1}^{T}{{t}_{l}}}{{{\left\| {{t}_{l}} \right\|}^{2}}}=0$
⑥(重要) $\forall h\ge 1$ ，有 ${{X}_{h}}$ 与 $X$ 的关系式：
${{X}_{h}}=X\prod\limits_{k=1}^{h}{(E-{{w}_{k}}p_{k}^{T})}$
其中 $E$ 为单位矩阵
证明(数学归纳法)：
当 $h = 1$ 时， ${{X}_{1}}=X-{{t}_{1}}p_{1}^{T}=X-X{{w}_{1}}p_{1}^{T}=X(E-{{w}_{1}}p_{1}^{T})$
设在 $h = k$ 时成立，则证 $h = k + 1$ 时也成立：
$\begin{aligned} & {{X}_{k+1}}={{X}_{k}}-{{\color{red}{t}_{k+1}}}p_{k+1}^{T}={{X}_{k}}-{\color{red}({{X}_{k}}{{w}_{k+1}})}p_{k+1}^{T} \\ & \ \ \ \ \ \ \ ={{X}_{k}}(E-{{w}_{k+1}}p_{k+1}^{T}) \\ & \ \ \ \ \ \ \ =\left[ X\prod\limits_{h=1}^{k}{(E-{{w}_{h}}p_{h}^{T})} \right](E-{{w}_{k+1}}p_{k+1}^{T}) \\ \end{aligned}$
则得证。
⑦任一成分 ${{t}_{h}}$ 是原自变量 $X$ 的线性组合即：
${{t}_{h}}={{X}_{h-1}}{{w}_{h}}=X\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}=Xw_{h}^{*}$
其中
$\begin{aligned} & w_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}={{w}_{h}}\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})} \\ & ={{w}_{h}}\left\{ \left( E-{{w}_{1}}p_{1}^{T} \right)\left( E-{{w}_{2}}p_{2}^{T} \right)\ \ \cdots \left( E-{{w}_{h-1}}p_{h-1}^{T} \right)\ \right\} \\ \end{aligned}$

$E$ 为单位矩阵。
【编程计算问题】
初始化 $c h g = E$
h=1 求 $w_{1}^{*}={{w}_{1}}\times \left( E-O \right)={{w}_{1}}\times chg$
h=2 chg发生变化， $chg=chg\times \left( E-{{w}_{1}}p_{1}^{T} \right)$ ，求 $w_{2}^{*}={{w}_{2}}\times chg$
h=3 chg发生变化， $chg=chg\times \left( E-{{w}_{2}}p_{2}^{T} \right)$ ，求 $w_{3}^{*}={{w}_{3}}\times chg$
以上证明过程(王惠文书有)。

Reference

王惠文.偏最小二乘方法原理及其应用
郭建校. 改进的高维非线性PLS回归方法及应用研究[D]. 天津大学, 2010.

zhulinniao

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
PLS系列004 多因变量非线性PLS

多因变量非线性PLS1 多因变量非线性PLS[不是拟线性方法]1.1 计算推导1.2 简化算法1.3 性质Reference1 多因变量非线性PLS[不是拟线性方法]1.1 计算推导在PLS进行之前，首先要进行预备分析，目的是判断自变量(因变量)是否存在多重共线性，判断因变量与自变量是否存在相关关系，进而决定是否需要采用PLS方法建模，具体计算方法：记矩阵Z=(X,Y)Z=(X,Y)Z=(X...
复制链接

扫一扫

专栏目录