PLS系列003 单因变量线性PLS

最新推荐文章于 2021-12-24 12:59:41 发布

zhulinniao

最新推荐文章于 2021-12-24 12:59:41 发布

阅读量702

点赞数 1

分类专栏：机器学习

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/103651477

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

单因变量线性偏最小二乘法

1 单因变量线性PLS
- 1.1 计算推导
- 1.2 辅助分析技术
Reference

1 单因变量线性PLS

1.1 计算推导

由于在多因变量线性偏最小二乘法中，我们已经讨论了计算推导，在此，我们将但因变量进行简化计算推导过程：
①样本数据 $X$ 与 $Y$ 标准化预处理
②记 ${{t}_{1}}$ 是 $X$ 的第1个成分有 ${{t}_{1}}=X{{w}_{1}}$ ，其中 ${{w}_{1}}$ 是 $X$ 的第1个轴(单位列向量即 $\left\| {{w}_{1}} \right\|\text{=}1$ )。
${{u}_{1}}$ 是 $Y$ 的第1个成分有 ${{u}_{1}}=Y{{v}_{1}}$ ，其中 ${{v}_{1}}$ 是 $X$ 的第1个轴(单位列向量即 $\left\| {{v}_{1}} \right\|\text{=}1$ )。
${{t}_{1}}$ 、 ${{u}_{1}}$ 为列向量，行数为 $n$ ，即正好是样本集合数。
${{w}_{1}}$ 为列向量，行数为 $p$ ，即正好是自变量个数
${{v}_{1}}$ 为列向量，行数为 $q$ ，即正好是因变量个数
由于 $Y$ 只是1个变量，故 ${{v}_{1}}$ 是1个标量。 $\left\| {{v}_{1}} \right\|\text{=}1\Rightarrow {{v}_{1}}=1$ ，即： ${{u}_{1}}=Y$
${{t}_{1}}$ 和 ${{u}_{1}}$ 满足(1)中两个条件则有：
变异信息最大： $Var({{t}_{1}})\to \max ,Var({{u}_{1}})\to \max$
相关程度最大： $r({{t}_{1}},{{u}_{1}})\to \max$ 相关程度最大， $r({{t}_{1}},{{u}_{1}})$ 指的就是线性相关了
综合可得协方差最大： $Cov({{t}_{1}},{{u}_{1}})=r({{t}_{1}},{{u}_{1}})\sqrt{Var({{t}_{1}})Var({{u}_{1}})}\to \max$
由于 $\frac{1}{n}<X{{w}_{1}},Y{{v}_{1}}>=Cov({{t}_{1}},{{u}_{1}})$ 且 $n$ 为常数，则：
$\begin{aligned} & \max <X{{w}_{1}},Y{{v}_{1}}>={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}} \\ & s.t\left\{ \begin{matrix} w_{_{1}}^{T}{{w}_{1}}={{\left\| {{w}_{1}} \right\|}^{2}}=1 \\ v_{_{1}}^{T}{{v}_{1}}={{\left\| {{v}_{1}} \right\|}^{2}}=1 \\ \end{matrix} \right. \\ \end{aligned}$
根据拉格朗日算法有：
$f=w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}-\lambda (w_{_{1}}^{T}{{w}_{1}}-1)-\mu (v_{_{1}}^{T}{{v}_{1}}-1)$
对 $f$ 分别求关于 ${{w}_{1}},{{v}_{1}},\lambda ,\mu$ 的偏导且置0(求)，有：
$\left\{ \begin{matrix} \frac{\partial f}{\partial {{w}_{1}}}={{X}^{T}}Y{{v}_{1}}-2\lambda {{w}_{1}}=0 \\ \frac{\partial f}{\partial {{v}_{1}}}={{Y}^{T}}X{{w}_{1}}-2\mu {{v}_{1}}=0 \\ \frac{\partial f}{\partial \lambda }=-(w_{_{1}}^{T}{{w}_{1}}-1)=0\ \ \ \ \\ \frac{\partial f}{\partial \mu }=-(v_{_{1}}^{T}{{v}_{1}}-1)=0\ \ \ \ \ \\ \end{matrix} \right.$
由上式可推出：
$2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}={{(X{{w}_{1}})}^{T}}Y{{v}_{1}}\text{=}<X{{w}_{1}},Y{{v}_{1}}>$
记
${{\theta }_{1}}=2\lambda =2\mu =w_{_{1}}^{T}{{X}^{T}}Y{{v}_{1}}$
则 ${{\theta }_{1}}$ 是优化问题的目标函数且使是 ${{\theta }_{1}}$ 达到最大必须有有：
$\left\{ \begin{aligned} & {{X}^{T}}Y{{v}_{1}}={{\theta }_{1}}{{w}_{1}} \\ & {{Y}^{T}}X{{w}_{1}}\text{=}{{\theta }_{1}}{{v}_{1}} \\ \end{aligned} \right.$
将上面组合式结合得：
${{X}^{T}}Y(\frac{1}{{{\theta }_{1}}}{{Y}^{T}}X{{w}_{1}})={{\theta }_{1}}{{w}_{1}}\Rightarrow {{X}^{T}}Y{{Y}^{T}}X{{w}_{1}}=\theta _{_{1}}^{2}{{w}_{1}}$
同理可得：
${{Y}^{T}}X{{X}^{T}}Y{{v}_{1}}=\theta _{_{1}}^{2}{{v}_{1}}$
由
${{v}_{1}}=1\Rightarrow {{Y}^{T}}X{{X}^{T}}Y=\theta _{_{1}}^{2}\Rightarrow \theta _{_{1}}^{2}\text{=}{{\left\| {{X}^{T}}Y \right\|}^{2}}\Rightarrow {{\theta }_{1}}\text{=}\left\| {{X}^{T}}Y \right\|$
.根据联合式(1)我们可以得到：
${{w}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y{{v}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y$
结合上面两个表达式，我们可以推出：
${{w}_{1}}=\frac{1}{{{\theta }_{1}}}{{X}^{T}}Y=\frac{{{X}^{T}}Y}{\left\| {{X}^{T}}Y \right\|}$
由于 $X$ 、 $Y$ 是标准化矩阵，有：
$\begin{aligned} & {{X}^{T}}Y={{({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}})}^{T}}Y={{({{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}})}^{T}}y \\ & \ \ \ \ \ \ \ =\left( \begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{p}^{T} \\ \end{matrix} \right)y=\left( \begin{matrix} x_{1}^{T}y \\ x_{2}^{T}y \\ \vdots \\ x_{p}^{T}y \\ \end{matrix} \right)=\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right) \\ \end{aligned}$
进一步，有：
${{w}_{1}}=\frac{{{X}^{T}}Y}{\left\| {{X}^{T}}Y \right\|}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right)$
${{t}_{1}}=X{{w}_{1}}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}X\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right)=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}({{x}_{1}}r({{x}_{1}},y)+{{x}_{2}}r({{x}_{2}},y)+\cdots +{{x}_{p}}r({{x}_{p}},y))$
在 ${{t}_{1}}$ 中，关于 ${{x}_{i}}$ 的线性组合系数是：
$\frac{r({{x}_{i}},y)}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}$
在 ${{t}_{1}}$ 中，关于 ${{x}_{i}}$ 的线性组合系数中，若 ${{x}_{i}}$ 与 $y$ 的相关程度越强，则在 ${{t}_{1}}$ 成分中的组合系数越大。
而此时目标函数的优化值： ${{\theta }_{1}}\text{=}\left\| {{X}^{T}}Y \right\|\text{=}\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}$
这里和多因变量不同在于不用求特征向量了，因为特征向量就是1，而特征值可以直接求出来
我们通过求得 ${{w}_{1}}$ 和 ${{v}_{1}}\text{=}1$ 之后即可得到第1成分：
$\left\{ \begin{aligned} & {{t}_{1}}=X{{w}_{1}} \\ & {{u}_{1}}=Y{{v}_{1}}\text{=}Y \\ \end{aligned} \right.$
由(1)式我们可以进一步推导出：
${{\theta }_{1}}\text{=}<{{t}_{1}},{{u}_{1}}>=w_{1}^{T}{{X}^{T}}Y{{v}_{1}}=w_{1}^{T}{{X}^{T}}Y$
然后分别进行 $X$ 、 $Y$ 对 ${{t}_{1}}$ 的回归(这里 $Y$ 对 ${{t}_{1}}$ 的回归)：
$\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{X}_{1}} \\ & Y={{t}_{1}}r_{1}^{T}+{{Y}_{1}} \\ \end{aligned} \right.$
其中，回归系数向量：
$\left\{ \begin{aligned} & {{p}_{1}}=\frac{{{X}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ & {{r}_{1}}=\frac{{{Y}^{T}}{{t}_{1}}}{{{\left\| {{t}_{1}} \right\|}^{2}}} \\ \end{aligned} \right.$
另外， ${{X}_{1}}$ 、 ${{Y}_{1}}$ 则为 $X$ 、 $Y$ 的残差信息矩阵。(回归系数向量可利用PLS回归性质推导？)
③用残差信息矩阵 ${{X}_{1}}$ 、 ${{Y}_{1}}$ 取代 $X$ 、 $Y$ ，用同样的方法重复第②步，得到：
${{w}_{2}}=\frac{{{X}_{1}}^{T}{{Y}_{1}}}{\left\| {{X}_{1}}^{T}{{Y}_{1}} \right\|}=\frac{1}{\sqrt{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},y)}}}\left( \begin{matrix} r({{x}_{1}},y) \\ r({{x}_{2}},y) \\ \vdots \\ r({{x}_{p}},y) \\ \end{matrix} \right)$
这里注意 ${{x}_{i}}(i=1,2,\cdots ,p)$ 是指 ${{X}_{1}}$ 中的列向量，而 $y$ 是指 ${{Y}_{1}}$ 中的列向量。
求第2个成分 ${{t}_{2}}$ 、 ${{u}_{2}}$ 和第2个轴 ${{w}_{2}}$ 、 ${{v}_{2}}\text{=1}$ ，即：
$\left\{ \begin{aligned} & {{t}_{2}}={{X}_{1}}{{w}_{2}} \\ & {{u}_{2}}={{Y}_{1}}{{v}_{2}}\text{=}{{Y}_{1}} \\ \end{aligned} \right.$
${{\theta }_{2}}=<{{t}_{2}},{{u}_{2}}>=w_{2}^{T}X_{1}^{T}{{Y}_{1}}{{v}_{2}}=w_{2}^{T}X_{1}^{T}{{Y}_{1}}$
得到回归方程：
$\left\{ \begin{aligned} & {{X}_{1}}={{t}_{2}}p_{2}^{T}+{{X}_{2}} \\ & {{Y}_{1}}={{t}_{2}}r_{2}^{T}+{{Y}_{2}} \\ \end{aligned} \right.$
其中，回归系数向量:
$\left\{ \begin{aligned} & {{p}_{2}}=\frac{X_{1}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ & {{r}_{2}}=\frac{{{Y}_{1}}^{T}{{t}_{2}}}{{{\left\| {{t}_{2}} \right\|}^{2}}} \\ \end{aligned} \right.$
④如此利用剩下的残差信息矩阵不断迭代计算，我们假设 $X$ 的秩为 $m$ (即可以有A个成分)：
$\left\{ \begin{aligned} & X={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T} \\ & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}\text{+}{{Y}_{m}} \\ \end{aligned} \right.$
而 ${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}$ 可表示成 $X\text{= }\!\!\{\!\!\text{ }{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{p}}\text{ }\!\!\}\!\!\text{ }$ 的线性组合
其中 ${{Y}_{m}}$ 为第 $m$ 个残差矩阵
由于 $w_{h}^{*}=\prod\limits_{k=1}^{h-1}{(E-{{w}_{k}}p_{k}^{T})}{{w}_{h}}\ \And \ \ {{t}_{h}}=Xw_{h}^{*}$ (在多因变量线性偏最小二乘法性质中)则有：
$\begin{aligned} & Y={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}+{{Y}_{m}} \\ & \ \ \ =(Xw_{1}^{*})r_{1}^{T}+(Xw_{2}^{*})r_{2}^{T}+\cdots +(Xw_{m}^{*})r_{m}^{T}+{{Y}_{m}} \\ & \ \ =X\left( \sum\limits_{i=1}^{m}{w_{i}^{*}r_{i}^{T}} \right)+{{Y}_{m}} \\ \end{aligned}$
令 $B=\sum\limits_{i=1}^{m}{{{w}_{i}}r_{i}^{T}}$ 即为PLS回归方程的回归系数向量，有：
$Y=XB\text{+}{{F}_{m}}$

1.2 辅助分析技术

①与典型相关分析对应的分析技术
ⅰ.精度分析
在PLS计算推导中，在 $X$ 提取的自变量成分 ${{t}_{h}}$ 不仅要尽可能多的携带 $X$ 中的变异信息，而且要尽可能与 $Y$ 相关程度达到最大来解释 $Y$ 的信息。我们模仿典型相关分析中的精度分析，为了测量 ${{t}_{h}}$ 对 $X$ 和 $Y$ 的解释能力，定义 ${{t}_{h}}$ 的各种解释能力，有：
${{t}_{h}}$ 对某自变量 ${{x}_{i}}$ 的解释能力：
$Rd({{x}_{i}};{{t}_{h}})={{r}^{2}}({{x}_{i}};{{t}_{h}})$
${{t}_{h}}$ 对 $X$ 的解释能力：
$Rd(X;{{t}_{h}})=\frac{1}{p}\sum\limits_{i=1}^{p}{Rd({{x}_{i}};{{t}_{h}})}=\frac{1}{p}\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},{{t}_{h}})}$
${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}}$ 对 $X$ 的累计解释能力：
$Rd(X;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})=\sum\limits_{h=1}^{m}{Rd(X;{{t}_{h}})}=\frac{1}{p}\sum\limits_{h=1}^{m}{\sum\limits_{i=1}^{p}{{{r}^{2}}({{x}_{i}},{{t}_{h}})}}$
${{t}_{h}}$ 对某因变量 ${{y}_{j}}$ 的解释能力：
$Rd({{y}_{j}};{{t}_{h}})={{r}^{2}}({{y}_{j}};{{t}_{h}})$
${{t}_{h}}$ 对 $Y$ 的解释能力：
$Rd(Y;{{t}_{h}})=\frac{1}{q}\sum\limits_{j=1}^{q}{Rd({{y}_{j}};{{t}_{h}})}=\frac{1}{q}\sum\limits_{j=1}^{q}{{{r}^{2}}({{y}_{j}},{{t}_{h}})}$
${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}}$ 对 $Y$ 的累计解释能力：
$Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})=\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})}=\frac{1}{q}\sum\limits_{h=1}^{m}{\sum\limits_{j=1}^{q}{{{r}^{2}}({{y}_{j}},{{t}_{h}})}}$
ⅱ.测量自变量 ${{x}_{i}}$ 对因变量集合 $Y$ 的解释能力
${{x}_{i}}$ 在解释 $Y$ 时作用的重要性，我们可以通过变量投影重要性指标( $VI{{P}_{i}}$ )来测量(Variable Importance in Projection)，有：
$VI{{P}_{i}}=\sqrt{\frac{p}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}}$
这里Y可看成单个因变量，也可看成因变量集合。
其中 ${{w}_{hi}}$ 是轴 ${{w}_{h}}$ 第 $i$ 个分量(就是一个标量，其有 $p$ 个分量， ${{w}_{h}}$ 是一个列向量，行数 $p$ )，由于针对 ${{x}_{i}}$ ,在 ${{t}_{h}}={{X}_{h-1}}{{w}_{h}}$ 中， ${{w}_{h}}$ 的第 $i$ 个分量(标量)对应解释 ${{X}_{h-1}}$ 中的 ${{x}_{i}}$ ,则 $VI{{P}_{i}}$ 对应于 ${{x}_{i}}$ 对 $Y$ 的解释时起到的作用程度，有：
$\sum\limits_{i=1}^{p}{w_{hi}^{2}}=w_{h}^{T}{{w}_{h}}=1$
上面可以如此解释： ${{x}_{i}}$ 对 $Y$ 的解释是通过 ${{t}_{h}}$ 来实现的，则若 $Rd(Y;{{t}_{h}})$ 值很大即 ${{t}_{h}}$ 对 $Y$ 的解释能力很强，由于 ${{x}_{i}}$ 在构造 ${{t}_{h}}$ 起到非常重要作用，则 ${{x}_{i}}$ 对 $Y$ 的解释能力就被视为很大。另外， ${{x}_{i}}$ 是通过 ${{w}_{h}}$ 来构造 ${{t}_{h}}$ 的，当 ${{w}_{hi}}$ 取很大值时，则 ${{x}_{i}}$ 对 $Y$ 的解释能力就被视为很大，有：
$VIP_{i}^{2}=\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}$
通过上面分析，当 $Rd(Y;{{t}_{h}})$ 很大时，则有 $w_{hi}^{2}$ 很大，进一步有 $VIP_{i}^{2}$ 很大。
$\sum\limits_{i}^{p}{VIP_{i}^{2}}=\sum\limits_{i}^{p}{\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})w_{hi}^{2}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}}=\frac{p\sum\limits_{h=1}^{m}{Rd(Y;{{t}_{h}})\sum\limits_{i}^{p}{w_{hi}^{2}}}}{Rd(Y;{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{h}})}=p$
从上面分析我们可以知道，若针对所有的 ${{x}_{i}}$ 与之对应的 $VI{{P}_{i}}(i=1,2,\cdots ,p)$ 均相等即在解释 $Y$ 时的作用相同，则所有的 $VI{{P}_{i}}$ 均为1，否则对于 $VI{{P}_{i}}>1$ 的 ${{x}_{i}}$ 在解释 $Y$ 时起到更加重要的作用。上面我们定义了 $VI{{P}_{i}}$ 指标，均定性的能够分析出哪些自变量的起到的作用更大。
②与主成分分析对应的分析技术
ⅰ.特异点分析
我们可以模仿主成分分析定义第 $i$ 个样本点对地 $h$ 成分 ${{t}_{h}}$ 的贡献率 $T_{hi}^{2}$ 以此来发现样本点集合中的特异点，有：
$T_{hi}^{2}=\frac{t_{hi}^{2}}{(n-1)s_{h}^{2}}$
其中： ${{t}_{hi}}$ 是列向量 ${{t}_{h}}$ (行数 $n$ )Xscores的第 $i$ 个样本点对应的值， $s_{h}^{2}$ 是成分 ${{T}_{H}}$ 的方差。
则样本点 $I$ 对成分 ${{T}_{1}},{{T}_{2}}……{{T}_{M}}$ 的累计贡献率：
$T_{i}^{2}=\frac{1}{n-1}\sum\limits_{h=1}^{m}{\frac{t_{hi}^{2}}{s_{h}^{2}}}$
我们模仿主成分分析，由于一个样本点如果对成分构成贡献很大，则其存在会使分析造成比较大的误差，所以一个样本点对成分构成的贡献不可以很大，在SIMCA-P软件中利用特雷西等人证明的统计量：
$\frac{{{n}^{2}}(n-m)}{m({{n}^{2}}-1)}T_{i}^{2}\sim F(m,n-m)$
根据 $F$ 统计量检验，当 $T_{i}^{2}\ge \frac{m({{n}^{2}}-1)}{{{n}^{2}}(n-m)}{{F}_{0.05}}(m,n-m)$ 我们认为在 $95$ 的检验水平上，样本点 $i$ 对成分 ${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}$ 的贡献过大，我们称之为样本点 $I$ 为一个特异点。
我们一般如果选择 $M = 2$ 即PLS回归中只采用了2个主成分或者 $(X) = 2$ ，此时有：
$T_{i}^{2}\text{=}\frac{1}{n-1}\left( \frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}} \right)\ge \frac{2({{n}^{2}}-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2)$
最后我们得到：
$\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}\ge \frac{2({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2)$
令 $c=\frac{2({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-2)}{{F}_{0.05}}(2,n-2)$ ,有：
$\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}\text{=}c$
判断提取多个主成分是否在椭圆内外关系可通过：
$\frac{t_{1I}^{2}}{s_{1}^{2}}+\frac{t_{2I}^{2}}{s_{2}^{2}}+\cdots \frac{t_{mi}^{2}}{s_{m}^{2}}$
和
$\frac{m({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-m)}{{F}_{0.05}}(m,n-m)$
计算方法：
$\frac{m({{n}^{2}}-1)(n-1)}{{{n}^{2}}(n-m)}{{f}_{0.05}}(m,n-m)\text{=}\frac{({{n}^{2}}-1)(n-1)}{{{n}^{2}}}\centerdot \frac{m}{n-m}\centerdot {{f}_{0.05}}(m,n-m)$

MATLAB计算式：(n-1)* (n^2-1)/( n^2) * j*finv(0.95,j , n-j)/(n-j) j从1开始
三维：
$\frac{t_{1i}^{2}}{s_{1}^{2}}+\frac{t_{2i}^{2}}{s_{2}^{2}}+\frac{t_{3i}^{2}}{s_{3}^{2}}\text{=}c\Leftrightarrow \frac{t_{1i}^{2}}{{{\left( {{s}_{1}}\sqrt{c} \right)}^{2}}}+\frac{t_{2i}^{2}}{{{\left( {{s}_{2}}\sqrt{c} \right)}^{2}}}+\frac{t_{3i}^{2}}{{{\left( {{s}_{3}}\sqrt{c} \right)}^{2}}}\text{=1}$
上式是一个椭圆，所以，我们以 ${{t}_{1i}}$ 和 ${{t}_{2i}}$ 作为坐标轴，在 ${{t}_{1}}/{{t}_{2}}$ 平面图上，可以得到这个 ${{t}^{2}}$ 椭圆图，若所有样本点都落在这个椭圆内部，则认为所有样本点分布是均匀的，否则落在外部，则称这些点为特异点，即这个样本点远离所有样本集合的平均水平。
ⅱ.PLS后的数据质量分析
我们通过主成分分析可以知道，在PLS回归中有以下同样情况产生：由于特异点的存在或者仍然有一些样本点在PLS模型分析中得不到很好地表示，对于此类样本点，就无法根据PLS回归的表现来判断其特征，对于这类样本点分析必须十分小心。
由于在PLS模型分析中去除了一部分原始信息( $m < (A)$ )而使得一些样本点在 ${{y}_{j}}$ 上的拟合值与原始值差异比较大。
由PLS模型计算推导我们可以知道，当提取了 $m$ 个成分 ${{t}_{1}},{{t}_{2}},\cdots ,{{t}_{m}}$ 后，有：
$\left\{ \begin{aligned} & \hat{X}={{t}_{1}}p_{1}^{T}+{{t}_{2}}p_{2}^{T}+\cdots +{{t}_{m}}p_{m}^{T} \\ & \hat{Y}={{t}_{1}}r_{1}^{T}+{{t}_{2}}r_{2}^{T}+\cdots +{{t}_{m}}r_{m}^{T}\text{+}{{Y}_{m}} \\ \end{aligned} \right.$
我们定义样本点 $i(i=1,2,\cdots ,n)$ 在 $X$ 空间与PLS模型的距离 $DMod{{X}_{i}}({{s}_{i}})$ ：
${{s}_{i}}=DMod{{X}_{i}}=\sqrt{\frac{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}{p-m}}\cdot \sqrt{\frac{n}{n-m-1}}$
其中 $e_{ij}^{2}={{({{x}_{ij}}-{{\hat{x}}_{ij}})}^{2}}$ ， ${{\hat{x}}_{ij}}$ 是重构矩阵 $\hat{X}$ 中样本点 $i$ 在变量 ${{x}_{j}}$ 上的取值。
从上式我们可以知道，参入PLS模型的成分个数越多( $m$ 越大), ${{s}_{i}}$ 就越小即数据重构的误差就越小。可是，有时候 $m$ 过大，PLS模型的预测能力反而会降低，这和多元回归分析中一样，使用成分个数过多即使用变量个数过多，模型拟合效果看起来非常完美，但是模型却不能够识别系统信息与噪声，有时候如果我们把噪声加在了模型中，那这样的拟合效果反而更差。
为此我们模型多元回归分析，定义一个调整复测定系数 ${{\bar{R}}^{2}}$ ，则由此我们我们这里定义模型距离的概念。
所有样本点重构的平均质量： $S_{X}^{2}\text{=}\frac{1}{n}\sum\limits_{i=1}^{n}{s_{i}^{2}}$ ，进一步所有样本点的重构平均距离 ${{S}_{X}}$ ：
${{S}_{X}}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{\frac{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}{p-m}\cdot \frac{n}{n-m-1}}}\text{=}\sqrt{\frac{\sum\limits_{i=1}^{n}{\sum\limits_{j=1}^{p}{e_{ij}^{2}}}}{(p-m)(n-m-1)}}$
则根据上面的 ${{s}_{i}}$ 和 ${{S}_{X}}$ 我们可以推出样本点 $i$ 的标准化模型距离：
${{(DModX,N)}_{i}}=\frac{{{s}_{i}}}{{{S}_{X}}}=\frac{DMod{{X}_{i}}}{{{S}_{X}}}$
上式表明同所有样本点的重构平均质量相比，样本点 $i$ 是否偏大。
同理我们可以得到：
样本点 $i(i=1,2,\cdots ,n)$ 在 $Y$ 空间与PLS模型的距离 $DMod{{Y}_{i}}$ ：
$DMod{{Y}_{i}}=\sqrt{\frac{\sum\limits_{k=1}^{q}{f_{ik}^{2}}}{q-m}}\cdot \sqrt{\frac{n}{n-m-1}}$
其中, $f_{ij}^{2}={{({{y}_{ik}}-{{\hat{y}}_{ik}})}^{2}}$ ， ${{\hat{y}}_{ik}}$ 是重构矩阵 $\hat{Y}$ 中样本点 $i$ 在变量 ${{y}_{j}}$ 上的取值。
所有样本点重构的平均质量：
$S_{X}^{2}\text{=}\frac{1}{n}\sum\limits_{i=1}^{n}{s_{i}^{2}}$
进一步所有样本点的重构平均距离 ${{S}_{X}}$ ：
${{S}_{Y}}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{\frac{\sum\limits_{k=1}^{q}{f_{ik}^{2}}}{q-m}\cdot \frac{n}{n-m-1}}}\text{=}\sqrt{\frac{\sum\limits_{i=1}^{n}{\sum\limits_{k=1}^{q}{e_{ik}^{2}}}}{(q-m)(n-m-1)}}$
则根据上面的 ${{s}_{i}}$ 和 ${{S}_{X}}$ 我们可以推出样本点 $i$ 的标准化模型距离：
${{(DModY,N)}_{i}}=\frac{DMod{{Y}_{i}}}{{{S}_{Y}}}$
上式表明同所有样本点的重构平均质量相比，样本点 $i$ 是否偏大，若偏大，则说明数据重构质量不理想即PLS模型不好或者说 $m$ 的取值不理想即成分个数选取不适当。