混合概率PCA：一种用于非线性过程监控的故障诊断方法

最新推荐文章于 2024-05-06 13:44:55 发布

xinping1992

最新推荐文章于 2024-05-06 13:44:55 发布

阅读量898

点赞数 1

文章标签：机器学习人工智能运维算法

原文链接：https://ieeexplore.ieee.org/document/8126223

版权

混合概率PCA （mixture of probabilistic principal component analysis, MPPCA）

引言
潜变量模型和PCA
概率PCA
混合概率PCA
局部模型数量确定

引言

作为一个坚守主成分分析(principal component analysis, PCA) 的学渣，虽然了解大量关于PCA的拓展方法，但依然觉得PCA还是有许多可以研究的内容。本文浅谈一种改进的混合概率PCA 方法，将概率PCA拓展到非线性异常监测中。此外，该方法也适合于多工况异常监测，工况可自动辨识。
本文参考：Zhang, J., Chen, H., Chen, S., & Hong, X. (2019). An Improved Mixture of Probabilistic PCA for Nonlinear Data-Driven Process Monitoring. IEEE Transactions on Systems, Man, and Cybernetics, 49(1), 198–210.
正文链接
 预印版链接

潜变量模型和PCA

考虑下列模型
${\boldsymbol t} = {\boldsymbol y}({\boldsymbol x};{\boldsymbol w}) + {\boldsymbol \xi}$ ,
其中，观测数据为 ${\boldsymbol t}\in \Re^{d}$ , 潜变量为 $\boldsymbol{x}\in \Re^{q}$ ， ${\boldsymbol w}$ 为模型参数， $\boldsymbol{\varepsilon}$ 为独立噪声。线性化模型为：
$\boldsymbol {t} = {\boldsymbol W} {\boldsymbol x} + \boldsymbol{\mu}+ {\boldsymbol \xi}$ 。
假设， ${\boldsymbol x} \sim {\rm N}(\boldsymbol{0},{\boldsymbol I})$ , ${\boldsymbol \xi } \sim {\rm N}(\boldsymbol{0},\boldsymbol{\Psi} )$ ， $\boldsymbol{\Psi} \in \Re^{ d \times d }$ 为对角矩阵， $\boldsymbol{\mu} \in \Re^{d}$ 为输出均值向量， ${\boldsymbol W} \in \Re ^{d \times q}$ 为载荷矩阵。在高斯假设下，上述线性模型产生的观测数据服从高斯分布，即 ${\boldsymbol t} \sim {\rm N}({\boldsymbol \mu} ,{\boldsymbol C})$ ， ${\boldsymbol C}= {\boldsymbol \Psi} + {\boldsymbol W}{\boldsymbol W}^{\rm T} \in \Re^{d \times d}$ .

观测数据集 $\{{\boldsymbol t}_n \}_{n=1}^N$ ，线性模型的矩阵表达为

$\boldsymbol {T}={\boldsymbol W} {\boldsymbol X}+\boldsymbol{u}\boldsymbol{1}^{\rm T}+\boldsymbol {\Xi}$ ,

其中， $\boldsymbol {T}=[\boldsymbol {t}_1,..., \boldsymbol {t}_N] \in \Re^{d \times N}$ , $\boldsymbol {X}=[\boldsymbol {x}_1,... \boldsymbol {x}_N] \in \Re^{q \times N}$ , $\boldsymbol {\Xi}=[\boldsymbol {\xi}_1,... \boldsymbol {\xi}_N ] \in \Re^{d \times N}$ 。均值为 $\boldsymbol{u}=\frac{1}{N}\sum_{n=1}^{N}\boldsymbol {t}_n$ ，协方差矩阵 ${\boldsymbol S}= \frac{1}{N} (\boldsymbol {T}-\boldsymbol{u}\boldsymbol{1}^{\rm T})(\boldsymbol {T}-\boldsymbol{u}\boldsymbol{1}^{\rm T})^{\rm T}$ 。

概率PCA

PCA的主要目标是寻找到低维空间的投影向量，同时保证重构误差最小。
给定噪声 ${\boldsymbol \varepsilon} \sim {\rm N}({\boldsymbol 0},{\sigma ^2}\boldsymbol {I})$ , 则通过以下公式揭示特定 $\boldsymbol x$ 在 $\boldsymbol t$ -空间上的概率分布
$p({\boldsymbol t}|{\boldsymbol x}) = {(2\pi {\sigma ^2})^{ - d/2}}\exp \left\{ { - \frac{1}{{2{\sigma ^2}}}{{\left\| {\boldsymbol t - {\boldsymbol W} {\boldsymbol x} - \boldsymbol \mu } \right\|}^2}} \right\}$
$\boldsymbol x$ 上的高斯先验概率可以定义为

$p(\boldsymbol x) = {(2\pi)^{ - q/2}}\exp \left\{ { - \frac{1}{2}{{\boldsymbol x}^{\rm T}} {\boldsymbol x}} \right\}$

$\boldsymbol t$ 的边缘分布为

$\begin{array}{l} p(\boldsymbol t) = \int { p({\boldsymbol t}|{\boldsymbol x})p(\boldsymbol x)d{\boldsymbol x}}\\ \quad \quad = {(2\pi )^{ - d/2}}{\left| { \boldsymbol C} \right|^{ - 1/2}}\exp \left\{ { - \frac{1}{2}{{({\boldsymbol t} - \boldsymbol \mu )}^{\rm T}}{{\boldsymbol C}^{ - 1}}(\boldsymbol t - \boldsymbol \mu )} \right\} \end{array}$

其中. 模型协方差为 $\boldsymbol C = {\sigma ^2}{\boldsymbol I} + \boldsymbol W{{\boldsymbol W}^{\rm T}}$
在 Bayesian理论下，给定 $\boldsymbol t$ , $\boldsymbol x$ 的后验分布为

$p(\boldsymbol x|\boldsymbol t) = \rm{exp} \left\{ -\frac{1}{2} \left\{\boldsymbol x-{\boldsymbol M^{ - 1}}{\boldsymbol W^{\rm T}}(\boldsymbol t -\boldsymbol \mu ) \right\} ^{\rm T} {({\sigma ^{ - 2}}{\boldsymbol M})} \right. \left. { \left\{\boldsymbol x-{\boldsymbol M^{ - 1}}{\boldsymbol W^{\rm T}}(\boldsymbol t -\boldsymbol \mu ) \right\}} \right\} \times (2 \pi)^{-q/2} \left|{\sigma ^{ -2}}{\boldsymbol M}\right|^{1/2}$

其中，后验协方差为 ${\sigma ^2}{\boldsymbol M^{ - 1}} = {\sigma ^2}{({\sigma ^2}{\boldsymbol I} + {{\boldsymbol W}^{\rm T}}{\boldsymbol W})^{ - 1}}$ . $\boldsymbol{M} \in \Re^{ q\times q }$ , $\boldsymbol{C} \in \Re^{ d\times d }$ .
对数似然函数为
$\begin{array}{l} L = \sum\limits_{n = 1}^N {\ln \left\{ {p\left( {{{\boldsymbol t_n}}} \right)} \right\}} \\ \;\;{\kern 1pt} = - \frac{N}{2}\left\{ {d\ln \left( {2\pi } \right) + \ln \left|{\boldsymbol C } \right| + tr\left( {{{\boldsymbol C}^{ - 1}}{\boldsymbol S}} \right)} \right\} \end{array}$

当 ${\boldsymbol W}$ 的列跨越数据的主子空间时，对数似然最大。解析解也可以通过 ${\boldsymbol S}$ 的特征分解和噪声方差 $\sigma^2$ 的估计（基于 ${\boldsymbol S}$ 的最小特征值）获得。或者，可以使用EM算法的迭代方法来生成以下完整数据对数似然

$L_c=\sum_{n=1}^{N} \ln\left\{p({\boldsymbol t}_n, {\boldsymbol x}_n ) \right\}\\ = \sum_{n=1}^{N} \ln\left\{{(2\pi {\sigma ^2})^{ - d/2}}\exp \left\{ { - \frac{1}{{2{\sigma ^2}}}{{\left\| {\boldsymbol t}_n - {\boldsymbol W} {\boldsymbol x}_n - {\boldsymbol \mu} \right\|}^2}} \right\} \right. \left. {(2\pi )^{ - q/2}}\exp \left\{ { - \frac{1}{2} {\boldsymbol x}_n^{\rm T} {\boldsymbol x}_n} \right\}\right\}$

在EM算法中，模型的后验均值和协方差为

$\left\langle {{\boldsymbol x_{n}}} \right\rangle = {\boldsymbol M }^{ - 1}{\boldsymbol W }^{\rm T} \left( {{\boldsymbol t_n} - {\boldsymbol \mu }} \right)$

$\left\langle {{\boldsymbol x_{n}}{\boldsymbol x_{n}^{\rm T}}} \right\rangle = \sigma ^2 {\boldsymbol M }^{ - 1} + \left\langle {{\boldsymbol x_{n}}} \right\rangle {\left\langle {{\boldsymbol x_{n}}} \right\rangle ^{\rm T}}$

混合概率PCA

为了能够对更复杂的数据进行建模，引入了混合概率PCA（MPPCA。通过在K个局部PCA模型预测输出，它为处理非线性和缺失数据提供了更强大的基础。根据概率规则，考虑K个局部PCA模型的混合，而不是用单一模型来表示系统：

$p(\boldsymbol{t})= \sum_{i=1}^{K}p(i)p(\boldsymbol{t}|i) =\sum_{i=1}^{K}\pi_ip(\boldsymbol{t}|i))$

约束为 ${\pi _i} \ge 0$ ， $\sum {{\pi _i} = 1}$ 。 $p (i)$ 为选择第 $i$ 个模型的概率，每个 $p(\boldsymbol{t}|i)$ ，PCA模型为
$\boldsymbol {t} = {\boldsymbol W}_i {\boldsymbol x} + \boldsymbol{\mu}_i+ {\boldsymbol \xi}_i, \ \ i=1, ..., K$ 。每个局部PCA模型的后验均值和协方差为

$\left\langle {{\boldsymbol x^{(i)}_{n}}} \right\rangle = {\boldsymbol M }_i^{ - 1}{\boldsymbol W }_i^{\rm T}\left( {{\boldsymbol t_n} - {\boldsymbol \mu_i }} \right) \in \Re ^{q}$

$\left\langle {{\boldsymbol x^{(i)}_{n}}} {{\boldsymbol x^{(i)}_{n}}}^{\rm T} \right\rangle = \sigma_i ^2 {\boldsymbol M }_i^{ - 1} + \left\langle {{\boldsymbol x^{(i)}_{n}}} \right\rangle {\left\langle {{\boldsymbol x^{(i)}_{n}}} \right\rangle ^{\rm T}} \in \Re ^{q\times q}$

局部模型数量确定

各局部模型参数受到局部模型数量K影响，本文用Baye Ying-Yang 确定最优K，准则如下：
${K^ \circ } = \arg \mathop {\min }\limits_i H\left( i \right)$
$H\left( i \right) \equiv - \frac{1}{N}\sum\limits_{n = 1}^N {\sum\limits_{i = 1}^K {p\left( {i|{\boldsymbol t_n},{\boldsymbol \theta} } \right)\ln \left( {p\left( {{\boldsymbol t_n}|i} \right)} \right) - \sum\limits_{i = 1}^K {{\pi _i}\ln {\pi _i}} } }$

其中， ${\boldsymbol \theta}$ 包含模型的所有参数，即 ${\boldsymbol \theta}= \left\{ {\boldsymbol W_i},{\boldsymbol \mu_i},\sigma _i^2, {\pi_i} \right \}_{i = 1, ...,K}$

在MPPCA 中，K 和 ${\boldsymbol \theta}$ 同时优化，用最大期望方法求解参数。

xinping1992

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
混合概率PCA：一种用于非线性过程监控的故障诊断方法

混合概率PCA引言潜变量模型和PCA概率PCA混合概率PCA引言作为一个坚守主成分分析(principal component analysis, PCA) 的学渣，虽然了解大量关于PCA的拓展方法，但依然觉得PCA还是有许多可以研究的内容。本文浅谈一种改进的混合概率PCA 方法，将概率PCA拓展到非线性异常监测中。此外，该方法也适合于多工况异常监测，工况可自动辨识。本文参考：Zhang, J., Chen, H., Chen, S., & Hong, X. (2019). An
复制链接

扫一扫