【论文笔记之 APA】An adaptive filtering algorithm using an orthogonal projection to an affine subspace ...

本文链接：https://blog.csdn.net/wjrenxinlei/article/details/125124552

本文对 Kazuhiko Ozeki 等人于 1984 年在 Electronics and Communications in Japan (Part I: Communications) 上发表的论文进行简单地翻译。如有表述不当之处欢迎批评指正。欢迎任何形式的转载，但请务必注明出处。

论文链接：https://onlinelibrary.wiley.com/doi/abs/10.1002/ecja.4400670503

1. 论文目的

提出一种使用正交投影到仿射子空间的自适应滤波算法

2. 摘要

LMS 算法和 learning identification 是典型的自适应算法，但其存在一个问题：收敛速度可能随着输入信号的特性而大大降低。为了避免该问题，论文对该问题的起源从几何角度入手进行了讨论，并根据研究结果提出了一种新的自适应算法。通过计算机数值实验，作者对比了所提算法与 learning identification 的收敛速度，验证了所提算法有较大改进。进一步，将该算法扩展为一组包含了原始算法和 learning identification 的算法，并称之为 APA（仿射投影算法）。实验表明 APA 具有一些理想的特性，比如，系数向量单调地逼近真实值，而且收敛速度不依赖于输入信号的幅度。对于明显的外部干扰或者自适应滤波器的阶数不足时，输出信号中包含哪些噪声的问题，论文也给出了明确的结论。

3. 介绍

具有一种学习功能的滤波器被称为自适应滤波器。其输入信号和要产生的输出信号（期望输出）是指定好的，而且该滤波器的系数会不断被修正，以使其输出不断地逼近期望输出。它已经被应用到很多问题上，比如，自动均衡器，回声消除器以及噪声消除设备。

自适应滤波器中最重要的是连续修正其系数的算法。已经有许多致力于该算法的研究，最著名的就是 LMS 算法。LMS 算法比较简单，需要更少的计算时间，而且很容易就能在硬件上实现。业内已经存在使用了该算法的自适应滤波器。另一方面，它存在的一个主要问题是收敛速度不会很快，不适合那些需要快速收敛的应用。存在的另一个主要问题是收敛速度很大程度上取决于输入信号的特性。

另一种类似于 LMS 算法的是 learning identification。该算法可以认为是 LMS 算法的改进版本。即使计算复杂度增加，但它收敛速度更快，而且和输入信号的幅度无关。有研究已尝试将该算法用于回声消除器。然而，learning identification 存在与 LMS 算法同样的问题，即收敛速度有时会因为输入信号的特性而降低。

论文尝试解决目前自适应算法的收敛速度可能降低的问题。通过从几何的角度分析算法，作者推导出了一个新的自适应算法，而且验证了它的有效性，并讨论了它的一些特点。

第 4 节回顾了 LMS 算法和 learning identification，并描述了其存在的问题。第 5 节基于几何角度的考虑，推导了一种新的自适应算法，并通过计算机数值实验验证了其有效性。

第 6 节从对仿射子空间的正交投影角度，检验了第 5 节导出的算法。然后，将该算法扩展为更通用的算法。最后，讨论了几个实际中比较重要的属性，包括外部干扰下的表现。

4. 过去的算法

论文提出的算法可以被认为是 learning identification 的扩展。作者首先回顾了 learning identification，然后在该框架下回顾了 LMS 算法。接着，从几何的角度，描述了这些算法存在的问题。

4.1. 问题形成和符号

自适应滤波器可以表述为辨识线性系统的问题。考虑图 1 所示的待辨识的未知系统，对于输入信号 ${x_{j}\}$ ，它的输出 ${y_{j}\}$ 定义为：
$y_{j} = \sum_{k=1}^{n} w_{k} x_{j - k + 1} \tag{1}$

上式中， $w_{1}, w_{2}, \cdots, w_{n}$ 是未知常量。信号 $x_{-1}, x_{0}, x_{1}, x_{2}, \cdots$ 表示为 ${x_{j}\}$ ， $y_{-1}, y_{0}, y_{1}, y_{2}, \cdots$ 表示为 ${y_{j}\}$ 。

接着，考虑另一个线性系统，对于同样的输入信号 ${x_{j}\}$ ，其输出 ${z_{j}\}$ 为：
$z_{j} = \sum_{k=1}^{n} v_{k}^{(j)} x_{j - k + 1} \tag{2}$

它被称为自适应滤波器。使用自适应算法以以下形式连续地修正自适应滤波器 $j$ 时刻的系数向量，以使其逼近待辨识系统的系数向量 $\bm w$ ：
$\bm v_{j+1} = \bm v_{j} + \Delta \bm v_{j} \tag{3}$

其中，
$\bm v_{j} \triangleq (v_{1}^{j}, v_{2}^{j}, \cdots, v_{n}^{j})^{t} \tag{4}$

$\bm w \triangleq (w_{1}, w_{2}, \cdots, w_{n})^{t} \tag{5}$

上式中的向量 $\Delta \bm v_{j}$ ，被限制为 $j$ 时刻之前的输入和输出的函数：
$\Delta \bm v_{j} = f(x_{j}, x_{j-1}, \cdots, x_{j-m}, y_{j}, y_{j-1}, \cdots, y_{j-m}, z_{j}, z_{j-1}, \cdots, z_{j-m}) \tag{6}$

通过选择 $f$ ，可以得到各种算法。

除了已使用的符号外，还将使用以下符号：
$\begin{aligned} &\text{(i)} \quad \bm x_{j} \triangleq (x_{j}, x_{j-1}, \cdots, x_{j - n + 1})^{t} \\ &\text{(ii)} \quad \text{For } \; \bm a = (a_{1}, \cdots, a_{n})^{t} \\ &\qquad \; \text{and } \; \bm b = (b_{1}, \cdots, b_{n})^{t} \\ &\qquad \left \langle \bm a, \bm b \right \rangle \triangleq \sum_{k=1}^{n}a_{k} b_{k} \\ &\text{(iii)} \; \; \Vert \bm a \Vert \triangleq \sqrt[]{\left \langle \bm a, \bm a \right \rangle} \\ &\text{(iv) } \; \; \Pi_{j} \triangleq \{ \bm v; \bm v \in \bm R^{n}, \left \langle \bm v, \bm x_{j} \right \rangle = y_{j} \} \end{aligned} \tag{7}$

$\text{(iv)}$ 中定义的 $\Pi_{j}$ 是特定系数向量的集合，对于输入向量 $\bm x_{j}$ ，这些系数向量可以输出 $y_{j}$ 。而且该集合在 $n$ 维欧几里得空间中形成了一个超平面。

4.2. learning identification

在 learning identification（笔者注：其实就是 NLMS 算法）中，系数向量被做如下修正：
$\begin{aligned} &\text{1}^{。} \quad \text{Setting the initial value:} \quad \bm v_{0} = \text{arbitrary value.} \\ &\text{2}^{。} \quad \text{Iteration:} \\ &\text{2.1}^{。} \quad z_{j} = \left \langle \bm v_{j}, \bm x_{j} \right \rangle \\ &\text{2.2}^{。} \quad e_{j} = y_{j} - z_{j } \\ &\text{2.3}^{。} \quad \Delta \bm v_{j} = \frac{e_{j}}{\Vert \bm x_{j} \Vert^{2}} \bm x_{j} \\ &\text{2.4}^{。} \quad \bm v_{j+1} = \bm v_{j} + \mu \Delta \bm v_{j} \end{aligned} \tag{8}$

常量 $\mu$ 被称为 the relaxation constant. 如图 2 所示，当 $\mu = 1$ 时， $\bm v_{j+1}$ 是从 $\bm v_{j}$ 到 $\Pi_{j}$ 的垂线的终点；当 $\mu \leq 0$ 或 $\mu \geq 2$ 时， $\Vert \bm v_{j+1} - \bm w \Vert \geq \Vert \bm v_{j} - \bm w \Vert$ 。因此，要想让系数向量收敛到 $\bm w$ ，必须满足 $\mu < 2$ 。这样的话， $\Vert \bm v_{j+1} - \bm w \Vert \leq \Vert \bm v_{j} - \bm w \Vert$ ，而且是单调收敛的。当给 ${x_{j}\}$ 乘以一个常量时， $\Delta \bm v_{j}$ 和收敛速度并不会改变。这也是 learning identification 的另一个特性。

4.3. LMS 算法

将 learning identification 的步骤 $\text{2.3}^{。}$ 修改为：
$\Delta \bm v_{j} = e_{j} \bm x_{j} \tag{9}$

就得到了 LMS 算法。LMS 算法中，系数修正的方向和 learning identification 是一致的，而且 $v_{j+1}$ 是从 $\bm v_{j}$ 到 $\Pi_{j}$ 的垂线上的点。

在过去，LMS 算法被理解为最速下降法的近似，不过，从几何角度出发能更好地理解其表现。LMS 算法不能保证系数向量收敛的单调性，而且收敛速度依赖于 ${x_{j}\}$ 的幅度。从这点来看，learning identification 比 LMS 算法更理想。

4.4. learning identification 和 LMS 算法的问题

为了方便起见，考虑 $\mu=1$ 的 learning identification 算法。如图 2 所示，系数向量的收敛速度很大程度上依赖于 $\Pi_j$ 和 $\Pi_{j-1}$ 之间的角度。换句话说，当 $\Pi_j$ 和 $\Pi_{j-1}$ 之间的角度接近 0 或者 $\pi$ 时，收敛速度降低。
$\frac{\Vert \bm v_{j+1} - \bm w \Vert}{\Vert \bm v_{j} - \bm w \Vert} \rightarrow 1 \tag{10}$

令 $\Pi_j$ 和 $\Pi_{j-1}$ 之间的角度为 $\theta$ ，它也是 $\bm x_{j}$ 和 $\bm x_{j-1}$ 之间的角度：
$\cos \theta = \frac{\left \langle \bm x_{j}, \bm x_{j-1} \right \rangle}{\Vert \bm x_{j} \Vert \cdot \Vert \bm x_{j-1} \Vert} \tag{11}$

上述等式的右边是 the first-order sample autocorrelation function of the signal ${x_{j}\}$ . 因此，收敛速度随着信号一阶自相关函数的绝对值接近 $1$ 而降低。 $\mu \neq 1$ 以及 LMS 算法的情况也是如此。

出现这种现象是因为：系数修正的方向受制于 $\bm x_{j}$ 的方向。为了改善这种情况，应重新考虑系数修正的方向。

5. 新的自适应算法及其收敛速度

5.1. 算法的构建

如图 2 所示，为了保证收敛速度恒定，不依赖于 $\bm x_{j}$ 和 $\bm x_{j-1}$ 之间的角度，垂直线应该从 $\bm v_{j}$ 画到 $\Pi_{j} \cap \Pi_{j-1}$ ，而不是画到 $\Pi_{j}$ 。令新垂线的终点为 $\bm v_{j+1}{}^{'}$ ，并以与 learning identification 相同的方式引入 the relaxation constant $\mu$ ，可以构建出下面的算法（见图 3）：
$\begin{aligned} &\text{1}^{。} \quad \text{Setting the initial value:} \quad \bm v_{0} = \text{arbitrary value.} \\ &\text{2}^{。} \quad \text{Iteration:} \quad \bm v_{j+1} = \bm v_{j} + \mu (\bm v_{j+1} - \bm v_{j}). \; \text{When} \; \mu = 1, \; \text{the iteration of this algorithm can be written as follows:} \\ &\text{2.1}^{。} \quad \widetilde {\bm x}_{j-1} = \frac{\left \langle\bm x_{j-1}, \bm x_{j}\right \rangle}{\Vert \bm x_{j-1} \Vert^{2}} \bm x_{j-1}\\ &\text{2.2}^{。} \quad \bm u_{j} = \bm x_{j} - \widetilde {\bm x}_{j-1} \\ &\text{2.3}^{。} \quad z_{j} = \left \langle\bm v_{j}, \bm x_{j}\right \rangle \\ &\text{2.4}^{。} \quad e_{j} = y_{j} - z_{j} \\ &\text{2.5}^{。} \quad \Delta \bm v_{j} = \frac{e_{j}}{\left \langle\bm u_{j}, \bm x_{j}\right \rangle} \bm u_{j} \\ &\text{2.6}^{。} \quad \bm v_{j+1} = \bm v_{j} + \Delta \bm v_{j} \end{aligned} \tag{12}$

该算法的特性以及 $\mu = 1$ 时的计算过程将在下一节作为一般理论进行讨论。

5.2. 收敛速度

通过计算机数值实验，比较 learning identification 和论文所提方法的收敛速度。如图 4 所示，使用有色噪声作为信号 ${x_{j}\}$ ，该有色噪声是通过将正态分布的随机数通过一阶递归滤波器得到的。信号的自相关函数就是该滤波器系数 $\alpha$ 本身，并通过改变 $\alpha$ 的值来检验收敛速度。该实验中，待辨识系统的系数向量与先前文献数值实验所使用的几乎一样。

在该实验中，计算以下 $j(\varepsilon)$ 的数值，而不是收敛速度：
$j(\varepsilon) = \text{min}\{j; \; \Vert \bm v_{j} - \bm w \Vert / \Vert \bm w \Vert \leq \varepsilon\}, \; \bm v_{0} = \bm 0 \tag{13}$

图 5(a)、(b) 展示了当 $\mu = 1$ 时， $\varepsilon$ 和 $j(\varepsilon)$ 在 $\alpha$ 各种取值下的关系。滤波器的阶数设置为 $16$ 。通过实验，可以看出：

$\text{(i)}$ 当 $\alpha = 0$ 时，尽管新算法收敛速度稍快，但并没有太大的差异。如图2、3 所示，如果 $\Pi_{j}$ 和 $\Pi_{j-1}$ 总是正交的，那么 learning identification 和新算法是一样的。
$\text{(ii)}$ 当 $\alpha$ 接近 $1$ 时，learning identification 的 $j(\varepsilon)$ 迅速增加，而新算法的并没有变太多。从算法的几何解释可以看出这一点。当 $\alpha = 0.99$ 时，新算法的收敛速度是 learning identification 的 $10$ 倍以上。

6. 算法扩展

6.1. APA（仿射投影算法）

目前为止，所用到的 $\Pi_{j}$ 或 $\Pi_{j} \cap \Pi_{j-1}$ 不一定包含 $\text{R}^{n}$ 的原点。因此，它不一定是向量空间 $\text{R}^{n}$ 的一个子空间，而是一个仿射子空间。令 $\Pi$ 为 $\text{R}^{n}$ 的一个仿射子空间。将 $\text{R}^{n}$ 在 $\Pi$ 上的正交投影记为 $\text {P}_{\Pi}$ 。使用该符号，当 $\mu = 1$ 时，learning identification 的系数更新可以写为：
$\bm v_{j+1} = \text {P}_{\Pi_{j}}(\bm v_{j}) \tag{14}$

所提算法可以写为：
$\bm v_{j+1} = \text {P}_{\Pi_{j} \cap \Pi_{j-1}}(\bm v_{j}) \tag{15}$

从这个角度来看的话，这些算法很容易被扩展。考虑一种通过下式更新系数的算法：
$\bm v_{j+1} = \text {P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}}(\bm v_{j}) \tag{APA-1}$

$(\text{APA-1})$ 中的向量 $\bm v_{j+1}$ 是以 $\bm v$ 为未知量的方程组的解：
$\left. \begin{matrix} &\left \langle\bm x_{j}, \bm v\right \rangle = y_{j} \\ &\left \langle\bm x_{j-1}, \bm v\right \rangle = y_{j-1} \\ & \vdots \\ &\left \langle\bm x_{j-(p-1)}, \bm v\right \rangle = y_{j-(p-1)} \end{matrix} \right\} \tag{APA-2}$

它使 $\Vert \bm v - \bm v_{j} \Vert$ 最小化。令 $(\text{APA-2})$ 中等式左边的系数矩阵为：
$\bm X_{j} = (\bm x_{j}, \bm x_{j-1}, \cdots, \bm x_{j-(p-1)})^{t}, \tag{16}$

等式右边的常量为：
$\bm y_{j} = (y_{j}, y_{j-1}, \cdots, y_{j-(p-1)})^{t} \tag{17}$

并令 $\bm X_{j}^{+}$ 为 $\bm X_{j}$ 的 the Moore-Penrose generalized inverse：
$\begin{aligned} \bm v_{j+1} &= \bm X_{j}^{+} \bm y_{j} + (\bm I - \bm X_{j}^{+} \bm X_{j}) \bm v_{j} \\ &= \bm v_{j} + \bm X_{j}^{+}(\bm y_{j} - \bm X_{j} \bm v_{j}) \end{aligned} \tag{APA-3}$

其中， $\bm I$ 是单位矩阵。

基于上述等式，并引入 the relaxation constant $\mu$ ，可得到以下自适应方程：
$\begin{aligned} &\text{1}^{。} \quad \text{Setting the initial value:} \quad \bm v_{0} = \text{arbitrary value.} \\ &\text{2}^{。} \quad \text{Iteration:} \\ &\text{2.1}^{。} \quad \Delta \bm v_{j} = \bm X_{j}^{+}(\bm y_{j} - \bm X_{j} \bm v_{j}) \\ &\text{2.2}^{。} \quad \bm v_{j+1} = \bm v_{j} + \mu \Delta \bm v_{j} \end{aligned} \tag{18}$

论文将该算法称为 APA（affine projection algorithm）， $p$ 是它的阶数。根据该定义，learning identification 就是一阶的 APA，而上节描述的算法是二阶的 APA。

6.2. APA 的基本性质

本节描述了 APA 的 3 个基本性质。

性质 1. 如果 $\mu < 2$ ，那么 $\Vert \bm v_{j+1} - \bm w \Vert \leq \Vert \bm v_{j} - \bm w \Vert$ 。如果 $\mu \leq 0$ 或 $\mu \geq 2$ ，那么 $\Vert \bm v_{j+1} - \bm w \Vert \geq \Vert \bm v_{j} - \bm w \Vert$ 。

证明：令 $\widetilde {\bm v}_{j+1} = \bm v_{j} + \Delta \bm v_{j}$ ，则 $\widetilde {\bm v}_{j+1} = \text{P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}}(\bm v_{j})$ ，因为 $\bm w \in \Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}$ ， $\widetilde {\bm v}_{j+1} - \bm w$ 和 $\Delta \bm v_{j}$ 是相互正交的。所以，由 Pythagoras’ theorem 定理（毕达哥拉斯定理）得：
$\begin{aligned} &\Vert \bm v_{j} - \bm w \Vert^{2} = \Vert \Delta \bm v_{j} \Vert^{2} + \Vert \widetilde {\bm v}_{j+1} - \bm w \Vert^{2}，\\ &\Vert \bm v_{j+1} - \bm w \Vert^{2} = \Vert \widetilde {\bm v}_{j+1} - \bm v_{j+1} \Vert^{2} + \Vert \widetilde {\bm v}_{j+1} - \bm w \Vert^{2} \\ &\qquad \qquad \quad \, \, =(1 - \mu)^{2} \Vert \Delta \bm v_{j} \Vert^{2} + \Vert \widetilde {\bm v}_{j+1} - \bm w \Vert^{2} \end{aligned} \tag{APA-4}$

于是，
$\Vert \bm v_{j} - \bm w \Vert^{2} - \Vert \bm v_{j+1} - \bm w \Vert^{2} = \mu (2 - \mu) \Vert \Delta \bm v_{j} \Vert^{2} \tag{19}$

因此，性质 1 得证。

从上述性质可以看出， $\mu < 2$ 是 APA 系数向量收敛到 $\bm w$ 的必要条件。还可以看出，如果 $\mu$ 在这个范围内，系数向量永远不会偏离 $\bm w$ ，也就是说，收敛是单调的。但 $\mu < 2$ 并不一定是收敛的充分条件。

性质 2. 令 $\mu <2$ 且 $p > q$ 。分别使用 $p$ 阶和 $q$ 阶的 APA 算法对系数向量 $\bm v_{j}$ 进行一次自适应，自适应之后的系数向量分别为 $\bm v_{j+1}^{(p)}$ 和 $\bm v_{j+1}^{(q)}$ ，那么 $\Vert \bm v_{j+1}^{(p)} - \bm w \Vert \leq \Vert \bm v_{j+1}^{(q)} - \bm w\Vert$ 。

证明：令 $\mu = 1$ ，在 $\bm v_{j}$ 上自适应得到的系数向量分别为 $\widetilde {\bm v}_{j+1}^{(p)}$ 和 $\widetilde {\bm v}_{j+1}^{(q)}$ 。然后，通过与 $(\text{APA-4})$ 相同的推理，
$\begin{aligned} \Vert \bm v_{j+1}^{(p)} - \bm w \Vert^{2} &= \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm v_{j+1} \Vert^{2} + \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm w \Vert^{2} \\ &= \mu (2 - \mu) \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm w \Vert^{2} \\ & \quad + (1 - \mu)^{2} \Vert \bm v_{j} - \bm w \Vert^{2} \end{aligned} \tag{20}$

将上述类似的关系应用到 $\Vert \bm v_{j+1}^{(q)} - \bm w \Vert^{2}$ 上。于是：
$\Vert \bm v_{j+1}^{(p)} - \bm w \Vert^{2} - \Vert \bm v_{j+1}^{(q)} - \bm w \Vert^{2} \\ = \mu (2 - \mu) \{ \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm w \Vert^{2} - \Vert \widetilde {\bm v}_{j+1}^{(q)} - \bm w \Vert^{2} \} \tag{APA-5}$

另一方面，根据正交投影的性质，
$\text{P}_{\Pi} \; \circ \; \text{P}_{\Pi^{'}} = \text{P}_{\Pi^{'}} \; \circ \; \text{P}_{\Pi} = \text{P}_{\Pi} \tag{21}$

一般适用于仿射子空间 $\Pi \supset \Pi^{'}$ ，其中 $\circ$ 表示 the composition of mappings. 由于假定 $p > q$ ，
$\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)} \subset \Pi_{j} \Pi_{j-1} \cap \cdots \cap \Pi_{j-(q-1)} \tag{22}$

于是，
$\begin{aligned} \widetilde {\bm v}_{j+1}^{(p)} &= \text{P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}}(\bm v_{j}) \\ &= \text{P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}} \\ & \quad \circ \text{P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(q-1)}}(\bm v_{j}) \\ &= \text{P}_{\Pi_{j} \cap \Pi_{j-1} \cap \cdots \cap \Pi_{j-(p-1)}}(\widetilde {\bm v}_{j+1}^{(q)}) \end{aligned} \tag{23}$

由此可见， $\widetilde {\bm v}_{j+1}^{(p)} - \bm w$ 和 $\widetilde {\bm v}_{j+1}^{(p)} - \widetilde {\bm v}_{j+1}^{(q)}$ 是正交的，且：
$\begin{aligned} \Vert \widetilde {\bm v}_{j+1}^{(q)} - \bm w \Vert^{2} &= \Vert \widetilde {\bm v}_{j+1}^{(q)} - \widetilde {\bm v}_{j+1}^{(p)} \Vert^{2} + \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm w\Vert^{2} \\ &\geq \Vert \widetilde {\bm v}_{j+1}^{(p)} - \bm w \Vert^{2} \end{aligned} \tag{24}$

使用该不等式， $(\text{APA-5})$ 以及 $\mu < 2$ ，性质 2 得证。从性质 2 可以看出，可以通过增加阶数来提高收敛速度。

性质 3. 令 $\{ \widetilde x_{j} \}$ 为输入信号 ${ x_{j} \}$ 的幅度乘以 $\neq 0)$ 的结果，即， $\widetilde x_{j} = a x_{j}$ 。从初始值 $\bm v_{0}$ 开始，设 $j$ 时刻使用输入信号 ${x_{j}\}$ 得到的系数向量为 $\bm v_{j}$ ，使用 $\{\widetilde x_{j} \}$ 得到的系数向量为 $\widetilde {\bm v}_{j}$ 。那么，
$\bm v_{j} = \widetilde {\bm v}_{j} \quad (j \geq 0) \tag{25}$

证明：令
$\begin{aligned} \widetilde {\bm x}_{j} &= (\widetilde x_{j}，\widetilde x_{j-1}，\cdots，\widetilde x_{j-(n-1)})^{t} \\ \widetilde y_{j} &= \left \langle \bm w，\widetilde {\bm x}_{j} \right \rangle \\ \widetilde {\bm X}_{j} &= (\widetilde {\bm x}_{j}，\widetilde {\bm x}_{j-1}，\cdots，\widetilde {\bm x}_{j-(p-1)})^{t} \\ \widetilde {\bm y}_{j} &= (\widetilde y_{j}，\widetilde y_{j-1}，\cdots，\widetilde y_{j-(p-1)})^{t} \\ \widetilde {\bm X}_{j}^{+} &: \widetilde {\bm X}_{j} \; \text{的} \; \text{Moore-Penrose generalized inverse matrix} \end{aligned} \tag{26}$

通过 APA 的定义，输入向量 $\{\widetilde x_{j}\}$ 的系数向量 $\widetilde {\bm v}_{j}$ 按照以下公式依次更新：
$\widetilde {\bm v}_{0} = \bm v_{0} \tag{APA-6}$

$\Delta \widetilde {\bm v}_{j} = \widetilde {\bm X}_{j}^{+} (\widetilde {\bm y}_{j} - \widetilde {\bm X}_{j} \widetilde {\bm v}_{j}) \tag{APA-7}$

$\widetilde {\bm v}_{j+1} = \widetilde {\bm v}_{j} + \mu \Delta \bm v_{j} \tag{APA-8}$

明显地， $\widetilde {\bm X}_{j} = a \bm X_{j}$ ， $\widetilde {\bm y}_{j} = a \bm y_{j}$ 且 $\widetilde {\bm X}_{j}^{+} = \frac{1}{a} \widetilde {\bm X}_{j}$

于是，从 $(\text{APA-7})$ 可得，
$\Delta \widetilde {\bm v}_{j} = \bm X_{j}^{+} (\bm y_{j} - \bm X_{j} \widetilde {\bm v}_{j}) \tag{27}$

因此，if $\; \widetilde {\bm v}_{j} = \bm v_{j}$ ， $\Delta \widetilde {\bm v}_{j} = \Delta \bm v_{j}$ ，and $\; \widetilde {\bm v}_{j+1} = \bm v_{j+1}$ follows from (APA-8)。结合该结论和 $(\text{APA-6})$ ，通过数学归纳法证明了性质3。

从性质 3 可以看出，将非零常数与输入信号相乘作为新的输入信号之后，并不会改变 APA 算法的收敛速度以及系数向量。这意味着不必考虑输入信号幅度的调整，从实际应用的角度来看，这是一个非常理想的性质。

6.3. 存在外部干扰的情况

上述关于算法的介绍，都是假设除了输入信号 ${x_{j}\}$ 之外并没有其它信号被施加在图 1 所示的系统上。然而，在实际应用中，很多情况下还存在其它信号，这是不可忽视的。比如，在使用自适应滤波器来做两个输入信号的消除任务时，如图 6 所示，来自噪声源的信号对应于图 1 中的 ${x_{j}\}$ ，这是辨识未知系统（也就是从噪声源到输入端的传输函数）所必需的，来自信号源的信号 is not the one considered up to the point. 然而，来自信号源的信号是要拾取的信号，如果忽略它，整个问题将变得毫无意义。

图 6 中的情况可以被建模为图 7。在接下来的讨论中，系统考虑了外部干扰对系数向量 $\bm v_{j}$ 和输出信号 ${e_{j}\}$ 的影响。在图 7的模型中，定义以下三个系数向量：

(1) 令 ${y_{j}\}$ 为期望输出。令初始值为 $\bm v_{0}$ 的系数向量经 APA 算法自适应后，所得到的系数向量为 $\bm v_{j}$ 。
(2) 令 ${y_{j}^{(1)}\}$ 为期望输出。令初始值为 $\bm v_{0}$ 的系数向量经 APA 算法自适应后，所得到的系数向量为 $\bm v_{j}^{(1)}$ 。
(3) 令 ${y_{j}^{(2)}\}$ 为期望输出。令初始值为 $\bm v_{0}$ 的系数向量经 APA 算法自适应后，所得到的系数向量为 $\bm v_{j}^{(2)}$ 。

然后，可以很容易地验证：
$\bm v_{j} = \bm v_{j}^{(1)} + \bm v_{j}^{(2)} \tag{APA-9}$

$\bm v_{j}^{(1)}$ 定义为没有外部干扰时的系数向量， $\bm v_{j}^{(2)}$ is the term newly produced by the external disturbance.

使用 $(\text{APA-9})$ ，输出信号 $e_{j}$ 可以被分解为：
$e_{j} = e_{j}^{(1)} + e_{j}^{(2)} + e_{j}^{(3)} \tag{28}$

其中，
$\begin{aligned} e_{j}^{(1)} &= y_{j}^{(1)} - \left \langle \bm v_{j}^{(1)}, \bm x_{j} \right \rangle \\ e_{j}^{(2)} &= y_{j}^{(2)} \\ e_{j}^{(3)} &= - \left \langle \bm v_{j}^{(2)}, \bm x_{j} \right \rangle \end{aligned} \tag{29}$

信号 $e_{j}^{(1)}$ 等于没有外部干扰时的输出信号， $e_{j}^{(2)}$ 是施加的干扰本身， $e_{j}^{(3)}$ 是施加外部干扰产生的项。

考虑在没有外部干扰的时候，输出信号 ${e_{j}\}$ 收敛到 $0$ 的情况。然后，经过足够长的时间：
$e_{j} \rightleftharpoons e_{j}^{(2)} + e_{j}^{(3)} \tag{30}$

因此，考虑 $e_{j}^{(3)}$ 是如何随着输入信号 ${x_{j}\}$ 的幅度和外部干扰 ${y_{j}^{(2)}\}$ 的变化而变化的。根据 $\bm v_{j}^{(2)}$ 的定义，
$\begin{aligned} \bm v_{j+1}^{(2)} &= (\bm I - \mu \bm X_{j}^{+} \bm X_{j}) \bm v_{j}^{(2)} + \mu \bm X_{j}^{+} \bm y_{j}^{(2)} \\ \bm y_{j}^{(2)} &= (y_{j}^{(2)}, y_{j-1}^{(2)}, \cdots, y_{j-(p-1)}^{(2)})^{t} \end{aligned} \tag{31}$

使用以下符号：
$\begin{aligned} \phi(j;j) &= \bm I \\ \phi(j+1;j) &= \bm I - \mu \bm X_{j}^{+} \bm X_{j} \\ \phi(k;j) &= \phi(k;k-1) \circ \phi(k-1;k-2) \circ \cdots \circ \phi(j+1;j) \; (k>j) \\ \bm u_{j}^{(2)} &= \mu \bm X_{j}^{+} \bm y_{j}^{(2)} \end{aligned} \tag{32}$

$\bm v_{j}^{(2)}$ 可以表示为：
$\bm v_{j}^{(2)} = \sum_{k=0}^{j-1} \phi(j;k) \bm u_{k}^{(2)} \tag{APA-10}$

当给 ${y_{j}^{(2)}\}$ 乘以 $a$ 时， $\phi(j;k)$ 不会变，而 $\bm u_{k}^{(2)}$ 乘以了 $a$ 。于是，由 $(\text{APA-10})$ 可得， $\bm v_{j}^{(2)}$ 乘以了 $a$ ， $e_{j}^{(3)}$ 乘以了 $a$ 。当给 ${x_{j}\}$ 乘以 $\neq 0)$ 时，给 $\bm X_{j}$ 乘以了 $b$ ，给 $\bm X_{j}^{+}$ 乘以了 $1/ b$ ，正如证明性质 3 所描述的那样。于是， $\phi(k;j)$ 不会变，给 $\bm u_{k}$ 乘以了 $1/ b$ 。由 $(\text{APA-10})$ 可得，给 $\bm v_{j}^{(2)}$ 乘以了 $1/ b$ ，给 $\bm x_{j}$ 乘以了 $b$ ，而 $e_{j}^{(3)}$ 不会变。

考虑 $\mu$ 改变的情况。当 $\mu$ 接近 $0$ 时， $\bm u_{k}$ 接近 $\bm 0$ ， $\phi(j;k)$ 接近 $\bm I$ 。于是，由 $(\text{APA-10})$ 可得， $\bm v_{j}^{(2)}$ 接近 $\bm 0$ ， $e_{j}^{(3)}$ 接近 $0$ 。在使用自适应滤波器做两个输入信号的噪声消除应用中， ${e_{j}^{(2)}\} (=\{y_{j}^{(2)}\})$ 是期望信号， ${e_{j}^{(3)}\}$ 是输出噪声。所以，从上述讨论中可以得到以下性质：

性质 4. 当在两输入系统的噪声消除中使用 APA时，输出的信噪比与输入的信噪比无关，而且当 the relaxation constant 接近 $0$ 时，输出的信噪比接近无穷大。

6.4. 阶数不足的自适应滤波器

目前为止，只考虑了待辨识系统的阶数与自适应滤波器的阶数相同的情况。然而，在实际应用中，它们通常是不一样的。当自适应滤波器的阶数大于待辨识系统的阶数时，不会出现什么问题。考虑当自适应滤波器的阶数不足时，输出信号 ${e_{j}\}$ 会怎么改变。

假设图 7 中待辨识系统的阶数无限，且令其系数为 $w_{1}, w_{2}, \cdots$ 。系统在 $j$ 时刻的输出为：
$\sum_{k=1}^{\infty} w_{k} x_{j-k+1} \tag{33}$

可以将其分解为两个成分：
$\begin{aligned} y_{j}^{(1)} &= \sum_{k=1}^{n} w_{k} x_{j-k+1} \\ y_{j}^{(3)} &= \sum_{k=n+1}^{\infty} w_{k} x_{j-k+1} \end{aligned} \tag{34}$

和上一节一样，令 $y_{j}^{(3)}$ 为期望输出。设初始值为 $\bm 0$ 的系数向量经 APA 依次自适应后得到的系数向量为 $\bm v_{j}^{(3)}$ 。 $\bm v_{j}$ 可以被分解为三个成分：
$\bm v_{j} = \bm v_{j}^{(1)} + \bm v_{j}^{(2)} + \bm v_{j}^{(3)} \tag{APA-11}$

其中， $\bm v_{j}, \bm v_{j}^{(1)}$ 和 $\bm v_{j}^{(2)}$ 是上一节中定义的向量。使用 $(\text{APA-11})$ ， $e_{j}$ 被分解成如下五项：
$e_{j} = e_{j}^{(1)} + e_{j}^{(2)} + e_{j}^{(3)} + e_{j}^{(4)} + e_{j}^{(5)} \tag{35}$

其中， $e_{j}^{(1)}, e_{j}^{(2)}$ 和 $e_{j}^{(3)}$ 是上一节定义的变量，且：
$\begin{aligned} e_{j}^{(4)} &= y_{j}^{(3)} \\ e_{j}^{(5)} &= - \left \langle \bm v_{j}^{(3)}, \bm x_{j} \right \rangle \end{aligned} \tag{36}$

考虑这些项是如何随着 ${x_{j}\}$ 的幅度变化而变化的。当给 ${x_{j}\}$ 乘以 $\neq 0)$ ，很明显， $e_{j}^{(4)}$ 也乘了 $b$ 。令：
$\begin{aligned} \bm u_{j}^{(3)} &= \mu \bm X_{j}^{+} \bm y_{j}^{(3)} \\ \bm y_{j}^{(3)} &= (y_{j}^{(3)}, y_{j-1}^{(3)}, \cdots, y_{j-(p-1)}^{(3)})^{t} \end{aligned} \tag{37}$

可以用上一节中与 $\bm v_{j}^{(2)}$ 相同的方式：
$\bm v_{j}^{(3)} = \sum_{k=0}^{j-1} \phi(j;k) \bm u_{k}^{(3)} \tag{APA-12}$

当给 ${x_{j}\}$ 乘以 $\neq 0)$ 时， $\bm X_{j}^{+}$ 乘了 $1/ b$ ， $y_{j}^{(3)}$ 乘了 $b$ 。所以， $\bm u_{j}^{(3)}$ 不会变，而且，由 $(\text{APA-12})$ 可得， $\bm v_{j}^{(3)}$ 也不会变。因此， $e_{j}^{(5)}$ 乘了 $b$ 。换句话说， $e_{j}^{(4)}$ 和 $e_{j}^{(5)}$ 是与输入信号 ${x_{j}\}$ 的幅度成比例的项。

因此，当自适应滤波器的阶数不足时，一个与输入信号 ${x_{j}\}$ 的幅度成比例的噪声项会出现在输出中，并且性质 4 不再适用。表 1 总结了输入信号 ${x_{j}\}$ ，外部干扰 ${y_{j}^{(2)}\}$ 以及改变 $\mu$ 值对 ${e_{j}^{(1)} ~ e_{j}^{(5)}\}$ 的影响。