数字图像处理（第三版）学习笔记第十二章-CSDN博客

本文链接：https://blog.csdn.net/zxsdss/article/details/140170935

一、模式和模式类

本章主要介绍决策理论识别和结构方法两种模式识别方法，第一种方法处理的是使用定量描述子来描述的各种模式，例如长度、面积和纹理等；第二种方法处理的是由定性描述子来描述的各种模式。

一、模式和模式类

模式是描述子的组合，在有关模式识别文献中常使用特征来表示描述子；模式类是指具有某些共同属性的一族元素。实践中常用的三种模式组合为向量（用于定量描述）、串和树（用于结构描述）。模式向量的各个分量的性质取决于用于描述该物理模式本身的方法。特征选择问题是指类的可分成都在很大程度上取决于所用的描绘子的选择。模式向量中每个分量的描述子的选择，描述子对基于模式向量方法的目标识别的最终性能或有深刻的影响。

模式特征可由结构关系来很好的描述，例如指纹识别基于痕迹特性的相互关系，这种关系叫做细节。串描述适用于生成其结构是基于基元的较简单的来连接，并且通常是和边界形状有关系的目标模式和其他实体模式。

二、基于决策论方法的识别

决策论方法识别是以使用决策（或判别）函数为基础的。假定 $\mathbf{x}=(x_1,x_2,\cdots ,x_n)^T$ 表示一个n维模式向量，那么对于W个模式类，决策理论模式识别的基本问题就是依据如果属性来找到W的决策函数：如果模式x属于类 $\omega _i$ ，则 $d_i(x)> d_i(x)$ ，即将x带入决策函数后，如果 $d_i(x)$ 得到最大值，则称未知模式x属于第i个模式类。类 $\omega _i$ 的决策边界由满足 $d_i(x)=d_j(x)$ 的x值给出的。

1.匹配

基于匹配的识别技术是通过一个原型模式向量来表示每一个类。最简单的方法是最小距离分类器，其计算该未知模式与每个原型向量间的欧氏距离。其次还有一种基于相关的方法，可根据图像用公式来直接表达。

最小距离分类器：假定每个模式类的原型定义为该模式的平均向量：

$m_j=\frac{1}{N_j}\sum_{x\in \omega _j}x_j$

那么选择最小距离等同于计算函数：

$d_j(x)=x^Tm_j-\frac{1}{2}m_j^Tm_j$

在 $d_i(x)$ 取最大值时，将x归于类 $\omega _i$ 。其中类 $\omega _i$ 和 $\omega _j$ 的决策边界为：

$d_{ij}(x)=d_i(x)-d_j(x)=x^T(m_i-m_j)-\frac{1}{2}(m_i-m_j)^T(m_i+m_j)=0$

由其得出的决策面时连接 $m_i$ 和 $m_j$ 的线段的垂直等分线。n=2时为直线；n=3时为平面；n＞3时为一个超平面。

当均值间的距离与每个类的分散度或随机性比较大时，最小距离分类器工作得很好。并且有如下结论：当每个类关于其均值得分布在n维模式空间中表现为一种球体的“超云团”形式时，最小距离分类器会产生最佳性能。

相关匹配：归一化相关系数的式子为：

求和得上下限为w和f得范围， $\bar{w}$ 是模板的平均值， $\bar{f}_{xy}$ 是f中与w区域重合区域的平均值。通常将w叫做模板，将相关叫做模板匹配。当归一化的w和f中对应得归一化区域相同时， $\gamma (x,y)$ 出现最大值说明最大相关。

2.最佳统计分类器

将来自类别 $\omega _i$ 得特定模式x得概率表示为 $p(\omega _i/x)$ 。由于模式x可能属于所考虑得W个类中的任何一个类，所以将模式x赋予类 $\omega _i$ 的平均损失为： $r_j(x)=\sum_{k=1}^{W}L_{kj}p(\omega _k/x)$ ，其中L为分类器导致的一次损失，该式也被叫做条件评价风险或损失。通过基础概率论可将其化简为：

$r_j(x)=\sum_{k=1}^{W}L_{kj}p(x/\omega _k)P(\omega _k)$

如果分类器为每个模式x计算器r值，并将该模式以最低损失赋给相应的类，那么关于所有决策的总体平均损失将是最低的，这种分类器叫做贝叶斯分类器。

使用贝叶斯分类器时通常假设对各种密度函数有一个解析表达式，且来自每个类的样本模式有一个必须的参数估计。目前最通用的假设形式是高斯概率密度函数。n维情形下第j个模式类中的向量的高斯密度为：

每个密度完全由其均值向量和协方差矩阵确定。协方差矩阵是对称的和半正定的。高斯模式类在0-1损失函数条件下的贝叶斯决策函数为：

它是超二次曲面的，因为出现在该式中x的分量的各项没有高于二次的。在贝叶斯意义下的最小分类器最佳的条件为（1）模式类都是高斯的（2）协方差矩阵都是单位矩阵（3）所有类出现的概率相等。贝叶斯分类器用于对由飞行器、卫星或空间站上携带的多光谱扫描器生成的遥感图像进行分类。

3.神经网络

用于估计已知其所属类的模式通常称为训练模式，来自每个类的这样一组模式称为训练集。使用训练集得到决策函数的过程叫做学习或训练。

本节所讲的剩下内容本质是使用大量的基本非线性计算单元（称为神经元），这些单元以网络的形式进行组织。得到的模型有许多的名称，如神经网络、神经计算机、并行分布式处理（PDP）模型、神经形态学系统、分层自适应网络和连接模型。

神经网络受到关注可以追溯至20世纪40年代早期，人们对被称为感知机的机器关注的原因是由数学证明的进展显示：当使用线性可分的训练集训练时，这些感知机会在有限数量的迭代步骤后收敛到一个解。后面Rumelhart，Hinton和Williams使用反向传播方式学习的通用delta法则，为多层机器提供了一种有效的训练方法，使得多层类感知机机器已成为当前所用神经网络的主要模型之一。

两个模式类的感知机是最基本的形式，其等效表现形式如下图：

在这个形式中，感知机学习一个线性决策函数，该决策函数对分两个线性可分的训练集。它的响应基于其输入的加权和，即 $d(x)=\sum_{i=1}^{n}w_ix_i+w_{n+1}$ ，该式是一个与模式向量的分量有关的线性决策函数。将求和连接的输出映射为该装置的最终输出的函数，有时也称为激活函数。其决策边界公式为：

感知机图的阈值单元的输出取决于d(x)的符号，替代测试来确定它们是正还是负的，可以使用 $w_{n+1}$ 项来检验公式的求和部分，所以系统输出为：

训练算法中有线性可分的类：对于两个分别属于类 $\omega _1$ 和 $\omega _2$ 的扩充模式向量的训练集，令w(1)表示初始权重向量，它可能是任意选择的。然后在第k步迭代中如果 $y(k)\in \omega _1$ 且 $w^T(k)y(k)\leq 0$ ，那么使用 $w(k+1)=w(k)+cy(k)$ 代替w(k)；如果 $y(k)\in \omega _2$ 且 $w^T(k)y(k)\geq 0$ ，那么就使用 $w(k+1)=w(k)-cy(k)$ 来代替w(k)；否则保持不变。

这个算法仅当正被考虑的模式在训练序列第k步被错误分类时，才改变w。有时也被称为固定分量校正准则。如果模式的两个训练集是可分的，那么固定分量校正准则会在有限步内收敛。

不可分的类：线性可分得模式类是个例外。一种早期的方法与解决不可分行为直接相关，就是原始的delta规则，称为感知机训练的Widrew-Hoff或最小均方（LMS）delta规则。这个规则在任何训练步骤都使得在实际响应与期望响应间的误差最小。考虑准则函数为： $J(w)=\frac{1}{2}(r-w^Ty)^2$ ，r是期望的响应，经过一系列的变换可以将其误差的变化定义为:

$\Delta e=-\alpha e(k)y^T(k)y(k)=-\alpha e(k)\left \| y(k) \right \|^2$

$\alpha$ 的选择控制着稳定性和收敛速度。

多层前馈神经网络的基本结构如下图所示：

它由多层结构上相同的神经元排列而成，从而一层中的每个神经元的输出送到下一层的每个神经元的输入。神经元的形式和感知机模式相同，只不过硬性受限激活函数被替换为了软性受限S形函数。其S形激活函数具有必要的可微分性：

$h_j(I_j)=\frac{1}{1+e^{-(I_j+\theta _j)/\theta _o}}$

不同类型的激活函数可用于不同的层，甚至用于神经网络的同一层中的不同节点。任何层中一个节点的输入，都是来自前一层输出的加权和。如上图，层K为层J中的每个节点的激活函数提供输入 $I_j=\sum_{k=1}^{N_k}w_{jk}O_k$ ，其中 $N_j$ 表示层J中第j个节点的激活函数的输入。将上述两式进行结合，可以得到一个激活函数的形式为：

训练一个多层网络的主要问题在于调整隐藏层中的权重，即那些非输出层的层中的权重。

反向传播训练：输出层Q中各节点的期望响应 $r_q$ 和相应的真实响应 $O_q$ 之间的总误差的平方为 $E_Q=\frac{1}{2}\sum_{q=1}^{N_Q}(r_q-O_q)^2$ 。经过一系列的变换可以得到

$\Delta w_{qp}=\alpha (r_q-O_q){h_q}'(I_q)O_p=\alpha \delta _qO_p$

由上式可知，根据对网络输入的任何训练模式的表示，就可以知道每个输出节点的期望响应r_q应该是多少。其中的误差项需要根据已知的或可在网络中观察到的量来找到重新定义 $\delta _p$ 的一种方法，经过公式推导可以得到期望的 $\delta _p$ 表达式为 $\delta _p={h_p}'(I_p)\sum_{q=1}^{N_p}\delta _qw_{qp}$ 。可以使用上述 $\delta _p$ 的式子由 $\delta _q$ 和 $w_{pq}$ 来计算 $\delta _p$ ，这两个量是在紧邻层p之前的层中计算出来的项。计算出层p的误差项和权重之后，这些量可用于类似的计算紧邻层p之前的层的误差项和权重，即找到了一种输出层误差开始，将误差反向传播回网络的方法。

假定层K是紧邻层J的前一层，多层前馈神经网络的一般delta训练法则由下列三式组成，即修改两层之间连接的 $\Delta w_{jk}=\alpha \delta _jO_k$ 和当层J为输出层时的 $\delta _j=(r_j-O_j){h_j}'(I_j)$ 以及当层J为内部层，且P是他的下一层时 $\delta _j={h_j}'(I_j)\sum \sum_{p=1}^{N_p}\delta _pw_{jp}$ 。

三、结构方法

为了比较形状数描述的区域边界，可以明确表达一个过程，这个过程类似于前面所讲的为模式向量引入的最小距离的概念。两个区域边界之间的相似度k定义为它们的形状数仍保持一致的最大阶。两个形状a和b之间的距离D(a,b)定义为它们相似度的倒数。其满足如下性质：（1）D(a,b)≥0（2）D(a,b)=0，iff a=b（3）D(a,c)≤max[D(a,b)，D(b,c)]。

假定两个区域边界a和b已被编码成串，分别使用a和b来表示两个串， $\alpha$ 表示两个串之间的匹配度，如果 $a_k=b_k$ ，则匹配出现在第k个位置。不匹配的符号数为 $\beta =max(|a|,|b|)-\alpha$ ，当且仅当a=b时 $\beta =0$ 。