模式识别系统组成
信息获取
信息获取很容易理解,即对信号、图像、数据的采集,要用计算机可以运算的符号来表示所研究的对象。
预处理
预处理即是在对获取的数据进行学习前先对数据进行处理。
在现实生活中获取的数据往往会含有缺失值
之类的问题,得采取一些方法对含有缺失值的样本进行处理。如:在分类男女生时,某一位同学填写了其他信息而没有填写体重一项。
现实生活中还存在另外一种情况,如:图像含有大量的噪声,我们得对图像进行预处理减小、消除噪声
。同时图像中某些信息对分类很有用,我们得采取措施加强有用的信息
。
总之,预处理目标就是减小、消除干扰;加强有用信息
。
特征选择和提取(也称变换)
现实生活中,为了更好的分类,获取的数据往往会含有大量的特征,这将导致维度灾难(简单理解为一个样本含有的特征太多),使用特征选择方法或者特征提取方法合理地减少特征维度
。
分类器设计
即学习训练的过程。使用一定数量的样本,确定某种判别准则;通过反复输入、修正;直到分类错误率不超过给定值为止;完成学习过程。
训
练
学
习
方
法
{
监
督
学
习
:
给
予
程
序
样
本
分
类
的
正
确
结
果
无
监
督
学
习
:
仅
给
予
程
序
样
本
而
不
给
予
正
确
结
果
,
让
其
自
己
进
行
分
类
半
监
督
学
习
:
前
两
者
的
结
合
训练学习方法\begin{cases} 监督学习:给予程序样本分类的正确结果\\ 无监督学习:仅给予程序样本而不给予正确结果,让其自己进行分类\\ 半监督学习:前两者的结合\\ \end{cases}
训练学习方法⎩⎪⎨⎪⎧监督学习:给予程序样本分类的正确结果无监督学习:仅给予程序样本而不给予正确结果,让其自己进行分类半监督学习:前两者的结合
性能评估
即使用某种判别准则来评估训练模型的性能。
分类决策
使用已学习训练好的分类器去进行未知样本的分类。
基础概念
样本
一个具体的客观的研究对象
模式
模式就是对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在确定性或随机性规律的对象、过程或事件的集合
。
特征
能描述模式特性的量。通常对象具有多个特征,使用特征向量
x
⃗
=
(
x
1
⃗
,
x
2
⃗
,
x
3
⃗
,
.
.
.
)
T
\vec{x}=(\vec{x_1},\vec{x_2},\vec{x_3},...)^T
x=(x1,x2,x3,...)T来表示。
对于许多对象而言,拥有不同的特征向量值,各个特征向量都是多维随机变量。即许多对象的特征向量在n维空间中呈随机分布,称为随机矢量
X
⃗
=
(
X
1
⃗
,
X
2
⃗
,
X
3
⃗
,
.
.
.
)
T
\vec{X}=(\vec{X_1},\vec{X_2},\vec{X_3},...)^T
X=(X1,X2,X3,...)T。