第一章 概论
1.识别的本质就是分类,所以模式识别也称为模式分类。
2.模式识别中,
样本:是研究对象的一个个体,相当于统计学中的实例。
样本集:若干样本的集合。
类别:所有样本上定义的子集,通常用w1,w2.....表示。
特征:也成为属性,对样本的量化结果,只存在一个特征则用一个数字表示,如果存在多个特征则用一个向量表示,向量的维数为特征的个数。所有样本的特征构成了样本的特征空间,维数为特征向量的维数,某个样本就是特征空间的一个点。
3.识别方法有两类,为基于知识的方法和基于数据的方法。
基于知识的方法前提是已经发现了特征和类别之间的关系,如专家系统,但实际上很多时候两者的关系并不明确,主要研究的是基于数据的模式识别。即通过收集一定数量的样本作为训练集,训练处模式识别机器,使之具备对未知类别样本的分类能力。
4.识别要求,存在对应关系才能训练后用于预测。G为观测样本特征的过程,x为样本的特征向量,S为样本与类别y之间的对应关系,S存在但是具体形式不清楚,如果清楚则使用专家系统解决。使用训练集训练出识别机器LM,使用LM识别其他样本。LM本质是一个函数,也叫分类器,建立分类器的过程叫做机器学习。
5.系统构成,很重要的一个步骤是将样本特征化,这个过程需要了解相关的领域知识对直接采集的数据进行必要的预处理,包括滤波等,接下来是特征的提取(转换)与选择,通过降维实现去冗余和相关性,最后特征确定后,才是设计并训练分类器的过程。