由word文档导入,有些信息可能遗漏
一.绪论
- 定义
研究如何使机器具有 识别、分类能力的学科。
具体说就是利用计算机自动地(或者少人为干预地)把待识别的模式分配到各自类中。 - 模式识别系统
2.1基本构成:
数据获取
预处理
特征选择/提取
分类规则训练
分类决策
2.2“处理”与“识别”两个概念的区别:
处理:输入与输出是同样的对象,性质不变。
识别:输入的是事物,输出的是对它的分类、理解和描述。
2.3模式识别系统分类
从实现方法来分:
监督(有人管理)分类:利用判别函数进行分类判别。需要有足够的先验知识。
非监督(无人管理)分类:用于没有先验知识的情况下,通常采用聚类分析的方法。
二.聚类分析
1.概念:
非监督分类,距离在聚类中很关键,由模式样本的特征值变成数量再变成特征向量。
2.模式相似性的测度:距离
1)欧式距离
2)马氏距离
3)明氏距离
4)汉明距离
5)角度相似性函数
k均值算法
1.前提:
模式特征矢量集为{x1,x2,…,xN};类的数目K是事先取定的。
2.基本思想:
任意选取K个聚类中心,按最小距离原则将各模式分配到K类的某一类。不断计算聚类中心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。
Sj:第j个聚类集(域),Zj ;聚类中心,Nj: Sj中所含的样本个数
聚类中心的选择应使准则函数J极小,Sj类的聚类中心应选为该类样本的均值。
3.步骤:
(1)任选K个模式特征矢量作为初始聚类中心: z1(1) ,z2(1) ,…zK(1)。括号内的序号表示迭代次数。
(2)将待分类的模式特征矢量集{x}中的模式逐个按最小距离原则分划给K类中的某一类。
(3)计算重新分类后的各聚类中心zj(k+1),即求各聚类域中所包含样本的均值向量: ,以均值向量作新的聚类中心。可得新的准则函数:
(4)如果zj(k+1)=zj(k)(j=1,2,…K),则结束;否则,k=k+1,转(2)。
注意:多次运行K均值算法,例如50~1000次,每次随机选取不同的初始聚类中心。聚类结束后计算准则函数值,选取准则函数值最小的聚类结果为最后的结果。该方法一般适用于聚类数目小于1