关键词:监督模式和非监督,马氏距离,bayes决策理论
1.监督模式识别和非监督模式识别的区别
监督学习(supervised pattern recognition):已知要划分的类别,并且能够获得一定数量的类别已知的训练样本。
非监督学习(unsupervised pattern recognition):事先不知道划分的是什么类别,更没有类别已知的样本做训练。
说白了就是给你数据和label就是监督的,没有label只有数据就是非监督的。
2.一般的模式识别问题分为4部分:原始数据的获取和预处理,特征提取和选择、分类或者聚类、后处理。
处理监督模式识别问题的一般步骤:
- 分析问题
- 原始特征获取
- 特征提取和选择
- 分类器的设计(训练)
- 分类决策(识别)
非监督问题:
- 分析问题
- 原始特征获取
- 特征提取和选择
- 聚类分析
- 结果揭示
bayes决策理论
最小错误率贝叶斯决策:
从最小错误了处罚,利用概率论中的贝叶斯公式,就能的初始错误率最小的分类决策。
有多种等价形式如:
或者:
一般:
最小贝叶斯风险决策:
考虑各种错误造成损失不同时的一种最优策略。
(1)把样本x看做d为随即向量
x=[x 1 ,x 2 ,...,x d ] T
(2)状态空间
Ω
由c个可能的状态(即有c类)组成:
Ω=ω 1 ,ω 2 ,...,ω c
(3)对随即向量x可能采取的决策组成了决策空间,它由k个决策组成
α 1 ,α 2 ,...,α k
(4)对于实际状态为
ω j 的向量x,才去决策α i 所带来的损失为
λ(α i ,ω j ),i=1,...k,j=1,...,c
每个决策的的期望损失为:
R(α i |x)=E[λ(α i ,ω j )|x]=∑ c j=1 λ(α i ,ω j )P(ω j |x),i=1,...,k
在的的特征空间中所有可能的样板恩x才去决策所造成的期望损失是:
最小风险贝叶斯决策就是最小化这一期望风险:
Neyman Pearson决策规则
限定一类错误率为常数,而使另一类错误率最小的决策规则称作NeymanPearson准则
朴素贝叶斯分类器(Naive Bayes)
马氏距离
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:它的缺点是夸大了变化微小的变量的作用。