这里的概率P不是误判概率,而是样本本身是Cj类别的概率。在样本x上分类为Ci的风险是从其它类别误分类过来的。
我们的任务就是找到一个判定准则h,最小化总体风险,使得对于每一个样本x,将其误判为一个错误类别h(x)所产生的损失的期望降到最低。很明显的,我们只需保证每一个样本产生的条件风险最小,则总体的条件风险必然最小。问题转化为了找到每一个样本上使条件风险R(c I x)最小的类别标记。
如果我们只是最小化分类错误率,即误判损失为
则我们的条件风险就是使得样本x误判的概率
此时的最小化分类错误率的贝叶斯最优分类器就变成了
个人理解:这里按照个人理解,应该是讲:对于每一个样本,我们可能将其误判为C1,C2,C3等等类别。对于每一种错误分类,都有一种损失,并且分类成这种错误的概率。最优分类器就是要找到一个这样的类别,使得分类为这个类别所产生的误分类风险最小,各个类别的误分类风险可通过式7.1评判。所以有了后面的后验概率P(c I x)最大化问题。
要估计后验概率P(c I x)
类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定律, 当训练集包含充足的独立同分布样本时 ,P(c) 可通过各类样本出现的频率来进行估计。
对类条件概率 P(x I c) 来说,由于它涉及关于所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。