(逻辑有点乱,待修改)
由李航《统计学习方法》中的第四章可得朴素贝叶斯分类器:
式中,连乘符号是针对j的,j表示中的第j个特征,不考虑连乘符号后的项,仅中项可能的取值数量为K()。也就是选最大值是从K个值选(先暂且这么认为)。
对于连乘项,如果采用极大似然估计(其实采用贝叶斯估计也是一样的),对,则有:
对每个值,取值唯一,共有K种取值可能。
而条件概率的极大似然估计是:
分号下方的项中,N代表的是训练集中的样本数,如果类标记取为后,该项变为定值。
分号上方的项中表示中的第个特征值可能的第个取值,,共有种取值可能。表示的第个特征取,那么表示在条件下,的概率。
其实在这里有点绕,首先要区分两个变量和,表示待分类的实例的第j个特征,而表示中第i个样本的第j个特征,表示为。也就是说的取值来自训练数据集。表示待分类实例中的特征取。至于是否等于是不确定的。(解决方法:等于最好,不等于就说明里边没有这个特征值,此处就可以用贝叶斯估计。)
结合上两个公式,贝叶斯分类器可以化简为下式:
表达的含义就是对于待分类实例,当选择其类别为时,按照待分类实例中各特征值所取的值去查找训练数据集中对应位置的特征值取相同值时的概率。由此求出一个概率,取完所有的可能取值之后,对这些取值进行排序,之后取最大值作为最后的输出值,也就是分类