常见分类算法
一、朴素贝叶斯算法(NBC)
1.1 简介
朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类算法,是应用最广泛的分类算法之一。
该算法假定给定目标值时属性之间相互条件独立,即没有哪个属性变量对于决策结果占很大(很小)的比重,一定程度上降低了贝叶斯分类算法的分类效果,但在实际应用场景中,极大简化了贝叶斯方法的复杂性。
1.2 算法原理
设
样本数据集D={d1,d2,d3,…dn},
样本数据的特征属性集X={x1.x2,…xd},
类变量Y={y1,y2,…ym}
即D可以分为ym类别,其中x1.x2,…xd相互独立且随机,
则Y的先验概率Yprior=P(Y),Y的后验概率Ppost=P(Y|X)
朴素贝叶斯基于各特征之间相互独立,在给定类别为y的情况下,上式可进一步表示为:
后验概率为:
由于P(X)大小固定不变,在比较后验概率时,只比较上式的分子部分即可,因此可以得到一个样本数据属于类别yi的朴素贝叶斯计算如下: