数据分析师面试中关于朴素贝叶斯方法的理论涉及较多,故此对李航老师的《统计学习方法》中关于朴素贝叶斯的理论进行总结。
一、定义
朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
二、基本方法
设P(X,Y)是n维随机向量X和K维随机向量Y的联合概率分布。训练数据集
由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。先验概率分布;条件概率分布
于是学习到联合概率分布P(X,Y)。
朴素贝叶斯法对条件概率分布做了条件独立性假设:
朴素贝叶斯实际上学习到生成数据的机制,所以属于生成式模型。条件独立性假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:
根据条件独立性假设有
注意到上式中分母对所有都是相同的,所以,
三、求解方法
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。 可以通过给定0-1损失函数进行验证。
朴素贝叶斯算法通过极大似然估计估计和
可以得到先验概率的极大似然估计是
设第j个特征可能取值的集合为
,条件概率
的极大似然估计是