朴素贝叶斯基本概念
朴素贝叶斯法基于贝叶斯定理和特征条件独立假设
对于训练数据集合先学习输入和输出的联合概率分布
对于预测输入,根据贝叶斯定理求出后验概率最大的输出y
具体的需要先学习先验概率分布 P(y=ck) 和条件概率分布 p(X=x|Y=ck)
条件概率分布的参数数量为指数量级,直接估计是不可行的
条件独立性假设:
朴素贝叶斯法属于生成模型,要注意条件独立性假设的适用性
后验概率:
策略:
后验概率最大化等价于期望风险最小化,可使用0-1损失函数进行验证
朴素贝叶斯法的参数估计
极大似然估计
先验概率的极大似然估计:
条件概率:
这里假设了 x(j) 的取值是离散的,如果是连续变化的特征要如何处理?划分定义域连续变量离散化?
公式推导(截图来源https://www.zhihu.com/question/33959624)
条件概率类比可推
贝叶斯估计
极大似然估计会出现概率值为0的情况,也就是模型认为对应的事件永远不会发生,这是不合理的(过度拟合),采用贝叶斯估计来解决这个问题
条件概率的贝叶斯估计:
这里 Sj 是第j个特征的所有取值可能数
Y
为由输出哑变量构成的列向量,
由概率的性质
对于样本
多项式分布将作为贝叶斯估计中的似然函数
贝叶斯估计中的先验分布选取狄利克雷分布
后验分布
加上拉格朗日乘子, 求极大似然
得到
所以李航老师的《统计学习方法》中所说的拉普拉斯平滑相当于取 αk=2
条件密度的贝叶斯估计同理可推
参考
Machine Learning - A probabilistic perspective, Sections 2.5.4 (pgs 47-49) and 3.4, (pgs 78-82)
《统计学习方法》第四章 朴素贝叶斯法