朴素贝叶斯法

最新推荐文章于 2022-06-07 11:22:15 发布

odd-point

最新推荐文章于 2022-06-07 11:22:15 发布

阅读量498

点赞数

分类专栏：机器学习文章标签：机器学习朴素贝叶斯法

本文链接：https://blog.csdn.net/zyx112334/article/details/52026919

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

朴素贝叶斯基本概念

朴素贝叶斯法基于贝叶斯定理和特征条件独立假设

对于训练数据集合先学习输入和输出的联合概率分布

对于预测输入，根据贝叶斯定理求出后验概率最大的输出y

具体的需要先学习先验概率分布 $P(y=c_k)$ 和条件概率分布 $p(X=x|Y=c_k)$

条件概率分布的参数数量为指数量级，直接估计是不可行的

条件独立性假设：

P (X = x | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

朴素贝叶斯法属于生成模型，要注意条件独立性假设的适用性

后验概率：

P (Y = c k | X = x) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( J ) = x ( j ) | Y = x k )

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k)\prod_jP(X^{(J)}=x^{(j)}|Y=x_k)}$

策略：

y = f (x) = a r g max c k P (Y = c k | X = x)

$y = f(x)=arg\max_{ck}P(Y=c_k|X=x)$

后验概率最大化等价于期望风险最小化，可使用0-1损失函数进行验证

朴素贝叶斯法的参数估计

极大似然估计

先验概率的极大似然估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N

$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}$

条件概率：

P (X (j) = a j i | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j i , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{ji}|Y=c_k)=\frac{\sum_{i=1}^NI(x^{(j)_i}=a_{ji},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$

这里假设了 $x^{(j)}$ 的取值是离散的，如果是连续变化的特征要如何处理？划分定义域连续变量离散化？

公式推导（截图来源https://www.zhihu.com/question/33959624）
这里写图片描述
条件概率类比可推

贝叶斯估计

极大似然估计会出现概率值为0的情况，也就是模型认为对应的事件永远不会发生，这是不合理的（过度拟合），采用贝叶斯估计来解决这个问题

条件概率的贝叶斯估计：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x^{(j)}_i=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$

这里 $S_j$ 是第j个特征的所有取值可能数

$Y$ 为由输出哑变量构成的列向量, $\Theta$ 中元素为Y中对应哑变量为1的概率

P (Y | Θ) = Θ T Y

$P(Y|\Theta)=\Theta^TY$

由概率的性质

\sum Y P (Y | Θ) = \sum k = 1 k θ k = 1

$\sum_YP(Y|\Theta)=\sum_{k=1}^k\theta_k=1$

对于样本

D = {Y 1, Y 2, \dots, Y N}

$D=\{Y_1,Y_2,…,Y_N\}$

P (D | Θ) = \prod n = 1 N Θ T Y n = \prod k = 1 K θ m K k

$P(D|\Theta)=\prod_{n=1}^N\Theta^TY_n=\prod_{k=1}^K\theta_k^{m_K}$ ,

m k

$m_k$ 为对应结果出现次数

M u l t (m 1, m 2, \dots, m K | Θ, N) = (N m 1, m 2, \dots, m K) \prod k = 1 K θ m k k

$Mult(m1,m2,…,mK|\Theta,N)=\begin{pmatrix} N \\ m1,m2,…,mK\end{pmatrix}\prod_{k=1}^K\theta_k^{m_k}$

多项式分布将作为贝叶斯估计中的似然函数

贝叶斯估计中的先验分布选取狄利克雷分布

D i r (Θ | α) = Γ ( α 0 ) Γ ( α 1 ) \dots Γ ( α K ) \prod k = 1 K θ α k - 1 k

$Dir(\Theta|\alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)}\prod_{k=1}^K\theta_k^{\alpha_k-1}$ , 其中

α 0 = \sum k = 1 K α k

$\alpha_0=\sum_{k=1}^K\alpha_k$

后验分布

P (Θ | D, α) = D i r (Θ | α + m) = Γ ( α 0 + N ) Γ ( α 1 + m 1 ) \dots Γ ( α K + m K ) \prod k = 1 K θ α k + m k - 1 k

$P(\Theta|D,\alpha)=Dir(\Theta|\alpha+m) = \frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m1)…\Gamma(\alpha_K+m_K)}\prod_{k=1}^{K}\theta_k^{\alpha_k+m_k-1}$ ,

m = (m 1, m 2, \dots, m K) T

$m=(m_1, m_2, …, m_K)^T$

加上拉格朗日乘子, 求极大似然

l (θ, λ) = \sum k = 1 K m k l o g θ k + \sum k = 1 K (α k - 1) l o g θ k + λ (1 - \sum k = 1 K θ k)

$l(\theta,\lambda)=\sum_{k=1}^Km_klog\theta_k+\sum_{k=1}^K(\alpha_k-1)log\theta_k+\lambda(1-\sum_{k=1}^K\theta_k)$ , 这里略掉了常数项

\partial l \partial λ = 1 - \sum k = 1 K θ k = 0

$\frac{\partial l}{\partial \lambda}=1-\sum_{k=1}^K\theta_k=0$

\partial l \partial θ k = m k + α k - 1 θ k - λ = 0

$\frac{\partial l}{\partial \theta_k}=\frac {m_k+\alpha_k-1}{\theta_k}-\lambda=0$

得到

λ = N + α 0 - K

$\lambda = N+\alpha_0-K$

θ k = m k + α k - 1 N + α 0 - K

$\theta_k=\frac{m_k+\alpha_k-1}{N+\alpha_0-K}$

所以李航老师的《统计学习方法》中所说的拉普拉斯平滑相当于取 $\alpha_k=2$

条件密度的贝叶斯估计同理可推

参考

Machine Learning - A probabilistic perspective, Sections 2.5.4 (pgs 47-49) and 3.4, (pgs 78-82)
《统计学习方法》第四章朴素贝叶斯法

odd-point

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录