朴素贝叶斯——Naive Bayes原理

Naive Bayes

简介

朴素贝叶斯分类是一种十分简单的分类算法。

  • 思路

对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,将该待分类项归于概率最大的类别。

  • 步骤
  1. x = { a 1 , a 2 , . . . , a n } x=\{a_1, a_2, ..., a_n\} x={a1,a2,...,an}为一个待分类项, a i a_i ai为x的特征属性。
  2. 类别集合 C = { y 1 , y 2 , . . . , y n } C=\{y_1, y_2, ..., y_n\} C={y1,y2,...,yn}
  3. 计算 P ( y 1 ∣ x ) , P ( y 2 ∣ x ) , . . . , P ( y n ∣ x ) P(y_1|x), P(y_2|x), ..., P(y_n|x) P(y1x),P(y2x),...,P(ynx)
  4. 如果 P ( y k ∣ x ) = m a x { P ( y 1 ∣ x ) , P ( y 2 ∣ x ) , . . . , P ( y n , x ) } P(y_k|x)=max\{P(y_1|x), P(y_2|x), ..., P(y_n, x)\} P(ykx)=max{P(y1x),P(y2x),...,P(yn,x)},则 x ∈ y k x\in y_k xyk
img

基本原理

  • 条件概率

条件概率指事件A在事件B已经发生的条件下发生的概率,直接上公式:

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

  • 贝叶斯定理

贝叶斯定理用于计算后验概率。

先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。

后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。

计算公式:

P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)

  • 步骤详解

在上述给出的步骤中,最关键的是第三步中的计算,即 P ( y k ∣ x ) P(y_k|x) P(ykx)的计算。

首先我们需要统计在不同类别下各个属性的条件概率,即

P ( a 1 ∣ y 1 ) , . . . , P ( a m ∣ y 1 ) , . . . , P ( a m ∣ y n ) P(a_1|y_1), ..., P(a_m|y_1), ..., P(a_m|y_n) P(a1y1),...,P(amy1),...,P(amyn)

由贝叶斯公式我们将待求转换为:

P ( y k ∣ x ) = P ( x ∣ y k ) P ( y k ) P ( x ) = ∣ D y k , x ∣ ∣ D ∣ P(y_k|x)=\frac{P(x|y_k)P(y_k)}{P(x)}=\frac{|D_{y_k,x}|}{|D|} P(ykx)=P(x)P(xyk)P(yk)=DDyk,x

由全概率公式得 P ( x ) P(x) P(x)对于所有的划分都为常数,所以要使 P ( y k ∣ x ) P(y_k|x) P(ykx)最大,只需使 P ( x ∣ y k ) P ( y k ) P(x|y_k)P(y_k) P(xyk)P(yk)最大。同时朴素贝叶斯假设各个属性相互独立,当然这里为了方便计算而牺牲了部分准确率。由此假设,有

P ( x ∣ y i ) P ( y i ) = P ( a 1 ∣ y i ) . . . P ( a m ∣ y i ) P ( y i ) = P ( y i ) ∏ j = 0 m P ( a j ∣ y i ) P(x|y_i)P(y_i)=P(a_1|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod_{j=0}^mP(a_j|y_i) P(xyi)P(yi)=P(a1yi)...P(amyi)P(yi)=P(yi)j=0mP(ajyi)

所以 h ( x ) = a r g m a x y i ∈ y P ( y i ) ∏ j = 0 m P ( a j ∣ y i ) h(x)=argmax_{y_i \in y}P(y_i)\prod_{j=0}^mP(a_j|y_i) h(x)=argmaxyiyP(yi)j=0mP(ajyi)

  • 拉普拉斯修正

当训练样本较少或不充分时,可能出现概率估值为零的情况,引入拉普拉斯修正:

P ( y k ) = ∣ D c ∣ + 1 ∣ D ∣ + N P(y_k)=\frac{|D_c|+1}{|D|+N} P(yk)=D+NDc+1

P ( x i ∣ y k ) = ∣ D c , x i ∣ + 1 ∣ D ∣ + N i P(x_i|y_k)=\frac{|D_{c, x_i}|+1}{|D|+N_i} P(xiyk)=D+NiDc,xi+1

同时,对于引入的修正,随着概率的增大可以忽略不计,从而使估值更接近实际概率值。

reference

朴素贝叶斯分类(Nave Bayes)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值