全概率公式: 如果事件组B1,B2,… 满足 1.B1,B2…两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,…,且P(Bi)>0,i=1,2,…; 2.B1∪B2∪…=Ω ,则称事件组 B1,B2,…是样本空间Ω的一个划分 设 B1,B2,…是样本空间Ω的一个划分,A为任一事件,则:
P
(
A
)
=
∑
i
=
1
n
P
(
B
i
)
P
(
A
∣
B
i
)
P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)
P(A)=i=1∑nP(Bi)P(A∣Bi)
贝叶斯公式:
P
(
C
∣
W
)
=
P
(
W
∣
C
)
P
(
C
)
P
(
W
)
P(C|W) = \frac{P(W|C)P(C)}{P(W)}
P(C∣W)=P(W)P(W∣C)P(C)
注:w为给定文档的特征值(频数统计等),C为文档类别
公示可以理解为:
P
(
C
∣
F
1
,
F
2...
)
=
P
(
F
1
,
F
2...
∣
C
)
P
(
C
)
P
(
F
1
,
F
2...
)
P(C|F1,F2...)=\frac{P(F1,F2...|C)P(C)}{P(F1,F2...)}
P(C∣F1,F2...)=P(F1,F2...)P(F1,F2...∣C)P(C)
理论推导: 根据贝叶斯定理和朴素(条件独立)的假设可知道:对一个分类问题,给定样本特征x(假设特征向量维度为m),样本属于类别y的概率是 :
p
(
y
∣
x
)
=
p
(
x
∣
y
)
p
(
y
)
p
(
x
)
p(y|x)=\frac{p(x|y)p(y)}{p(x)}
p(y∣x)=p(x)p(x∣y)p(y) 由于条件独立,可根据全概率公示,和条件概率的特性展开得:
p
(
y
=
c
k
∣
x
)
=
∏
i
=
1
m
p
(
x
i
∣
y
=
c
k
)
p
(
y
=
c
k
)
∑
k
p
(
y
=
c
k
)
∏
i
=
1
m
p
(
x
i
∣
y
=
c
k
)
p(y=c_k|x)=\frac{\prod_{i=1}^mp(x^i|y=c_k)p(y=c_k)}{\sum_{k}p(y=c_k)\prod_{i=1}^mp(x^i|y=c_k)}
p(y=ck∣x)=∑kp(y=ck)∏i=1mp(xi∣y=ck)∏i=1mp(xi∣y=ck)p(y=ck) 则朴素贝叶斯分类器可表述为:
f
(
x
)
=
a
r
g
m
a
x
y
k
p
(
y
=
c
k
∣
x
)
=
a
r
g
m
a
x
y
k
∏
i
=
1
m
p
(
x
i
∣
y
=
c
k
)
p
(
y
=
c
k
)
∑
k
p
(
y
=
c
k
)
∏
i
=
1
m
p
(
x
i
∣
y
=
c
k
)
f(x)=argmax_{y_k}p(y=c_k|x)=argmax_{y_k}\frac{\prod_{i=1}^mp(x^i|y=c_k)p(y=c_k)}{\sum_{k}p(y=c_k)\prod_{i=1}^mp(x^i|y=c_k)}
f(x)=argmaxykp(y=ck∣x)=argmaxyk∑kp(y=ck)∏i=1mp(xi∣y=ck)∏i=1mp(xi∣y=ck)p(y=ck) 对于所有的yk,由全加符号知道,分母的值都是一样的。因此朴素贝叶斯分类器最终可表示为:
f
(
x
)
=
a
r
g
m
a
x
y
k
p
(
y
=
c
k
∣
x
)
=
a
r
g
m
a
x
y
k
∏
i
=
1
m
p
(
x
i
∣
y
=
c
k
)
p
(
y
=
c
k
)
f(x)=argmax_{y_k}p(y=c_k|x)=argmax_{y_k}{\prod_{i=1}^mp(x^i|y=c_k)p(y=c_k)}
f(x)=argmaxykp(y=ck∣x)=argmaxyki=1∏mp(xi∣y=ck)p(y=ck)
示例:
如上图,娱乐类计算结果为0,这样肯定是不合适的,因此引出拉普拉斯平滑系数。
拉普拉斯平滑系数:
P
(
F
1
∣
C
)
=
N
i
+
a
N
+
a
m
P(F1|C)=\frac{Ni+a}{N+am}
P(F1∣C)=N+amNi+a