朴素贝叶斯
- 朴素贝叶斯假设所有变量都是独立的
[!IMPORTANT]
贝叶斯公式:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
拓展后
p
(
C
∣
F
1
,
…
,
F
n
)
=
p
(
C
)
p
(
F
1
,
…
,
F
n
∣
C
)
p
(
F
1
,
…
,
F
n
)
p(C|F_1,\ldots,F_n)=\frac{p(C) p(F_1,\ldots,F_n|C)}{p(F_1,\ldots,F_n)}
p(C∣F1,…,Fn)=p(F1,…,Fn)p(C)p(F1,…,Fn∣C)
- C C C为独立类别变量,有若干类别
- $F_1 \cdots F_n 为条件变量, 为条件变量, 为条件变量,C 条件依赖于 条件依赖于 条件依赖于F$
因为变量独立,
p
(
F
1
,
…
,
F
n
∣
C
)
=
∏
i
=
1
n
p
(
F
i
∣
C
)
p(F_1,\ldots,F_n|C)= \prod_{i=1}^np(F_i|C)
p(F1,…,Fn∣C)=∏i=1np(Fi∣C)
KaTeX parse error: Expected 'EOF', got '&' at position 21: …F_1,\ldots,F_n)&̲=&\frac{p(C)\pr…
得到
C
C
C不同类别对于给定条件时的概率,有分类器
classify
(
f
1
,
…
,
f
n
)
=
argmax
c
p
(
C
=
c
)
∏
i
=
1
n
p
(
F
i
=
f
i
∣
C
=
c
)
\operatorname{classify}(f_1,\ldots,f_n)=\underset{c}{\operatorname{argmax}}p(C=c)\prod_{i=1}^np(F_i=f_i|C=c)
classify(f1,…,fn)=cargmaxp(C=c)i=1∏np(Fi=fi∣C=c)
- 贝叶斯拓展:高斯朴素贝叶斯,当样本较少,不适合细分类别,可以使用均值方差来代替原始数据
案例(文本分类)
-
需要将文本分为两类,喜欢(like)和不喜欢(dislike)
-
先拆分文本,计算每个单词出现时对应类别的概率
P ( w i ∣ h j ) = ( n j i + 1 ) / ( n j + ∣ V o c u b u l a r y ∣ ) P{\left(w_i|h_j\right)}=\left(n_j^i+1\right)/{\left(n_j+\left|Vocubulary\right|\right)} P(wi∣hj)=(nji+1)/(nj+∣Vocubulary∣)- w i w_i wi为类别(like&dislike)
- h j h_j hj为单词
- n j i n^i_j nji为单词 j j j对应的类别 i i i出现的次数
- n j n_j nj为单词 j j j出现的总次数
- V o c u b u l a r y Vocubulary Vocubulary为总词数
-
取最大概率
h N B = arg max h j ∈ { l i k e , d i s l i k e } P ( h j ) ∏ i = 1 n P ( w i ∣ h j ) h_{NB}=\arg\max_{h_j\in\{like,dislike\}}P(h_j)\prod_{i=1}^{n}P(w_i|h_j) hNB=arghj∈{like,dislike}maxP(hj)i=1∏nP(wi∣hj)