目录
先把贝叶斯公式放在这
P ( ω i ∣ x ) = P ( x ∣ ω i ) P ( ω i ) P ( x ) P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)} P(ωi∣x)=P(x)P(x∣ωi)P(ωi)
关于贝叶斯定理的讲解,强烈推荐看3Blue1Brown的视频,B站就有。
核心思想就一句话:证据不应直接决定看法,而是更新看法
Symbol(符号含义)
-
类别 ω \omega ω
ω i , i = 1 , 2 , 3 , . . . , c \omega_i, \ i=1,2,3,...,c ωi, i=1,2,3,...,c
-
先验概率 P ( ω i ) P(\omega_i) P(ωi)
先验概率和为1 Σ i = 1 c P ( ω i ) = 1 \Sigma_{i=1}^cP(\omega_i)=1 Σi=1cP(ωi)=1
-
后验概率 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x)
-
似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
-
样本 x x x(向量)
实际上是选取某些特征来表示样本
Before Observation(无观测样本)
只知先验 P ( ω i ) P(\omega_i) P(ωi),没有似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)。
那很简单,给定一个新的样本 x x x,最优的分类方法就是把它分为先验最大的那一类。
After Observation(有观测样本)
有了观测样本,那么就能用一些方法估计每个类 ω i \omega_i ωi取到 x x x的概率(离散情况下。连续情况就估计类条件概率密度函数),似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
类 条 件 概 率 密 度 函 数 p ( x ∣ ω i ) 类条件概率密度函数p(x|\omega_i) 类条件概率密度函数p(x∣ωi)
我们可以将似然理解为,从样本中学到的新的知识。我们应该拿它去更新旧的知识——先验(将二者相乘)。
有先验,有似然,利用全概率公式,可以求证据因子
P ( x ) = Σ i = 1 c P ( x ∣ ω i ) P ( ω i ) P(x)=\Sigma_{i=1}^cP(x|\omega_i)P(\omega_i) P(x)=Σi=1cP(x∣ωi)P(ωi)
实际上贝叶斯公式,先验×似然之后为什么要除以这个证据因子,可以理解为将后验约束在到[0,1]的范围内
利用贝叶斯公式求出后验 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x),取后验最大的 ω i \omega_i ωi为样本 x x x的类别
Two Special Case
1.等先验
P ( ω 1 ) = P ( ω 2 ) = ⋯ = P ( ω c ) = 1 c P(\omega_1)=P(\omega_2)=\cdots=P(\omega_c)=\frac{1}{c} P(ω1)=P(ω2)=⋯=P(ωc)=c1
这种情况下,先验对于分类结果就没有影响。分类结果由似然决定。
2.等似然
P ( x ∣ ω 1 ) = P ( x ∣ ω 2 ) = ⋯ = P ( x ∣ ω c ) P(x|\omega_1)=P(x|\omega_2)=\cdots=P(x|\omega_c) P(x∣ω1)=P(x∣ω2)=⋯=P(x∣ωc)
这种情况下,似然对于分类结果就没有影响。分类结果由先验决定。
Is Bayes Decision Rule Optimal?
(这里学的挺糊涂的。。。)
以二分类情况为例
P ( ω i ∣ x ) > P ( ω j ∣ x ) , D e c i d e : ω i ; O t h e r w i s e : ω j P(\omega_i|x)>P(\omega_j|x),\ Decide:\omega_i;\ Otherwise:\omega_j P(ωi∣x)>P(ωj∣x), Decide:ωi; Otherwise:ωj
对于任意观测样本 x x x,对 x x