NLP --- 贝叶斯公式推导
贝叶斯原理
贝叶斯公式是通过结果推到原因,就是使用条件概率来解决逆问题。简单来讲,逆问题是指那些从结果反推原因的问题。通常原因X无法被直接观察、测量,此时我们常会通过其结果Y来反推原因X
简单来讲可以总结为一下种类问题
- 已知所有的P(原因) 与 P(结果 | 原因) 一览
- 求P(原因 | 结果)
贝叶斯做图法
游戏背景
- 在角色扮演游戏中,玩家只需要打到怪物就能获得宝箱。宝箱有 2/3 的概率有陷阱。玩家虽然可以通过使用魔法来检测陷阱,但是这种判断办法并不完美,有 1/4 的错误概率
- 假设玩家打到了怪物,获得了宝箱,并通过魔法判定该宝箱没有陷阱。以此为前提,求“ 宝箱有陷阱 ”的概率
我们假设以随机变量X表示宝箱有陷阱的概率,以随机变量Y表示魔法判定结果,该问题可以通过一下方式表述
- P(X = 有陷阱) = 2 3 \frac{2}{3} 32
- P(Y = 没有发现 | X = 有陷阱) = 1 4 \frac{1}{4} 41
- P(Y = 发现了 | X = 没有陷阱) = 1 4 \frac{1}{4} 41
- 求 P(X = 有陷阱 | Y = 没有发现 )
- 我们通过贝叶斯作图发来解释该问题
1.整体面积
2.其中 2/3 的区域表示 X=有陷阱,剩余 1/3 区域表示 X=没有陷阱
3.在表示 X=有陷阱的区域内,1/4表示 Y=没有发现,这部分区域占整体面积的
2
3
∗
1
4
=
1
6
\frac{2}{3} * \frac{1}{4} = \frac{1}{6}
32∗41=61
4.类似地,在表示 X=没有陷阱的区域中,3/4 的区域表示 Y=没有发现,这部分区域占整体面积的
1
3
∗
3
4
=
1
4
\frac{1}{3} * \frac{3}{4} = \frac{1}{4}
31∗43=41
5.综上,Y=没有发现 的区域占整体面积的
1
6
+
1
4
=
5
12
\frac{1}{6} + \frac{1}{4} = \frac{5}{12}
61+41=125
6.其中在 Y=没有发现 边缘分布中 X=有陷阱的比例为
1
/
6
5
/
12
=
2
5
=
0.4
\frac{1/6}{5/12} = \frac{2}{5} = 0.4
5/121/6=52=0.4
贝叶斯公式
我们假设 X 为原因, Y 为结果
- X 的取值为 a ,b , c
- Y 的取值为 y
已知
- P(X = a) ------ 原因为a的概率
- P(Y = y | X = a) ------在原因为 a 的前提下,结果为y的条件概率
需要求的条件概率:
- P(X = a | Y = y)------在结果为y的前提下,原因为a的条件概率
P(X = a | Y = y)
= P ( X = a , Y = y ) P ( Y = y ) \frac{P(X = a , Y = y) }{P( Y = y) } P(Y=y)P(X=a,Y=y) ----------------------------- 由定理得到
= P ( X = a , Y = y ) P ( X = a ‾ , Y = y ) + P ( X = b ‾ , Y = y ) + P ( X = c ‾ , Y = y ) \frac{P(X = a , Y = y) }{P( \underline{X = a}, Y = y) + P( \underline{X = b}, Y = y) + P( \underline{X = c}, Y = y) } P(X=a,Y=y)+P(X=b,Y=y)+P(X=c,Y=y)P(X=a,Y=y) --------------根据边缘分布展开分母
= P ( Y = y ∣ X = a ) ( P ( X = a ) ) P ( Y = y ∣ X = a ) ( P ( X = a ) ) + P ( Y = y ∣ X = b ) ( P ( X = b ) ) + P ( Y = y ∣ X = c ) ( P ( X = c ) ) \frac{P( Y = y | X = a )(P(X = a)) }{ P( Y = y | X = a )(P(X = a)) + P( Y = y | X = b )(P(X = b)) + P( Y = y | X = c )(P(X = c))} P(Y=y∣X=a)(P(X=a))+P(Y=y∣X=b)(P(X=b))+P(Y=y∣X=c)(P(X=c))P(Y=y∣X=a)(P(X=a)) --------------通过条件概率表述联合概率
朴素贝叶斯
朴素贝叶斯中的“朴素”一词实际上是指,算法在进行预测时使用的特征相互之间是独立的,但实际上并非始终这样。在我们的糖尿病示例中,我们只考虑了一个特征,即测试结果。假设我们添加了另一个特征“锻炼”。假设此特征具有二元值 0 和 1,0 表示某人一周的锻炼时间不超过 2 天,1 表示某人一周的锻炼时间超过 2 天。如果我们要同时使用这两个特征(即测试结果和“锻炼”特征的值)计算最终概率,贝叶斯定理将不可行。朴素贝叶斯是贝叶斯定理的一种延伸,假设所有特征相互之间是独立的。