贝叶斯定理-执行数据分析解决肇事逃逸之谜
在这一章中,我们将:
- 应用著名的贝叶斯定理来解决计算机科学中的一个非常著名的问题。
- 向您展示如何使用贝叶斯定理和朴素贝叶斯来绘制数据,从真值表中发现异常值等等
贝叶斯定理概况
当我们使用贝叶斯定理的时候,我们是在测量一件事发生的概论程度:
上式表示在给定事件B的情况下事件A发生的概率。
概率通常被量化为0和1之间的一个数,包括这两者;0表示不可能,1表示绝对肯定。概率越大,确定性越大。掷骰子得到6的概率和掷硬币得到正面的概率这两个例子你们肯定很熟悉。还有另一个你们每天都熟悉和遇到的例子:垃圾邮件。
我们所有人通常一整天都在打开电子邮件(有些人甚至整夜都在打开!)伴随着我们所期待的信息,我们也将迎来那些我们不愿意、也不愿意接收的信息。我们都讨厌处理垃圾邮件。我每天收到的邮件中有一封是垃圾邮件的概率是多少?我关心它的内容的概率是多少?我们是怎么知道的?
让我们来谈谈垃圾邮件过滤器是如何工作的,因为,这可能是我们可以使用的关于概率的最好的例子!
大多数垃圾邮件过滤器的工作方式(至少在最基本的层次上)是定义一个单词列表,用于指示我们不想要或不要求接收的电子邮件。如果邮件中包含这些词,就会被认为是垃圾邮件.
从公式化的角度来看是这样的:
根据给定的一组单词,判断电子邮件是垃圾邮件的概率:维基百科中的用户Qniemiec有一个令人难以置信的可视化图表,该图表充分解释了概率视图的每个组合,该视图由两个事件树的叠加表示。这是一个完整的贝叶斯定理的可视化,它由两个事件树图的叠加表示:
现在,我们来看一个非常著名的问题。它有很多名字,但最基本的问题是所谓的出租车问题。这是我们的场景,我们将尝试用概率和贝叶斯定理来解决。
一名Uber司机卷入了一起肇事逃逸事故。著名的黄色出租车和Uber司机是在这个城市运营的两家公司,随处可见。我们得到以下数据:
- 该市85%的出租车是黄色的,15%是Uber。
- 一名目击者指认了肇事逃逸车辆的身份,并表示车上贴着Uber的贴纸。话虽如此,我们不知道证人的证词有多可靠,因此法院决定对用户进行测试并确定其可靠性。最终,法院得出结论,证人在80%的情况下正确识别了两辆车中的每一辆,但在20%的情况下未能识别。
这是很重要的,所以请注意接下来的内容:
我们的两难境地是:事故中涉及的车辆是Uber司机还是黄色出租车的概率是多少。
从数学上来说,以下就是我们如何得到我们需要的答案的过程:
- 正确识别的Uber司机总数为:
15*0.8=12
- 目击者有20%的时间是错误的,所以错误识别的车辆总数是:
85*0.2=17
- 因此,证人确认的车辆总数为12 + 17