深入浅入数据分析 - 贝叶斯统计

6 贝叶斯统计 – 穿越第一关

开篇讲到:学会证伪法处理异质数据源不在话下;可要是碰到直接概率问题就要用到一个极其方便的分析工具贝叶斯规则,这个规则能帮助你利用基础概率和波动数据做到明察秋毫。

6.1 案例

小明得病了,医生给了一份蜥蜴流感诊断书,此病虽不致命,但治疗极其麻烦,需要歇业、隔离好几个星期;由于小明对数据分析得心应手,要自己了解试验结果的准确性。

答:要弄清楚某人患蜥蜴流感的概率,其根本在于了解假阳性、真阳性、假阴性、真阴性的实际人数。

6.2 条件概率

6.2.1 基本概念

6.2.1.1 条件概率

条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:PA|B),读作“AB发生的条件下发生的概率。若只有两个事件AB,那么,

6.2.1.2 概率测度

如果事件 B 的概率 P(B) > 0,那么 Q(A) = P(A | B) 在所有事件 A 上所定义的函数 Q 就是概率测度。 如果 P(B) = 0P(A | B) 没有定义。 条件概率可以用决策树进行计算。

6.2.1.3 联合概率

表示两个事件共同发生的概率。AB的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)

6.2.1.4 边缘概率

边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A)B的边缘概率表示为P(B)

 

需要注意的是,在这些定义中AB之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。

条件概率公式:

6.2.2 基本定理

6.2.2.1 定理1

AB 是两个事件,且A不是不可能事件,则称 为在事件A发生的条件下,事件B发生的条件概率。一般地,P(B|A)≠ P(B),且它满足以下三条件:

1)非负性;(2)规范性;(3)可列可加性。

6.2.2.2 定理2

E 为随机试验,Ω 为样本空间,AB 为任意两个事件,设P(A)>0,称为在“事件A 发生的条件下事件B 的条件概率。

上述乘法公式可推广到任意有穷多个事件时的情况。设A1A2…An为任意n 个事件(n≥2)且P(A1A2…An)>0,则P(A1A2…An)=P(A1)P(A2| A1)…P(An| A1A2…An-1)

6.2.2.3 定理3(全概率公式)

定义:(完备事件组/样本空间的划分)

B1B2…Bn是一组事件,

1ij1,2,…,nBinBj =∅

2B1B2Bn=Ω

则称B1B2…Bn样本空间Ω的一个划分,或称为样本空间Ω 的一个完备事件组。

定理(全概率公式):

设事件组{Bi}是样本空间Ω 的一个划分,且PBi>0i=12…n)则对任一事件B,有P(A)=i=1nP(Bi)P(A|Bi)

6.2.2.4 定理4(贝叶斯公式)

B1B2…Bn…是一完备事件组,则对任一事件APA>0,有P(Bi|A) = P(ABi)/P(A) = PBiP(A|Bi)iPBiP(A|Bi)

6.2.3 统计独立性

当且仅当两个随机事件AB满足P(A∩B)=P(A)P(B)的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。

同样,对于两个独立事件ABP(A|B)=P(A)以及P(B|A)=P(B)

换句话说,如果AB是相互独立的,那么AB这个前提下的条件概率就是A自身的概率;同样,BA的前提下的条件概率就是B自身的概率。

6.2.4 统计互斥性

当且仅当AB满足P(A∩B)=0P(A)≠0P(B)≠0的时候,AB是互斥的。

因此,P(A|B)=0P(B|A)=0

换句话说,如果B已经发生,由于A不能和B在同一场合下发生,那么A发生的概率为零;同样,如果A已经发生,那么B发生的概率为零。

6.2.5 案例

根据某地区调查资料,1990年城市职工和农民家庭中人均收入划分的户数如下:

户数

600元以下

600元以上

总计

城市员工

8

221

229

农民

413

358

771

总计

421

579

1000

现从被调查的家庭中任取一户,已知其人均年收入在600元以下,试问这里一个农民家庭的概率是多少?

记“抽得农民家庭”为事件A,“人均收入均低于600元”为事件B。由所给数据,可知:P(B) = 421/1000 = 0.421,而同时属于“家庭农民”和“人均收入低于600元”的有413户,即有P(AB) = 413/1000 = 0.413,因此所求概率为:P(A|B) = P(AB) / P(B) = 0.413 / 0.421 = 0.981,这一结果告诉我们,在这一生活水平之下的居民户中大约有98.1%是农民家庭。

6.3 事前概率(古典概率classical probability)

古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。

6.3.1 概述

概率依其计算方法不同,可分为古典概率、试验概率和主观概率。

人们最早研究概率是从掷硬币、掷骰子和摸球等游戏和赌博中开始的。这类游戏有两个共同特点:一是试验的样本空间(某一试验全部可能结果的各元素组成的集合)有限,如掷硬币有正反两种结果,掷骰子有6种结果等;二是试验中每个结果出现的可能性相同,如硬币和骰子是均匀的前提下,掷硬币出现正反的可能性各为1/2,掷骰子出出各种点数的可能性各为1/6,具有这两个特点的随机试验称为古典概型或等可能概型。计算古典概型概率的方法称为概率的古典定义或古典概率。

6.3.2 定义

关于古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。例如,抛掷一枚平正的硬币,正面朝上与反面朝上是唯一可能出现的两个基本事件,且互不相容。如果我们把出现正面的事件记为E,出现事件E的概率记为p(E),:P(E)=1/(1+1)=1/2

一般说来,如果在全部可能出现的基本事件范围内构成事件A的基本事件有a,不构成事件A的事件有b,则出现事件A的概率为:P(A)=a/(a+b)

6.3.3 基本特征

1、可知性,可由演绎或外推法得知随机事件所有可能发生的结果及其发生的次数。

2、无需试验,即不必做统计试验即可计算各种可能发生结果概率。

3、准确性,即按古典概率方法计算的概率是没有误差的。

4,有限性。

5,等可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值