概率导论-基础部分笔记
心得
这部分内容是概率论的基础理论,可视为数学部分。从学到后面的感觉来看,重要的是正确认识这些概率的基本理论。
1.概率模型
概率模型是对不确定现象的数学描述。组成部分:样本空间,概率率。概率有时候像物理。
样本空间
样本空间 Ω \Omega Ω:一个试验的所有可能结果的集合。
注意:例如在掷骰子时,不能把“1或2”和“1或3”同时作为一个试验结果(样本空间的元素)。在确定样本空间的时候,不同的试验结果必须是相互排斥的,即试验过程中只可能产生唯一的一个结果。
序贯模型:方便研究概率问题的模型工具,关系图(它不是一种概率律模型)。
概率律
概率律即概率公理:它给每一个事件 A A A确定一个数 P ( A ) P(A) P(A),满足下面的3条公理:
- 非负性: P ( A ) ≥ 0 P(A) \geq 0 P(A)≥0
- 可加性:设 A 、 B A、B A、B是不相容事件: A ∩ B = ∅ A\cap B=\emptyset A∩B=∅ ,则: P ( A ∩ B ) = P ( A ) + P ( B ) P(A\cap B)=P(A)+P(B) P(A∩B)=P(A)+P(B).结论可以推广到多个事件的情况。
- 归一化: P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1,整个样本空间是必然事件。
疑问:以上三条公理并似乎并不能把“概率”与我们对概率的直观感受联系在一起。例如定义掷均匀硬币,朝上的概率为 1 / 3 1/3 1/3,朝下 2 / 3 2/3 2/3.这个概率率是符合概率公理的,但它不符合现实的规律,问题是数学不需要与现实规律相符合。概率律只需要对概率公理负责,大概这就是概率悖论非常多的原因。
概率率模型-离散模型
设样本空间由有限个可能的结果组成,则使用离散模型构造概率律,另外的一种是连续模型。
由3条公理可以证明一些概率率性质,例如:
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P ( A ∪ B ) = P ( A ∪ ( A c ∩ B ) ) = P ( A ) + P ( A c ∩ B ) P ( B ) = P ( B ∩ A ) + P ( B ∩ A c ) P(A\cup B)=P(A)+P(B)-P(A\cap B)\\ P(A\cup B)=P(A\cup (A^{ c }\cap B))=P(A)+P(A^{ c }\cap B)\\ P(B)=P(B\cap A)+P(B\cap { A }^{ c }) P(A∪B)=P(A)+P(B)−P(A∩B)P(A∪B)=P(A∪(Ac∩B))=P(A)+P(Ac∩B)P(B)=P(B∩A)+P(B∩Ac)
概率分析的步骤:
1.在一个适当的样本空间中给出概率律。要求满足概率的3条公理。因此甚至可以建立明显违反现实直觉的模型,只因该模型便于计算。
2.在概率模型下进行严格的逻辑推导。
对同一个问题,在步骤1选择不同的模型,计算结果可能不同。如贝特朗悖论(样本空间不同)。(我一向不喜欢数学试卷上的文字应用题,歧义不少,语义不明更是常见现象。)
古典概型
设样本空间由 n n n个等可能的试验结果组成,则基本事件A的概率为
P ( A ) = 1 n P(A)=\frac {1}{n} P(A)=n1
这是一种模型,可理解为公理,反正我从数学上讲不出道理。
条件概率
给定事件 B B B已发生的条件下,事件A发生的概率
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac {P(A \cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
注意条件概率 P ( _ ∣ B ) P(\_ |B) P(_∣B)也是一个概率律,事件B即是必然事件或者理解为样本空间。上面这个公式不依赖于概率模型,而是条件概率的定义。如:
P ( A ∪ C ∣ B ) = P ( A ∣ B ) + P ( C ∣ B ) − P ( A ∩ C ∣ B ) P(A\cup C|B)=P(A|B)+P(C|B)-P(A\cap C|B) P(A∪C∣B)=P(A∣B)+P(C∣B)−P(A∩C∣B)
P ( A ∩ B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(A\cap B)=P(A)P(B|A)=P(B)P(A|B) P(A∩B)=P(A)P(B∣A)=P(B)P(A∣B)
经典例子:三门问题。 A A A:第一门有奖品, B B B:第二门有奖品, C C C:第三门有奖品。
假设直接选择第一门(把这当作事实,不属于概率范围),打开一扇无奖品的第二门(把这个当作已知条件,设为事件E)以后:
P ( E ) = P ( E A ) + P ( E B ) + P ( E C ) = 1 / 2 P(E)=P(EA)+P(EB)+P(EC)=1/2 P(E)=P(EA)+P(EB)+P(EC)=1/2
P ( A E ) = 1 / 3 ∗ 1 / 2 = 1 / 6 , P ( B E ) = 0 , P ( C E ) = 1 / 3 P(AE)=1/3*1/2=1/6,P(BE)=0,P(CE)=1/3 P(AE)=1/3∗1/2=1/6,P(BE)=0,P(CE)=1/3
P ( A ∣ E ) = P ( A E ) P ( E ) = 1 / 6 1 / 2 = 1 3 P ( B ∣ E ) = 0 P(A|E)=\frac { P(AE) }{ P(E) } =\frac { 1/6}{ 1/2 } =\frac { 1 }{ 3 } \\ P(B|E)=0 P(A∣E)=P(E)P(AE)=1/21/6=31P(B∣E)=0.
P ( C ∣ E ) = P ( C E ) P ( E ) = 1 / 3 1 / 2 = 2 3 P(C|E)=\frac { P(CE) }{ P(E) } =\frac { 1/3}{ 1/2 } =\frac { 2 }{ 3 } P(C∣E)=P(E)P(CE)=1/21/3=32
所以换一门才是更优的选择。
全概率定理和贝叶斯准则
全概率定理:设 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An是样本空间的一个分割( A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An互不相容且必定有一个发生), P ( A i ) > 0 P(A_i)>0 P(Ai)>0,则:
P ( B ) = P ( A 1 ∩ B ) + P ( A 2 ∩ B ) + . . . + P ( A n ∩ B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + . . . + P ( A n ) P ( B ∣ A n ) P(B)=P(A_{ 1 }\cap B)+P(A_{ 2 }\cap B)+...+P(A_{ n }\cap B)\\ P(B)=P(A_{ 1 })P(B|A_{ 1 })+P(A_{ 2 })P(B|A_{ 2 })+...+P(A_{ n })P(B|A_{ n }) P(B)=P(A1∩B)+P(A2∩B)+...+P(An∩B)P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+...+P(An)P(B∣An)
贝叶斯准则:设 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An是样本空间的一个分割, P ( A i ) > 0 P(A_i)>0 P(Ai)>0,则:
P ( C ∣ B ) = P ( C ∩ B ) P ( B ) = P ( C ) P ( B ∣ C ) P ( B ∩ A 1 ) + P ( B ∩ A 2 ) + . . . + P ( B ∩ A n ) P(C|B)=\frac { P(C \cap B) }{ P(B) } =\frac { P(C)P(B|C) }{ P(B\cap A_{ 1 })+P(B\cap A_{ 2 })+...+P(B\cap A_{ n }) } P(C∣B)=P(B)P(C∩B)=P(B∩A1)+P(B∩A2)+...+P(B∩An)P(C)P(B∣C)
用全概率公式可以证明贝叶斯准则。贝叶斯准则联系了 P ( A ∣ B ) P(A|B) P(A∣B)与 P ( B ∣ A ) P(B|A) P(B∣A).贝叶斯准则可以用来进行因果推理,即知道结果,推测原因。这种概率称为后验概率。计算这种概率应严格采用贝叶斯公式计算,否则极易出错。
经典例子:假阳性问题。对于某种少见疾病(发病率0.001):有病检测结果成阳性的概率为0.95,无病检测结果成阳性的概率是0.05.
现有一结果成阳性的被检人,其患病概率是多少。
A 1 A_1 A1:有病 A 2 A_2 A2:无病。 B B B:检测成阳性。
P ( B ∣ A 1 ) = 0.95 , P ( B ∣ A 2 ) = 0.05 , P ( A 1 ) = 0.001 , P ( A 2 ) = 0.999 , P(B|A_1)=0.95,P(B|A_2)=0.05,P(A_1)=0.001,P(A_2)=0.999, P(B∣A1)=0.95,P(B∣A2)=0.05,P(A1)=0.001,P(A2)=0.999,
P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) = 0.00095 + 0.4995 = 0.0509 P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)=0.00095+0.4995=0.0509 P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)=0.00095+0.4995=0.0509则
P ( A 1 ∣ B ) = P ( A 1 B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) P ( B ) = 0.0187 P(A_{ 1 }|B)=\frac { P(A_{ 1 }B) }{ P(B) } =\frac { P(A_{ 1 })P(B|A_{ 1 }) }{ P(B) } =0.0187 P(A1∣B)=P(B)P(A1B)=P(B)P(A1)P(B∣A1)=0.0187
这说明仪器的检测误差远大于发病率时,仪器的误诊率会相当高。当然这里面还存在一个问题,即被检人不是随意选取的,而是本身就怀疑自己患病的。
独立性
若事件 A , B A,B A,B满足: P ( A B ) = P ( A ∩ B ) = P ( A ) P ( B ) P(AB)=P(A \cap B)=P(A)P(B) P(AB)=P(A∩B)=P(A)P(B),则称事件A,B互相独立。
注意:独立性的定义是从上面概率的关系式出发的。例如在区间[0,1]任选一实数,则事件A={x=0.1},事件B={x<0.5},A与B是相互独立的。
A,B互不相容是从事件本身出发定义的,一定不能同时发生,而独立则不同。事件A发生没有给事件B的概率提供任何信息则独立(即使提供了也不一定不独立)。
若事件A,B满足:
P ( A ∩ B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) P(A\cap B|C)=P(A|C)P(B|C) P(A∩B∣C)=P(A∣C)P(B∣C)
则称A,B在条件C下条件独立。
注意:独立与条件独立不能互相推导出。A,B互相独立不能推出A,B在某条件下是否条件独立,反之亦然。例如:星期二男孩问题。
独 立 < ≠ > 条 件 独 立 独立 <\neq> 条件独立 独立≮=>条件独立
一组事件的独立性:设 A 1 , A 2 , . . . , A n {A_1,A_2,...,A_n} A1,A2,...,An是 n n n个事件的集合,则对其任意子集都有 P ( A i A j . . . ) = P ( A i ) P ( A j ) . . . P(A_iA_j...)=P(A_i)P(A_j)... P(AiAj...)=P(Ai)P(Aj)...,则称这组事件相互独立。
注意:两两独立不能说明相互独立。相互独立需要满足的式子很多很多…
独立试验&二项概率
设试验由一系列独立并且相同的小试验组成,这种试验称为“独立试验序列”。当每个阶段的小试验只有两种结果时,称为独立的伯努利试验序列。
n次试验其中k次成功的概率是
P ( X = k ) = C n k p k ( 1 − p ) n − k = ( n ! ) ( k ! ) ( n − k ) ! p k ( 1 − p ) n − k P(X=k)={ C }_{ n }^{ k }p^{ k }(1-p)^{ n-k }=\frac { (n!) }{ (k!)(n-k)! } p^{ k }(1-p)^{ n-k } P(X=k)=Cnkpk(1−p)n−k=(k!)(n−k)!(n!)pk(1−p)n−k
2.离散随机变量
对于样本空间的一个试验结果,都关联着一个特定的数,这种关联关系就形成随机变量,随机变量是试验结果的实值函数。
随机变量的函数定义另一个随机变量。可以在某条件下定义随机变量。对于随机变量,可以定义均值和方差。
若随机变量的值域为有限集或者可数无限集,则称离散随机变量。本章的随机变量都是指离散随机变量
分布列
离散随机变量有一个分布列,它对于随机变量的每一个值给出一个概率。
伯努利分布列
伯努利随机变量分布列是:
X | 1 | 0 |
---|---|---|
P(X) | p | 1-p |
二项随机变量:n次伯努利试验结果取到1的次数为二项随机变量。X=k的概率是
P ( X = k ) = C n k p k ( 1 − p ) n − k = ( n ! ) ( k ! ) ( n − k ) ! p k ( 1 − p ) n − k P(X=k)={ C }_{ n }^{ k }p^{ k }(1-p)^{ n-k }=\frac { (n!) }{ (k!)(n-k)! } p^{ k }(1-p)^{ n-k } P(X=k)=Cnkpk(1−p)n−k=(k!)(n−k)!(n!)pk(1−p)n−k
几何随机变量:伯努利试验序列,直到试验结果取到1的所需的次数。
P ( X = k ) = ( 1 − p ) k − 1 p k P(X=k)=(1-p)^{k-1}p^k P(X=k)=(1−p)k−1pk
泊松随机变量:设随机变量的分布由下式给出:
P ( X = k ) = e − λ λ k k ! P(X=k)={ e }^{ -\lambda }\frac { { \lambda }^{ k } }{ k! } P(X=k)=e−λk!λk
k = 0 , 1 , 2 , . . . k=0,1,2,... k=0,1,2,...
利用泊松分布可以逼近二项分布, λ ≈ n p \lambda \approx np λ≈np(n很大,p很小时).
随机变量的函数
设 Y = g ( X ) Y=g(X) Y=g(