前言:通过题目去理解概率知识
刷题的意义
- 虽然说刷题不好,但是不会做题肯定也不对
- 理论学了一箩筐,但是不会做题,说明不会应用模型,对模型的条件,应用环境,背后的逻辑理解的不深
刷题的局限性
- 不要记这个梳理的题目的答案,不要记!
- 要理解
- 这个记录只是备忘录,不是答案!
- 如果忘了,回来再根据这个记录,快速梳理下思维就可以
方法论的问题
- 其实,先把题目分析清楚是关键
- 先看明白题目,弄清楚属于的分布才能正确解概率题
- 初学者的想当然错误,本质是
- 没理解题目(不是简单的没看懂题目文本),而是没有建立题目的正确数学思维模型
- 没理解好各种概率模型的优缺点,适用范围,特点
- 下面我试图归类分析下典型的两种概率题目
- 先把题目归类,再归类解决办法梳理
1 丢骰子问题
1.1 什么是骰子?
- 多面骰子其实就是多面体,一般是那种对称标准多面体
- 比如,4面骰子就是一个金字塔形的4面体,8面骰子就是2个金字塔型的8面体(DND跑团游戏常用)
- 最常见的就是正方体,也被称为特殊的正六面体(长方体)
- 一般的骰子是6面骰
1.2 什么是骰子问题?
1.2.1 一般的骰子是6面骰,骰子用于赌博里的随机
- 骰子是6个面,永远6个面,随机数只能是{1,2,3,4,5,6} 没其他可能
- 每个面标记的点数都不同,也就是这6个面都是不一样的数,标记完全不同!
- 而且这6个面是等概率的 (假设了骰子模型本身的均匀性质)
- 重复进行骰子试验,等同于放回的抽样试验。(除非骰子的面能被涂改)
1.2.2 骰子问题的精简
- N个不同的东西随机(每一个东西都不同)
- 而且随机概率全部相同
- 如果非要把丢骰子转化为抽球问题,那就是骰子表示一把抓了6个不同颜色的球!
- (这6个球显著的能区分,要么6种颜色,6个数字,或明显6个大小等等)
1.2.3 骰子问题适合的求解
- 一定是放回的抽样,因为无论多少次试验:骰子永远6个面不变,每次重新试验都相当于放回了。
- 因为骰子的每个面是不同的东西,概率相等
- 天生的符合“等概率模型”,适合用古典概型求解
- 古典概型的思路
- 适合用排列组合去算事件的数量,然后算概率
- 具体步骤:
- 先定义目标事件
- 计算样本事件总数
- 计算目标事件总数
- 从而得到概率 p= 目标事件总数 / 样本事件总数
2 抽球问题
2.1 什么是抽球问题
2.1.1 典型的抽球问题
- 球大家都知道,但是抽球问题呢?
- 这些球肯定不是完全一样的,如果都一样,抽出来怎么分辨?那还抽个啥?
- 这些球一般也不会每个都不同,如果每个都不同,那就是骰子问题了,更适合古典概型。
- 比较典型常见的其实是2种或者多种颜色的球混合后进行抽取
- 复杂的还有2个或多个容器里抽取多种颜色的球。
2.1.2 抽球问题的精简(抽象出来就是黑盒抽奖)
- N个数量的球(一般总数比较少,有限个少量的球)
- 球可以分为几类,一般是2类,比如黑球/白球,或者铜球/铁球之类把
- (为啥很少见分为大球/小球的题目?可能是因为大球小球摸起来容易区分把 ^ ^)
- 抽球问题,特殊在于,基础的事件,每个球可以摸到概率相同。
- 如果是在袋子里一堆大小不同的石头里抽奖也可以看做是抽球问题,就假设人无法看见袋子内部的情况,也不能拿手摸,只能随机点1个
- 抽象出来,就是黑盒抽奖!
- 不那么重要的区别
- 这2类/或几类的球 一般概率不相等,也可以相等, 不重要
- 一般抽多个球意味着不放回
- 也抽球可以是故意放回 (和骰子问题必须是放回的不一样)
- 如果是不放回的抽球(比如抽2个球必然是不放回),肯定会影响 小样本的样本总量!这样下一次试验和上一次试验总量变化了,概率也变化了,就不是N重伯努利试验了!
- 如果是放回抽样的抽球,可以认为是N重伯努利试验
2.1.3 抽球问题的求解
- 如果是放回抽样,可以用二项分布来求解,也可以用古典概型。
- 如果是不放回抽样,因为不是伯努利试验了,绝对不能用二项分布来求解,可以用古典概型,或超几何概型(超几何概型适合不放回抽样)来求解
- 如果是不放回抽样,但是样本量特别大,比如几千几万里抽几个特别的球,可以近似认为是放回抽样,可以用二项分布求解近似,差别不会很大。
2.1.4 注意点抽样问题的扩展
- 如果抽球问题,真的样本数超级大,我觉得那就是大样本的抽样调查了
- 就不是非典型的抽球问题了
- 如果是数量较多的球,比如比抽样的数量多100倍或更多可能可以近似算无穷把 ~ ~
- 但是不能是无限个球吧
- 因为如是无限个球,某个特殊的球概率p趋近于0
4 例题
4.1 例题1:从10个(不同的)球里,任选1个球的概率是多少?
等同例题1:丢1个10面骰子,丢到1的概率是?
分析题目:要从10个球里任选1个球,意味着这些球必然是有分别的,不然拿到任一个怎么知道是哪个?是可以区分第1个,第2个.....的
4.1.1 古典概型的思路(正确)
- 古典等概率模型,每个球的抽取概率相同
- 从10个球里选1个球,分别是ABC....J,求选到A球的概率
- 计算方法:确定目标事件,算组合,再算概率
- 目标事件:抽到特定的1个球
- 目标事件数量:比如是A球,抽到A球C(1,1)
- 样本组合数量:任意抽一球 C(10,1)
- 算概率,概率p(x=A) =C(1,1)/C(10,1)=1/10
4.1.2二项分布的思路(正确)
(只试验1次,试验样本空间可以划分为2种结果,可用二项分布)
- 特定球A,其他另外9个球都是非A,因此可以视为二项分布
- p(x=a) =1/10
- 试验次数 n=1
- 二次分布 p(x=a) =C(1,1)*(0.1)^1*(1-0.1)^0 =1*0.1*1=0.1
4.2 例题2:从10个(不同的)球里任选2个球,概率是多少?
相似,但不等同例题2:不能等同,因为骰子每次都是放回抽样,这2个例题会有差别
丢1个10面骰子,丢2次且2次都随到1的概率是? (也可以是2次随任意2个数字)
4.2.1 古典概型的思路(正确)
- 古典等概率模型,每个球的抽取概率相同
- 计算方法:确定目标事件,算组合,再算概率
- 目标事件:第1次抽1个球,第2次剩下的球里抽1个球
- 目标事件,第1次抽到第特定球A,C(1,1) ,因为就1个,随意抽C(10,1)
- 目标事件,第1次抽到第特定球B,C(1,1) ,因为就1个,随意抽C(9,1)
- 算概率,概率p(x=A) =C(1,1)/C(10,1) *C(1,1)/C(9,1)=1/10*1/9=1/90
4.2.2 二项分布的思路(错误,算不了)
- 第1次试验是10选1
- 第2次试验是9选1
- 不是N重伯努利试验,因为伯努利试验要求,每次试验中,相同事件发生的概率均一样,而这个试验力,第1次和第2次试验,要抽到白球这个事件发生概率明显不同,所以不是伯努利试验,也不能再用二项分布
4.2.3 超几何分布的思路(错误,算不了)
- 虽然这里是不放回抽样
- 超几何分布要求,只有2种划分分类结果
- 这里也算不了
4.3 例题3:丢1个10面骰子,丢2次且2次都随到1的概率是?
(也可以是2次{1~10}内随任意2个数字)
例题3是与例题2的相似但不同的题,因为骰子是必放回试验!
4.3.1 古典概型的思路(正确)
- 古典等概率模型,每个球的抽取概率相同
- 计算方法:确定目标事件,算组合,再算概率
- 目标事件:第1次抽1个10面骰子,第2次还是丢一个完整的10面骰子
- 目标事件,第1次抽到第特定数字1(也可以是2~10),C(1,1) ,因为就1个1,随意抽C(10,1)
- 目标事件,第1次抽到第特定数字1(也可以是2~10),C(1,1) ,因为就1个1,随意抽C(10,1)
- 算概率,概率p(x=A) =C(1,1)/C(10,1) *C(1,1)/C(10,1)=1/10*1/10=1/100
4.3.2 二项分布的思路(正确)
- 第1次试验是10选1,1是A,其他都是非A
- 第2次试验是10选1,和第一次试验独立且相同,1是A,其他都是非A
- 用二项分布
- p(x=a) =C(2,2)*(1/10)^2(1-1/10)^0=1*1/100=1/100
4.3.3 超几何分布的思路(错误,算不了)
- 这里是放回抽样
- 不适合超几何分布
4.4 例题4:10个球里1白9黑,从10个球里选2个球,这2个里面包含1个白球的概率是多少?
4.4.1 古典概型的思路(正确)
- 古典等概率模型,每个球的抽取概率相同
- 计算方法:确定目标事件,算组合,再算概率
- 目标事件:抽2个球,但是里面到特定的1个白球
- 目标事件数:其中1次抽到A球的事件数量 C(1,1) ,另外1次任意抽一球 C(9,1)
- 题目里只要求1个白球,不关心白球第几个抽出来,如果关心则需要用排列
- 样本空间,基本抽样的事件数, C(10,2)
- 算概率,概率p(x=A) =C(1,1)*C(9,1)/C(10,2)=1*9/(10*9/2)=2*9/10*9=1/5
- 古典概型容易错的地方,要关注每次抽样后,样本总量的变化,第2次是C(9,1),而不是C(10,1) ,因为这是不放回抽样。
4.4.2 古典概型的思路(正确)
- 拆开算
- 目标事件:抽2个球,但是里面到特定的1个白球
- 第1次抽到白球,第2次抽到黑球,C(1,1)/ C(10,1) *C(9,1) /C(9,1)
- 第1次抽到黑球,第2次抽到白球,C(9,1)/ C(10,1) *C(1,1) /C(9,1)
- 算概率,概率p(x=A) =1/10*1+ 9/10*1/9= 1/10+1/10=1/5
4.4.3 二项分布的思路(错误,算不了)
- 第1次试验是10选1
- 第2次试验是9选1
- 白球只有1个
- 不是N重伯努利试验,因为伯努利试验要求,每次试验中,相同事件发生的概率均一样,而这个试验力,第1次和第2次试验,要抽到白球这个事件发生概率明显不同,所以不是伯努利试验,也不能再用二项分布
4.4.4 超几何分布(正确)
- 抽样次数 2次
- 要抽到1个白球
- p(x=a) = C(1,1) * C(9,1) /C(10,2) =1*9/(10*9/2) =2/10=1/5
如果要求抽2次,要求第2个是白球呢?
4.5 例题5:10个球里1白9黑,从10个球里选2个球,这2个里面第2个是白球的概率是多少?
这里的特点,就是考虑了排序,白球只能是第2个!!
4.5.1 古典概型的思路(正确)
- 拆开算
- 目标事件:抽2个球,但是里面到特定的1个白球
- 只有1种情况
- 第1次抽到黑球,第2次抽到白球,C(9,1)/ C(10,1) *C(1,1) /C(9,1)
- 算概率,概率p(x=A) = 9/10*1/9= 1/10=1/10
4.5.2 二项分布的思路(错误,算不了)
- 第1次试验是10选1
- 第2次试验是9选1
- 白球只有1个
- 不是N重伯努利试验,因为伯努利试验要求,每次试验中,相同事件发生的概率均一样,而这个试验力,第1次和第2次试验,要抽到白球这个事件发生概率明显不同,所以不是伯努利试验,也不能再用二项分布
4.5.3 超几何分布(错误)
超几何分布是不放回抽样,但不能支持排序,最多手动修正
- 抽样次数 2次
- 要抽到1个白球
- p(x=a) = C(1,1) * C(9,1) /C(10,2) =1*9/(10*9/2) =2/10=1/5
- 人工识别,超几何分布算的结果包括有2个情况
- 这2个情况概率相等
- 就是包含,第1个是白球,和第2个是白球的情况
- 人工手动处理数据
- p(x=a) = 1/5 /2=1/10
4.6 例题6:10个球里2白8黑,从10个球里选2个球,这2个里面包含1个白球的概率是多少?
4.6.1 古典概型的思路(正确)
- 古典等概率模型,每个球的抽取概率相同
- 计算方法:确定目标事件,算组合,再算概率
- 目标事件:抽2个球,但是里面到特定的1个白球
- 目标事件数:其中1次抽到A球的事件数量 C(2,1) ,另外1次任意抽一球 C(8,1)
- 题目里只要求1个白球,不关心白球第几个抽出来,如果关心则需要用排列
- 样本空间,基本抽样的事件数, C(10,2)
- 算概率,概率p(x=A) =C(2,1)*C(8,1)/C(10,2)=2*8/(10*9/2)=4*8/10*9=16/45
- 古典概型容易错的地方,要关注每次抽样后,样本总量的变化,第2次是C(9,1),而不是C(10,1) ,因为这是不放回抽样。
4.6.2 古典概型的思路(正确)
- 拆开算
- 目标事件:抽2个球,但是里面到特定的1个白球
- 有2个白球
- 这里要小心,因为有2个白球,所以算黑球,需要先排除2个白球,只从8个黑球选
- 第1次抽到白球,第2次抽到黑球,C(2,1)/ C(10,1) *C(8,1) /C(9,1)
- 第1次抽到黑球,第2次抽到白球,C(8,1)/ C(10,1) *C(2,1) /C(9,1)
- 算概率,概率p(x=A) =2/10*8/9 + 8/10*2/9 = 16/90+16/90=16/45
- 下面是错误写法
- 第1次抽到白球,第2次抽到黑球,C(2,1)/ C(10,1) *C(9,1) /C(9,1) 这黑球不能是C(9,1)错了
- 第1次抽到黑球,第2次抽到白球,C(9,1)/ C(10,1) *C(2,1) /C(9,1)
4.6.3 二项分布的思路(错误,算不了)
- 因为是不放回抽样
- 第1次试验是10选1
- 第2次试验是9选1
- 白球有2个
- 不是N重伯努利试验,因为伯努利试验要求,每次试验中,相同事件发生的概率均一样,而这个试验力,第1次和第2次试验,要抽到白球这个事件发生概率明显不同,所以不是伯努利试验,也不能再用二项分布
4.6.4 超几何分布(正确)
- 抽样次数 2次
- 要抽到1个白球
- p(x=a) = C(2,1) * C(8,1) /C(10,2) =2*8/(10*9/2) =4*8/10*9=16/45
5 两种问题的适用解题方法
- 丢骰子更适合等概率模型(古典概型),也肯定是放回抽样
- 小样本,抽球如果放回,可以视为多次伯努利试验,适合二项分布
- 小样本,抽球如果不放回,一般需要用超几何分布,也可以用古典概型解决。
- 超大样本,抽球即使不放回抽样也可以近似为二项分布
6 多种概率模型的异同比较
6.1 古典概型
6.1.1 优势
- 古典概型,有点万金油?
- 看起来很笨,但是实际上还挺灵活的
- 古典分布,可以认为是穷举法--但是因为排列组合引入,其实穷举范围很广
- 要求知道样本空间数量,但是样本空间可以变化
- 是一种总体视角
- 也就是适用放回抽样和不放回抽样(不放回抽样,每2次试验样本总量肯定变化了!不是伯努利试验,也就是不放回抽样肯定不能是伯努利分布)
6.1.2 局限性
- 用不了的情况
- 如果不能抽象为等概率,也用不了
- 如果没有总体样本数,确实就难用了吧?
6.1.3 关于古典概型使用注意点
- 可以灵活认识的地方:
- 古典概型,可以适合放回抽样,也适合不放回抽样
- 唯一要求的就是等概率。
- 但是只要随机试验的基础是可以划分为等概率就可以,比如10个球,2白8黑,虽然白黑概率不相等,但是10个球本身概率是相等的。
- 需要严格认识的地方:
- 古典概型,一般是通过计算事件总数,p= 目标事件总数/ 样本空间事件总数
- 唯二的注意点:如果是多次随机试验,古典概型需要单次计算每次的概率,然后乘法原则*连起来。~ ~
- 比如10个球,2个白球,8个黑球,求抽2次2次都是白球的概率
- 虽然白球和黑球,2者概率不同,但是基础的球是等概率的。所以可以用古典概型来计算,p(x=2) =C(2,1)/C(10,1) * C(1,1)/C(9,1)=2/10*1/9=1/45
- 这个计算结果和超几何分布的计算是一样的。
- p(x=2) =C(2,2)*C(8,0)/C(10,2)=1*1/(10*9/2)=2/90=1/45
6.2 N重伯努利试验 和二项分布
6.2.1 优势
- 不要求具体的样本总量的具体 数量
- 只需要知道概率就行,但要求概率是稳定不变的(多次伯努利试验时)
- 还需要知道 抽样试验的次数,目标事件的次数
6.2.2 局限性
- 能不能用二项分布先判断,是不是符合N重伯努利试验,如果不符合就没戏
- 二项分布,伯努利试验,需要保证样本容量确定,且分布也要稳定,否则不能
- 必须是放回抽样
- 如果是不放回抽样,
- 要么认为样本极其大,忽略样本总量变化,概率变化不稳定的影响
- 要么得用超几何分布
6.2.3 使用时注意点
- 可以灵活认识的地方:
- 虽然要求只有2种结果,但可以主观划分
- 比如{1,2...100}数字很多,可以划分为>10的和<=10的这两种情况,这样一次试验的结果,无论随到数字几,也只能是>10的和<=102种结果了。
- 需要严格认识的地方:
- N次试验,每次试验都稳定,样本总数和概率都稳定才能视为N重伯努利试验,才能用二项分布
- 也就是说,不放回抽样,一般不适合二项分布
- 因为小样本量前提下,不放回抽样会破坏第一次试验后的样本空间数和概率,发生变化!第2次试验无法和第1次相同了
- 如果样本量足够大,即使是不放会抽样,可以用二项分布近似
6.3 超几何分布
6.3.1 优势
- 特别适合离散分布
- 特别适合不放回抽样
- 适合样本空间,被划分为 2种结果
- 刚好弥补了,N重伯努利试验二项分布不能生效的情况!
6.3.2 局限性
- 只适合可以样本空间结果可以被划分为2类的情况
- 超几何分布,只看抽样个数,不管抽样第2个出来,也就是不能排序!!
6.4 思考从方法上,这些不同方法的适用性
不知道这么画对不对,表达这么个意思吧
- 古典概型虽然这里画的这么万能,但是建立在等概率的基础上
- 右边的不管是不是等概率。右边的显得适用范围低,只是因为在,N次试验是否完全相同,抽样是否放回这些维度上的限制。
6.5 关于多次试验
- 试验的次数,是重要信息:
- 看到总数10,100这种具体的数,且不大,就是样本数不多,基本上是不放回抽样的试验,除非只抽1个,就无所谓放回还是不放回。
- 是1次试验还是多次试验,取决于视角不同,可灵活处理
- 抽2个球,可以认为是只做了1次试验,抽了2个球
- 抽2个球,也可以认为是做了2次试验,而且2次试验对应的总样本其实是不同的
6.5.1 特例1:如果只做1次试验
- 如果是只做1次试验?
- 那么伯努利试验就成为了0-1分布
- 古典概型一般也适合
6.5.2 特例2,如果只抽1个
- 如果是只抽1个,这样就无所谓放回还是不放回
- 所以可以认为是伯努利试验(01分布),也可以用古典概型,甚至也可以用超几何分布,这种情况下不冲突
- 也可以说是,只抽取1个数量的样本时,一些复杂的分布退化了
- 很多概率模型,在这里有相交点,或某些高级模型退化为低级模型了
- 比如二项分布退化为01分布了等等