函数将变量间的关系确定下来,方程将未知数确定下来,而概率研究的不确定性中的规律。
随机性导致结果变得不确定。但对于特定的随机事件,结果具有规律性,于是创造了 概率 这个概念 来描述 有规律的不确定性。
拉普拉斯定义概率及计算方法
基本事件:一次试验的每一个可能结果;基本事件有等可能性
古典概率公式:P(A)=k/n=事件A所含基本事件的个数/基本事件总数
必然事件:事件A所含基本事件的个数=基本事件总数,即 P(A)=1
掷两个骰子a,b,
n=36,即a=1,b=1~6;a=2,b=1~6...a=6,b=1~6;
两个骰子点数加和是5的k=4,即 a=1,b=4;a=2,b=3;a=3,b=2;a=4,b=1; 则 P(A)=4/36=9;
而 点数和为2和12的概率最小,P(A)=1/36;
点数为7的概率最大,P(A)=6/36=1/6
因此,掷两个骰子,点数加和的概率是不一样的
古典概率的漏洞:
1. 现实中存在可能性不相等的基本事件
2. 为了求概率,先定义了基本事件。但基本事件基于概率来定义。循环定义
3. 要先知道 基本事件总数,才能计算一个随机事件的概率。对于预测未来的事,无法列举随机性,如 保险公司无法确定一个60岁的人在未来3年得大病的概率。
伯努利试验-随机性的规律
随机试验的规律性(概率),与试验结果存在偏差。扔一次硬币,正面朝上的概率是1/2,但不能保证,扔N次硬币,事件A=朝上的次数=总次数N*每次发生的概率p=N*1/2;实际上,事件A发生多少次都有可能。那如何解释这种偏差呢?
伯努利试验告诉我们,事件A发生的次数=N*p 的可能性 最大,即 不确定的规律性,只有在大量随机试验时才显现出来,当试验次数不足时,则表现为 偶然性和随意性。
伯努利试验:每次试验互不影响,只有两个事件 A,,重复N次试验,每次试验一个事件出现的概率不变,A的概率为P(A),则B的概率为1-P(A)
如 掷硬币,两个基本事件,事件A=正面朝上,事件B=反面朝上;
伯努利通过试验发现,N次试验,A的次数符合二项(每次试验有两种结果)分布。
抛掷一枚硬币,重复10次,恰有5次正面朝上的概率P(X=5)=≈0.246
X服从二项分布,记作 X~B(n,p),形式为 P(X=k)=
二项分布计算(伯努利试验) - 常用计算器 - 微波射频网 (mwrf.net)
重复100次试验,会发现,80%的情况下,正面朝上40~60次。
如果继续放大试验次数,会发现,正面朝上的次数在一半左右浮动。正面朝上占比特别少或者特别多的可能性很小,不像一开始那样什么情况都有可能。
定量描述偏差:
平均值(数学期望、期望值):N*p,N次试验概率是p的事件A平均发生的次数,也是最有可能发生的次数
平方差(方差):度量 与平均值的误差,误差做一个加权平均
标准差:简单理解为 方差开根号
试验次数越多,误差越小,方差和标准差越小,概率分布越集中在 平均值上
100次试验 标准差=5,平均值=50,10%的误差;
10000次试验 标准差=50,平均值=5000,1%的误差;
因此,越是小概率事件,如果想确保它发生,需要重复次数足够多。
提高单次成功率,比多次试验更重要。凡事做好准备,争取一次性成功,远比不断尝试更靠谱。
泊松分布
特殊伯努利试验-泊松分布:事件A发生的概率很小,但试验次数n很大;如发生车祸的情况。
(79条消息) 用一个“栗子”讲透让人迷惑的泊松分布_TechFlow的博客-CSDN博客
定义:事件A发生的概率是p,n次独立试验,发生了k次,则
P(X=k)=,其中 =np (平均值),发生的次数k= 时,发生概率 达到最大值。
公司100个人,10个停车位,每个员工早上8点前开车来上班的概率是10%,那么8点停车场还有车位的概率是多大?
泊松分布在线计算工具,在线计算,在线计算器,计算器在线计算 (osgeo.cn)
如果增加3个冗余车位, 8点停车场还有车位的概率上升到80%
因此,冗余增加的数量并不多,却能解决大问题。
公司40个人,4个停车位,每个员工早上8点前开车来上班的概率是10%,那么8点停车场还有车位的概率是多大?
因此,试验次数越大,越能抵消随机性带来的误差
高斯分布
大概率事件(概率>1/2),试验次数大
很多变量接近于正态分布:
1. 人群的身高
2. 成年人的血压
3. 员工回家所需的时间
正态分布特性:只用 均值和标准差 就能解释整个分布
正态分布密度图中,
1. 均值是曲线的中心,是曲线的最高点,大多数点都在均值附近
2. 均值左右曲线对称
3. 曲线内的面积,是所有值的概率和=1
4. 如果一个随机变量的取值符合高斯分布,
有68%的可能性,动态范围在平均值+-标准差内;
95%的可能性,动态范围在 平均值+-2*标准差 内;(随机性的结论只需要 95%)
99.7%的可能性,动态范围在 平均值+-3*标准差 内。
举例说明 均值、标准差和发生概率的关系:
两个班级的成绩。一班成绩在60~100分之间,均值是80;二班成绩在70~100分间,均值是85;其正态分布图如下:
设,两个班的标准差都是5分,一班的成绩在75~85的范围内浮动,二班的成绩在80~90的范围内浮动,两个浮动重叠部分(图中红色区域)无法判断哪个班成绩更好,红色区域的面积是两个曲线所覆盖面积的65%,即有65%的概率(曲线积分)我们无法确定哪个班的成绩更好,或者说,二班比一班成绩好的置信度是35%。要增大置信度,就要减少标准差,当标准差降到1时,就有95%的置信度。
如何减少标准差呢?保持成绩分布不变,增大25倍的统计人数,标准差可以从5降到1左右。
条件概率和贝叶斯公式
前面的试验都是独立的,条件概率讲 特定条件下的试验发生的概率,即条件概率。
条件概率由于条件的存在,其值不是 通常情况下的概率。一旦具备条件,有些大家认为不可能的事,就成了大概率事件。
如何计算条件概率?
一件事Y在条件X下发生的条件概率P(X|Y)= 条件X和事件Y一同发生的联合概率P(X,Y) / 条件X的概率P(X),即
P(X,Y)=P(Y|X)*P(X)=P(X|Y)*P(Y)
联合条件概率比较难求,通常由易求推导难求,设P(X|Y)易求,则 P(Y|X)=P(X|Y)*P(Y)/P(X)
机器翻译:设一个英语句子X有很多方式翻译成中文,Y1,Y2...,我们使用最合适的翻译Y,使得P(Y|X)概率最大。
P(X|Y) 中文句子翻译成英文句子的概率,可以通过 马尔可夫模型 计算出来。
P(X) 表示要翻译的句子,是个确定的事,可以当作1。
P(Y) 句子更符合语法的概率,可以通过 马尔可夫模型 计算出来。
概率公理化
定义概率论
1. 样本空间,含随机事件所有的可能结果。
2. 集合,含所有随机事件
3. 函数,集合任意一个随机事件有一个值
只要函数满足三个公理,则称为 概率函数。
1. 任何事件的概率是在 [0,1] 之间的一个实数
2. 样本空间的概率为1
3. 如何两个随机事件A,B互斥,即A发生则B一定不发生,则 事件的概率=A发生的概率+B发生的概率
基于公理,推导定理:
1. 互补(A发生和A不发生)事件的概率和=1 公理2+公理3
2. 不可能事件的概率=0 定理1,两个互补事件合在一起就是必然事件,必然事件的概率是1,必然事件与不可能事件互补,则不可能事件的概率必须=0
大数定理
理论计算出的概率,和大量统计得到的结果一致。正是有这种一致性,大数据方法才有了理论基础
统计学和大数据
统计学,是一门关于收集、分析(数据规律性、因素相关性)、解释、陈述数据的科学,用于预估未来的变化和发展。
大数据使用误区:
1. 霍桑效应:被观察者知道自己成为被观察对象,而改变行为倾向的反映。
2. 数据稀疏带来副作用。
3. 因果反用
用好数据的五个步骤:
1. 设立目标,确认你的假说,否定备用假说。避免盲目使用数据,有意识地过滤数据中的噪音
2. 设计试验,选取数据。数据需要便于量化处理。
3. 根据试验方案进行统计和实验,分析方差。
4. 分析,提出新假说。
5. 使用研究结果。将统计结果用于产品,也报告给别人。
古德-图灵折扣估计
黑天鹅事件的发生,就是错将小概率事件看作零概率事件。
小概率事件特点:
1. 二八定律
2. 一个词的排位 * 词频 ≈ 常数;词频 * 同频率所有词的数量 ≈ 常数
解决方法一:古德-图灵折扣估计 解决零概率事件。通过给高频词打一个折,多出来的词频给到低频词。
解决方法二:插值法,小概率事件估计不准
零和博弈
博弈:研究竞争中的最优解。会考虑到多方策略。最优策略是平衡。
最优解
1. 在对方给我们造成最糟糕的局面种,选择相对最好的. 这被成为最小值中的最大值策略
零和博弈:双方利益互斥,一方所得必然是另一方所失。
设 X,Y两个人下围棋.X要走下一步棋,有方法 x1,x2,x3; Y 有方法 y1,y2,y3; X 的胜率,就是Y的输率
两个人的策略有3x*3y=9种组合方式,写成一个3*3矩阵.
,
当X采用x1策略,
1. 如果Y采用y1策略,X的胜率会增加7点;
2. 如果Y采用y3策略,X的胜率会减少10点.
同理,X 采用x2策略最佳,总是在胜. Y 采用y2策略,胜率只减少1点;因此(2,2)点是对于双方来说最好的点。
上述矩阵,画在一个三维图形中,就是一个马鞍形。马鞍点就是(2,2),即在X看来,它是最低点中的最高点,在Y看来,是最高点中的最低点。
设X知道自己行棋后,Y采用 y1,y2,y3 的概率是 70%,20%,10%,则X采用x1策略是最好的。知道对方走过每步棋后,需要重新计算平衡点。
简单的马鞍图如下,红色点是马鞍点。
多人博弈的投篮问题:设10个选手投篮,投篮的准确性和篮筐的距离有关,离篮筐越近,准确性越高。现有比赛规则,第一个选手站篮筐9米处,如果投进,就是赢家;否则,第二个选手站篮筐8米处,如果投进就是赢家... 直到0米,一定投中。按此规则,第几个出场,获胜率最大?
要看命中率和距离间的关系。设命中率是1/(投篮距离+1),
9米远,命中率是 1/(1+9)=1/10
8米远,命中率是=他的命中率*第一个人失败的概率= 1/(1+8)*0.9=1/10
由此,每个人获胜的概率都是1/10
如果命中率=1/(投篮距离+1)^2,就是最后一个出场的人获胜率最大。
非零和博弈
非零和博弈是双赢。
囚徒问题:设囚徒X,Y 一起作案被抓,要定罪。为防止串供,将两人分开审讯。如果两人都认罪,刑期5年;如果一个认罪,另一个抵赖,则认罪释放,抵赖判10年;如果两人都不认罪,都判1年,那么,X,Y应选择认罪还是抵赖?
X,Y | 认罪 | 抵赖 |
认罪 | -5,-5 | 0,-10 |
抵赖 | -10,0 | -1,-1 |
考虑最坏情况下的最好结果。两人都抵赖,是双赢结果。需要对方彼此信任。
因此,囚徒策略一直被用来证明 双赢的可能性。但现实生活中,双赢的概率很小。
智猪问题
大猪,小猪 | 按按钮 | 食槽旁等待 |
按按钮 | 5,1 | 4,4 |
食槽旁等待 | 9,-1 | 0,0 |
因此,大猪的策略应是按按钮,小猪策略是食槽旁等待。