目录
2.2.1 普通一组数据的没有期望,只有均值,因为不是随机变量
3.2 方差的原始基础公式1:已知数据的方差 / 抽样样本的方差
3.3 随机变量的方差基础公式,需要以P为权重(而不是1/n)
3.3.1 随机变量的方差公式,D(X) = Σpi* (X-E(X))^2 应该如下
(各种可能的错误,都是因为对“随机变量的”期望和方差的理解不够导致)
1 期望和均值(平均值)
1.1 期望的定义
期望的本质就是平均值
但是随机变量的期望,和普通平均值是有区别的
- 期望,是一种特殊的加权平均值,权重就是每个变量对应的概率。
- 随机变量的数学期望,不是简单的平均值,而是以概率为权重的加权平均值
- 离散的随机变量的平均值公式 E(X)= Σpi*xi
- 连续的随机变量的期望 E(X)= ∫ f(x)*dx
- 特殊分布的随机变量的期望
- 如几何分布,E(X)= 1/P
- 如二项分布,E(X)= n*p
- ...
1.2 期望怎么理解
1.2.1 数学期望是什么?
数学期望不是日常语言里的:某一个“期望结果” ,而是随机变量的所有可能结果的加权(权重=概率)平均值,这个平均值可能不是 各个可能结果的之中的任何1个,只是一个计算值。
1.2.2 数学期望的理解
数学期望,实际上可以看做是随机变量的一种加权平均值,用随机变量的所有可能取值 * 权重,而权重就是随机变量每个可能取值的概率。
数学期望,比一般的加权平均值更有意义的地方,就是其权重= 概率P是有意义的。
- 随机变量X,数学期望E= 随机变量X的加权平均值,权重=概率
- 因此X ={x1,x2...xn} (X是一个数组,数列)
- 而E(X)= ∑ Xi*Pi =X1*P1+X2*P2+ ..... Xn*Pn
- 所以 数学期望是一种 X的加权平均,对X这个数组每个xi 的值,用概率pi 进行,数学期望是一个把 随机变量的每个可能值,对应概率,全部压缩为一个数的一个高信息数值指标。
1.3 平均值(mean Value)是什么
- 前面已经些了详细的说明和比较,详见前文
- 算术平均值
- 几何平均值
- 调和平均数
- 平方平均值(均方根)
- 加权平均值
2 随机试验 和数学期望
理解期望和方差还是要回到随机试验本身
2.1 对随机试验的加深理解
2.1.1 数学期望是用来处理随机变量 这种不确定对象的!
案例1:固定的数值序列/ 数组
- 比如2个数字
- 集合就是{0,1},集合内2个元素 ,数量确定
- 平均值就是0.5,确定不变
- 随机变量 x={0,1} 和 常数数组 {0,1} 是完全不同的2个概念
案例2:随机试验
- 但是,如果有个随机试验,50%概率0,50%概率1,那么也是只有两种事件(比如是正方面)--对应的随机变量0,1。但是,因为是随机的,也就是,试验可以做无限次,每次的结果都会随机变化,样本空间里包含无限个0,1
- 所以,样本空间也就是=集合=S= {0,1,1,1,0,1,0,1,1,0,0,1......} ,集合内无限个元素,但是因为要去重,实际上样本空间S={0,1} ,对应的随机变量 x={0,1}
- 随机变量 x={0,1} 和 常数数组 {0,1} 是完全不同的2个概念
- 虽然样本空间和随机变量的取值范围是{0,1},是确定的,但是进行n 次试验的平均值却不能确定,为什么呢?
- 因为试验次数不同,均值可能不同,
- 不同轮的试验,试验结果可能是完全不同的序列
- 平均值不确定,因为试验次数不确定,可能有不同的S {0,1,1,1} , {0,1,1,1,0,1,0,1,1,0}, 比如 {0,1,1,1} 平均值 0.75 ,{0,1,1,1,0,1,0,1,1,0} 平均值 0.6 ..... 那平均值就没法求了?
- 所以,数学期望就出现了
- E(x)=0*50%+1*50%=0.5 ,那这个代表什么意思呢?就是当试验次数n 足够多,样本空间足够大,接近无限,那么 数学期望会趋近 0.5
- 所以,数学期望,一般是针对随机变量的,而不是针对一个确定的 {0,1} 常数数组,数学期望只针对随机变量--背后是可以无限次试验--从而让概率接近真实概率p的随机试验!
- 所以两者区分就很明显了
- 样本数确定,可以直接求各种平均数,
- 样本数量不确定(无限),如随机变量,只能求数学期望 (样本越大越准确)
2.2 期望的公式
2.2.1 普通一组数据的没有期望,只有均值,因为不是随机变量
- 如果只是一组数据,可以直接求均值
- 这组确定数据的 算术均值期望 Σxi/n ( i=1,n)
2.2.2 统计数据的期望公式
- 虽然统计一般是对随机变量进行统计和验证
- 但是统计时一般把抽样时,设定为 平均概率
- 所以统计的随机变量的期望 E(X)= Σxi/n ( i=1,n)
2.2.3 随机变量的期望公式
- 每个随机变量xi 对应发生的概率 pi
- 所以随机变量的期望 E(X)= Σpi*xi ( i=1,n)
2.3 数学期望E的一些性质推论
- E(C) = C ,常数的期望= 本身,或者说 数学期望只针对随机变量,对常数无作用。
- E(CX) = C *E(X)
- E(X+Y) = E(X) + E(Y)
- 如果X和Y互相独立, E(X*Y) = E(X)*E(Y)
2.4 EXCEL的期望公式
- 直接用连乘公式可以解决
- sumproduct(数列1,数列2)
EXCEL都有对应的公式
- AVERAGE()
- GEOMEAN()
- HARMEAN()
3 方差
3.1 什么是方差
- 方差就是衡量每个变量与 总体均值 之间的差异,但是因为每个变量与总体均值的差异都不一样,因此牛人们就发明了一个总量值。
- 也就是把所有每个变量与 总体均值 之间的差异的平方值求和 = 方差。
- 用这个来描述,总体每个值与均值差异的大小!
3.2 方差的原始基础公式1:已知数据的方差 / 抽样样本的方差
3.2.1 常见的方差定义:数据的方差
比如下面这种定义
- 这种方差公式,并不适用于随机变量,只是适用于1个数列(有限的数列吧),这种情况下
- 数列的均值,和方差可以综合反映数据的集中趋势,离散程度等
- 公式里,方差的定义,带平方就是为了消除,有的数据比平均值大有的小,造成差值有正有负的影响。
- 标准差也跟着去掉了这种影响
3.2.2 常见的方差定义:统计的方差
- 因为即使是随机变量的方差
- 再统计时,因为得到的只是少数样本,而这些样本是已知的,如果要计算这些已知样本的期望和方差,计算方差就和随机变量的不一样,一般假设为平均概率的,也就是
- 统计的期望 E(X) =Σxi/n
- 统计的期望
- D(X) =((x1-u)^2+(x1-u)^2+...+(xn-u)^2)/n
- D(X) =Σ(xi-u)^2/n
3.3 随机变量的方差基础公式,需要以P为权重(而不是1/n)
- 方差: D(X) = Σpi* (X-E(X))^2
- 因为 E(X)=Σpi* xi 和 E(X^2)=Σpi* xi^2
- 方差: D(X) =E(X−E(X)) ^2 =E(X^2)−E(X)^2= Σpi* xi^2 - (Σpi* xi )^2
- 标准差: σ ( x ) = 开根号 D ( X )
(以概率为权重的) 加权平均公式
3.3.1 随机变量的方差公式,D(X) = Σpi* (X-E(X))^2 应该如下
- 按加权平均值的算法思路,推导
- S^2 =(X1-u)^2*P1+ (X2-u)^2*P1+ ... +(Xn-u)^2*Pn /(P1+P2+...+Pn)
- S^2 =(X1-u)^2*P1+ (X2-u)^2*P1+ ... +(Xn-u)^2*Pn /1
- S^2 =(X1-u)^2*P1+ (X2-u)^2*P1+ ... +(Xn-u)^2*Pn
3.3.2 随机变量的数学期望计算
- step1 首先,要有一个完整的样本空间(包含所有样本点)
- setp2 然后对样本点进行去重,归纳
- setp3 ∑ 随机变量 * 对应概率 就可以计算数学期望了
- 并且可以做,pmf / pdf 和 cdf
3.3.3 勘误:
(各种可能的错误,都是因为对“随机变量的”期望和方差的理解不够导致)
例题:样本空间有2个事件,A发生概率80%,B发生概率20%
- 正确算法
- (1-0.8)^2*0.8+(0-0.8)^2*0.2 /(0.8+0.2) = (1-0.8)^2*0.8+(0-0.8)^2*0.2
- 为什么这个才是正确的
- 因为 期望E,本身就是对随机变量x的各个取值 x1..xi的一种加权平均,所以,方差要检查的就是每个 xi 和E 之间的差距,再*概率
- 错误算法
- (1-0.8)^2*1+(0-0.8)^2*1 /2 ------乘1不对,而应该乘概率,/概率之和,这才是合适的权重
- (0.8-0.5)^2*1+(0.2-0.5)^2 /2 ------这么算是 纯概率的方差,不涉及样本值本身,概率纯算术均值= (0.8+0.2)/2 =0.5
- (0.8-0.8)^2*1+(0.2-0.8)^2 /2 ------混乱错误,概率 - 期望值,无法计算
3.4 方差公式3 : 方差与期望的关系式
- 方差和期望是存在关系的
- D(x)=E(x^2)-[E(x)]^2
- 样本矩,中心矩
推导过程
推导过程中,将E(x)视为常数即可。
D(X)=E{[X-E(x)]^2}/1
=E{[X-E(x)]^2}
=E{X^2-2XE(x)+[E(x)]^2}
=E(x^2)-2E(x)*E(x)+[E(x)]^2
=E(x^2)-E(x)^2
4 EXCEL的方差公式
- 总体方差 VAR.P()
- 样本方差 VAR.S()
- 总体标准差 STDEV.P()
- 样本标准差 STDEV.S()
- 或者自己用方差的定义公式来算 (前提是,数据序列不太多。。。)
- SUM((X1-u)^2+...+(Xn-u)^2)/10
5 协方差
- 协方差,是用来衡量两个变量之间的关系
- 当2个变量相同时,协方差 = 方差