统计学两个分布:Z 分布和student-t 分布(假设检验Hypothesis test、置信区间Confidence interval)

回顾

上一次最后遗留了一个问题,将得到的sample用CLT视作正态分布,再通过标准化得到z值 z = X ˉ − μ σ / n z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} z=σ/n Xˉμ对应标准正态分布。但发现公式右边有两个未知量,其实也就是我们希望得到的总体均值和另外一个未知量总体方差。有两套著名方法去处理总体方差将它变成一个已知量。

Z 分布和student-t 分布

这两种方法其实是一个层次关系,前一种较为粗略简单,我们不知道总体方差怎么办?把样本方差看成整体方差!于是乎就剩下一个 μ \mu μ就可以轻松得到了,注意可能有疑惑明明z是未知的,实际上这里看成已知就好了,在设一个置信概率之后就是已知的了(下一部分置信区间),其实也可以把Z看成未知,那么 μ \mu μ就是已知,通过假设检验设一个出来就完了。
回到正题,另一种情况是什么?因为数学家们觉得直接近似不大好,但无论怎么说来还是只能通过样本方差来得到,因为只有这玩意是可以直接观察得到的。怎么办?做的近似一点。于是有某位数学家认为,这个样本量肯定是影响的呀,于是把样本量加入考虑,又发现其实是样本量是通过决定自由度来影响的,自由度是多少,这里是n-1,为什么-1,因为一个估计量。好了,t由两个变量决定,置信概率和自由度,然后查表就可以了,或者假设一个 μ \mu μ,一样可以得到置信概率,和上面Z一样处理。

置信区间

接下来说置信区间的问题,上面已经处理好了方差的问题,留下两个目前未知的东西,一个z(或者t),一个 μ \mu μ,一般来说我们是希望来得到 μ \mu μ的,因为统计的目的一般是得到总体均值这样的结果。
那么先去找z(后面都先说z不说t了,因为这两个方法是一样的),怎么找z,或者说什么和z有关,置信概率有关,通俗点,就是z其实是个标准正态分布,给一个概率就可以知道一个特定值,其实应该反一下,给定一个特定值就可以知道比他大的概率是多少或者比他小的概率是多少,于是等同于知道概率就知道这个值了。
那为什么是个区间?不是说只是一个值吗,因为一遍一个值呀,中间夹的就是区间,但是有些个情况别人值希望知道单边的限定,那么一边的区间就是到无穷大或者负无穷大。这在置信区间里没有特别区分,因为给定一个置信概率一般是要一个两边的值,但在假设检验里可能就有了。

假设检验

假设检验实际就是在置信区间的基础上搞出来的一种应用罢了,置信区间是求一个 μ \mu μ的区间,那么我们这里就假设一个 μ \mu μ,然后看一下对不对,其实不是看一下对不对,而是看一下错不错,这个在逻辑上有点意思,讲这个的很多也没什么特别的地方,大家可以看看别人的。大概就是我们给定一个再给一个置信概率,有这个概率对的我们就说这个是对的,比这个概率小才是对的,那我们就说我们拒绝这个假设,接受另外一个替代假设。就这样其实就是置信区间,没什么区别。

p-value

接下来还有一个相关的问题,在假设检验里,只有拒绝和无法拒绝(reject 和fail to reject),然后就有人希望去找一个东西去评价一下,这个拒绝的程度是多少,怎么表示?只能是用概率表示了,那么就是我们算出来的这个样本均值对应的z放在正态分布上(正态分布的均值是我们假设的),对应的概率是多少,就是求置信区间的反一下,我们的置信区间是置信概率,他就是不置信,然后也有人给这个p值对应的含义有一些解释,一般大于0.1的就是没有理由接受HA,意思就是没道理H0是错的,然后小于0.01就是HA很强0.01-0.05强,0.05-0.1弱。

总结

基础的一些统计应该就是这些个玩意,还有其余更多的模型就是在求均值和方差的时候变一变,以及student-t分布的自由度可能有点难算。
之后的统计就到深一点的地方,比如说线性回归。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值