sufficient statics 理解

==========
sufficient statistic 充分统计量
对于一个未知分布而言,充分统计量sufficient statistic,顾名思义,就是当知道这些量的时候,这个分布就可以确定了,所以这些量才有sufficient的意思,足够的意思。有了这些量,即便丢失掉样本的其他信息也对于估计未知的分布而言也是无关紧要了,所以那些量才能成为是sufficient的。维基上的解释最经典,没有任何其他来自同样样本的统计量能够比充分统计量提供更多关于未知参数的信息(我是这么理解的)。原句如下:In statistics, a sufficient statistic is a statistic which has the property of sufficiency with respect to a statistical model and its associated unknown parameter, meaning that "no other statistic which can be calculated from the same sample provides any additional information as to the value of the parameter".

比如,对于一些来自未知分布的样本,对于参数估计而言,就是可以把这个未知的分布表示成p(theta)的形式,样本的分布就可以表示为p(x|theta); 而充分统计量,假设为q,它的存在意义是当我们比较难以推导出theta时,如果由这些样本能比较容易的决定q,那此时p(x|theta)就等同于p(x|q),我们就由比较容易得出的充分统计量来代替了原来难以直接推导出的参数q。

对于大家熟知的正态分布而言,如果有很多样本抽样自正态分布,那我们知道当确定了分布的均值和方差后,对于这些样本的很多信息就都可以忽略了,比如他们出现的先后顺序,比如有些样本可能比其他样本的值大很多。这个时候可以理解为均值和方差就是正态分布的充分统计量,就是sufficient 统计量。
(更多更详细的介绍,可以参考维基百科:http://en.wikipedia.org/wiki/Sufficient_statistic)

理解了上面的概念,就不难理解说dirichlet distribution有有限维的sufficient statistic有什么好处了。




统计量是数据的函数。函数就是一种「浓缩」讯息的动作。因此, 统计量中所包含的讯息, 通常比整个样本数据所包含的来得少.例如样本的顺序统计量只包含了有哪些值出现, 而不同值出现的顺序这样的讯息不见了。

 

但统计量比样本原数据少掉的讯息可能是无关紧要的 --- 和我们要了解的群体特性不相干, 如上述数据出现顺序在很多时候和我们关心的群体特性无关。统计量所包含关于群体特性的讯息不比原样本数据少, 就是充分统计量。

在参数化模型, 例如常态分布, 我们可能用很简单的统计量就可囊括样本中所包含的全部参数讯息, 如样本平均数和样本变异数包含了样本所携带的, 关于常态群体参数 (群体平均数和标准差) 的全部讯息。但有些时候,尤其是非参数化模型, 可能要整个样本的顺序统计量才是充分的。

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值