连续变量的统计描述与参数估计

在这里插入图片描述

1 连续变量的统计描述

在这里插入图片描述

1.1 集中趋势的描述指标

  • 算数平均数
  • 中位数
  • 截尾均数

1.2 离散趋势的描述指标

  • 全距/极差
  • 方差或标准差
  • 百分位数、四分位数和四分位间距
    百分位数Px是一种位置指标,Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大

1.3 正态分布的描述指标

  • 偏度
    描述变量取值分布形态的统计量,指分布不对称的方向和程度。样本的偏度系数记为g1,偏度是与正态分布相比较而言的统计量。
    在这里插入图片描述

  • 峰度
    描述变量取值分布形态陡缓程度的统计量,指分布图形的尖峭程度或峰凸程度。样本的峰度系数记为g2,峰度也是与正态分布相比较而言的统计量。
    在这里插入图片描述

2 连续变量的参数估计

在这里插入图片描述

2.1 正态分布

标准正态分布(u分布/z分布)

2.2 参数的点估计

所选统计量是否适用于作为参数估计量

  • 无偏性:虽然估计量的值不全等于参数,但应当在真实值附近摆动
  • 一致性:样本量越大,估计值离真实值的差异应当越小
  • 有效性:如果有两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值
    例如均数和中位数,实际上两者在反映正态分布的集中趋势时,在无偏性和一致性上是一样好的,但中位数误差更大,所以应当尽量使用样本均数来反映正态分布的集中趋势

方法

  • 矩法
    在许多情况下,样本统计量本身往往就是相应的总体参数的最佳估计值,此时就可以直接取相应的样本统计量作为总体参数的点估计值。
    例如样本均数、方差、标准差都是相应总体均数、方差、标准差的矩估计量。
  • 极大似然法
    原理:在已知总体分布,但未知其参数值时,在待估计参数的可能取值范围内进行搜索,使似然函数值最大的那个数值即为极大似然估计值
    优点在于估计量通常能满足一致性、有效性等要求,且具有不变性。
    不变性:当原始数据进行某种函数变换后,相应估计量的同一函数变换值仍是新样本的极大似然估计量。
  • 稳健估计值
    该统计量受数据异常值的影响较小,而且对大部分的分布而言都很好
    M估计、R估计

2.3 参数的区间估计

虽然原始数据可能服从各种各样的分布,但是根据中心极限定理,当样本量n足够大(如n>50)时,其抽样均数都会近似服从正态分布,而此正态分布所对应的标准差就可用来表示抽样误差的大小,此即标准误。

区间估计的计算

3 Bootstrap方法

在这里插入图片描述

目的

  • 判断原参数估计值是否准确
  • 计算出更准确的可信区间,判断得出的统计学结论是否正确

思想
在原始数据的范围内做有放回的抽样,样本含量为n,原始数据中的每个观察单位每次被抽到的概率相等,为1/n,所得样本称为Bootstrap样本。于是可得到任何一个参数θ的一个估计值θ(b)。

方法

  • 参数法
    需假定θ(b)的分布状况
  • 非参数法
    无任何限制
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页