总体与样本
总体(population):根据研究目的而确定的同质观察单位的全体,更确切的说,是同质的所有观察单位某种观察值的集合。
样本:从总体中随机抽得的部分观察单位实测值的集合。
抽样(sampling):从总体中抽取部分观察单位的过程。
注意:获取样本仅仅是手段,而通过样本信息来推断总体特征才是研究目的。
变量与资料
变量(variable):每个观察单位的某项特征,比如身高体重。
变异(variation):个体间的差异。
离散变量(discrete variable):数轴上任意不同两点之间可取值是有限的。
连续变量(continuous):数轴上任意不同两点之间可取值是无限的。
1.计量资料(measurement data/quantitative data/numerical variable):指观测每个观察单位某项指标的大小而获得的资料,变量值是定量的,可分为连续型和离散型。
2.计数资料(enumeration data/qualitative data/unordered categorical variable/nominal variable):是指将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。变量值是定性的,变现为互不相容的属性或类别,分为二分类/多分类。
3.等级资料(ranked data/semi-quantitative data/ordinal categorical variable):是指将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。变量值具有半定量性质。
注意:各类资料可互相转化,一般来说,定量可转化为定性,若要把计数资料转化为计量资料,称指标的数量化,这部分将在第十三章第一节“一般线性模型”中介绍。
误差
频率与概率
1.频率(relative frequency):设在相同条件下,独立的重复n次实验,随机事件A出现f次,则f/n为随机事件A的频率。
2.概率(probability):当n逐渐增大时,频率趋向于一个常数,该常数为随机事件A的概率,可记为P(A),简称P。概率是度量随机事件发生可能性大小的一个数值。在实际工作中,只要观察次数足够多,可将频率作为概率的估计值。
习惯上将P<=0.5称为小概率事件。
有关概率推断及其在统计分析中的应用将在后续章节进一步深入讨论。