线性回归: 利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。其最佳拟合曲线为:y=mx+b,其中:
决定系数r^2: 是指的总波动情况中,可以以直线关系说明的部分所占的比率。r^2越大,表示直线拟合得越好。
协方差: 两随机变量离各自均值距离之积的期望,公式:Cov(X,Y)=E[(X-E[X])-(Y-E[Y)], 可以表示为:
由此将协方差同线性回归良好地结合了起来。可以看出回归线的斜率m=Cov(X,Y)/Var(X),因:
卡方分布 是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布常用于假设检验和置信区间的计算。若来自正态总体的k个随机变量相互独立,且数学期望为0、方差为1 ( 即服从标;准正态分布),则各随机变量中的平方和,被称为服从自由度为k的卡方分布,记作:
皮尔逊卡方检验 计算每个变量独立的标准正态分布时需要标准化,分母为当个变量数据点的期望容量;
变量自由度的计算: n 个总体数据点只有 n - 1 个自由度,因为根据 n - 1 个数据点可以推算出第 n 个数据的信息。
列联表的自由度计算:因为各行各列由各个行列-1的数据可以推测出最后一个数据所以其自由度:(行数-1)(列数-1)
方差分析: 是用于两个及两个以上样本均数差别的显著性检验。分析数据总波动有多少是由于组内波动造成,有多少是由于组外波动造成。
SST:计算方差时,不除以的那部分,即方差的分子部分,自由度为 m*n-1。
SSW:组内平方和,即不同分组内数据对组均值差的平方和之和,自由度为 m*(n - 1),因为知道各组内 n - 1 个数据就可以求出第 n 个数据的值。
SSB:组间平方和,内涵为总波动有多少是因为组均值之间的波动,即不同分组均值对总均值差的平方和,自由度为 m - 1,因为知道 m - 1 个组的均值就可以求出第 m 个组的均值。
从上述可以发现SST的自由度恰好等于SSB与SSW自由度之和,可以说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间。
F检验: 是指一种统计学意义上服从F分布的零假设的检验。F统计量:
较大说明数据波动主要来自组间,较小说明数据波动主要来自组内。