线性回归基础方法:最小二乘
对于线性回归模型 Y = X β + u Y=X\beta +u Y=Xβ+u,为了求出系数矩阵 β \beta β,线性最小二乘法说要构造一个函数描述y的预测值和真值之间的差异,由于种种原因,希望能最小化残差平方和,就给出一个函数 f ( β ) = ∑ ( Y − X β ) 2 f(\beta)=\sum (Y-X\beta)^2 f(β)=∑(Y−Xβ)2,取能最小化该函数的 β \beta β即可。然后,为了得到 β ^ \hat{\beta} β^的无偏、一致等性质,又施加了高斯马尔可夫假设。
因此,在推导参数估计量表达式 β ^ = ( X T X ) − 1 ( X T Y ) \hat{\beta}=(X^TX)^{-1}(X^TY) β^=(XTX)−1(XTY)的过程中,并没有用到高斯马尔可夫假设的任何一条,对于Y(或误差项)的概率分布也没有任何假设。
而只有在推导估计量无偏性和一致性的过程中,才会用到诸如线性模型、X的随机性、X有变异、误差零条件均值、同方差性、不存在完全共线性的假设;只有在需要对参数进行假设检验时,才会用到概率论的思想,认为Y的观测值是其整体的一个样本,且其整体服从某个概率分布。令Y(或误差项)服从正态分布,可以更方便对估计量进行假设检验、置信区间估计。当然,在大样本情况下,Y不需要服从正态分布也可以对其假设检验(估计量渐进性)。
这里有一点疑问,就是为什么要构造 ∑ ( Y − β X ) 2 \sum (Y-\beta X)^2 ∑(Y−βX)2这样的形式衡量差异。在机器学习中,一般会称这样衡量预测值和真实值差异的函数为损失函数(loss function)。最小二乘法的教材中会说,相比于残差的其他幂次来说,取平方时候,参数估计量更容易求出,且其统计性质容易推导。这样的损失函数也是"ordinary least square"方法得名的原因。
极大似然法估计
估计思想
引入概率论的思想进行参数估计。极大似然估计认为模型参数 β \beta β是一个确定的值,但 y i , y 2 , . . . , y n y_i,y_2,...,y_n yi,y2,...,yn是从整体中抽取的一个随机样本,应当服从某个以 β \beta β为参数的概率分布 f ( y 1 , y 2 , . . . , y n ∣ β ) f(y_1,y_2,...,y_n|\beta) f(y1,y