线性回归损失函数构造:极大似然法和贝叶斯估计的视角

线性回归基础方法:最小二乘

对于线性回归模型 Y = X β + u Y=X\beta +u Y=Xβ+u,为了求出系数矩阵 β \beta β,线性最小二乘法说要构造一个函数描述y的预测值和真值之间的差异,由于种种原因,希望能最小化残差平方和,就给出一个函数 f ( β ) = ∑ ( Y − X β ) 2 f(\beta)=\sum (Y-X\beta)^2 f(β)=(YXβ)2,取能最小化该函数的 β \beta β即可。然后,为了得到 β ^ \hat{\beta} β^的无偏、一致等性质,又施加了高斯马尔可夫假设。
因此,在推导参数估计量表达式 β ^ = ( X T X ) − 1 ( X T Y ) \hat{\beta}=(X^TX)^{-1}(X^TY) β^=(XTX)1(XTY)的过程中,并没有用到高斯马尔可夫假设的任何一条,对于Y(或误差项)的概率分布也没有任何假设。
而只有在推导估计量无偏性和一致性的过程中,才会用到诸如线性模型、X的随机性、X有变异、误差零条件均值、同方差性、不存在完全共线性的假设;只有在需要对参数进行假设检验时,才会用到概率论的思想,认为Y的观测值是其整体的一个样本,且其整体服从某个概率分布。令Y(或误差项)服从正态分布,可以更方便对估计量进行假设检验、置信区间估计。当然,在大样本情况下,Y不需要服从正态分布也可以对其假设检验(估计量渐进性)。
这里有一点疑问,就是为什么要构造 ∑ ( Y − β X ) 2 \sum (Y-\beta X)^2 (YβX)2这样的形式衡量差异。在机器学习中,一般会称这样衡量预测值和真实值差异的函数为损失函数(loss function)。最小二乘法的教材中会说,相比于残差的其他幂次来说,取平方时候,参数估计量更容易求出,且其统计性质容易推导。这样的损失函数也是"ordinary least square"方法得名的原因。

极大似然法估计

估计思想

引入概率论的思想进行参数估计。极大似然估计认为模型参数 β \beta β是一个确定的值,但 y i , y 2 , . . . , y n y_i,y_2,...,y_n yi,y2,...,yn是从整体中抽取的一个随机样本,应当服从某个以 β \beta β为参数的概率分布 f ( y 1 , y 2 , . . . , y n ∣ β ) f(y_1,y_2,...,y_n|\beta) f(y1,y

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值