【机器学习】 线性回归和最小二乘法

线性回归的一大假设是:误差服从均值为0的正态分布,且多个观测数据之间互不影响,相互独立。

线性回归的误差项 ε \varepsilon ε 是预测值与真实值之间的差异:

y i = ε i + ∑ j = 1 n w j x i , j = ε i + w T x i y_i=\varepsilon_i+\sum_{j=1}^nw_jx_{i,j}=\varepsilon_i+w^Tx_i yi=εi+j=1nwjxi,j=εi+wTxi

既然误差项服从均值为0的正态分布,那么:

P ( ε i ) = 1 2 π σ 2 e − ( ε i − 0 ) 2 2 σ 2 P(\varepsilon_i)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(\varepsilon_i-0)^2}{2\sigma^2}} P(εi)=2πσ2 1e2σ2(εi0)2

又有 ε i = y i − w T x i \varepsilon_i=y_i-w^Tx_i εi=yiwTxi,那么上式就成了:

P ( y i ∣ x i ; w ) = 1 2 π σ 2 e − ( y i − w T x i ) 2 2 σ 2 P(y_i|x_i;w)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}} P(yixi;w)=2πσ2 1e2σ2(yiwTxi)2

即给定 x i , y i x_i,y_i xi,yi的概率分布, w w w是参数,现在有m个样本观测数据,得到其似然函数:

L ( w ) = Π i = 1 m P ( y i ∣ x i ; w ) = Π i = 1 m 1 2 π σ 2 e − ( y i − w T x i ) 2 2 σ 2 L(w)=\Pi_{i=1}^mP(y_i|x_i;w)=\Pi_{i=1}^m\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}} L(w)=Πi=1mP(yixi;w)=Πi=1m2πσ2 1e2σ2(yiwTxi)2

依靠代数方法求解该似然函数的最大值显然很困难,但是若求得 ln ⁡ L ( w ) = m 1 2 π σ 2 − 1 2 σ 2 ∑ i = 1 m ( y i − w T x i ) 2 \ln L(w)=m\frac{1}{\sqrt{2\pi \sigma^2}}-\frac{1}{2\sigma^2}\sum_{i=1}^m(y_i-w^Tx_i)^2 lnL(w)=m2πσ2 12σ21i=1m(yiwTxi)2的最大值,也就求出了 L ( w ) L(w) L(w) 的最大值( ln ⁡ x \ln x lnx是个单调递增函数),达到了“求最大似然”的目的。

观察上式,优化的是参数 w w w,而 m , σ , π m,\sigma,\pi m,σ,π这些针对某组样本来说都是常量,并不在优化过程中起作用,唯一起作用的就是式中的 ∑ i = 1 m ( y i − w T x i ) 2 \sum_{i=1}^m(y_i-w^Tx_i)^2 i=1m(yiwTxi)2,这与最小二乘法所优化的损失函数几乎一样,都是“真实值 - 预测值”的平方和,可以说是殊途同归。

直观上来说,最小二乘法是在寻找观测数据与回归超平面之间的误差距离最小的参数。最大似然估计是最大化观测数据发生的概率。当我们假设误差是正态分布的,所有误差项越接近均值0,概率越大。正态分布是在均值两侧对称的,误差项接近均值的过程等同于距离最小化的过程。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值