Linear Regression分析概率解释和SVD优化

线性回归可以说是最简单模型。

给定训练数据 D={ xi, yi} i=1,2,...n,其中 ,回归学习一个从输入x 到输出y的映射 f

且f是一个线性函数 y= f (x|w)=w.Tx

如果损失函数采用RSS 

J(w) = ∑(yi -w.Txi)^2   i=1,2...n

如果没有正则项就等价于最小二乘线性回归

正则项采用L2时得到Ridge回归模型,正则项为L1得到Lasso模型。正则项是为了让模型更简单。因为实际中可能有很多个线性模型满足我们的数据特性,但其中哪个最好就让我们的正则项来确定。给w加上限制就能得到我们最想要的那个模型。

我们分析下线性回归模型的概率解释:

最小二乘(线性)回归等价于极大似然估计

正则(线性)回归等价于高斯先验(L2正则)或Laplace先 验下(L1正则)的贝叶斯估计

 f(x)=\sum\limits_{j=1}^d{​{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon

其中ε为线性预测和真值之间的残差

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),即{y_i}{\sim}N({x_i}{w^T},{\sigma^2}),那么用最大似然估计推导:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{​{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{​{​{y_i}-{x_i}{w^T}}}{\sigma})^2})         (9)

                          \arg{\max{_w}}L(w)=-\frac{1}{​{2{\sigma^2}}}\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}-n\ln\sigma\sqrt{2\pi}}      

极大似然估计等价于极小负log似然损失(negative log likelihood, NLL) 对上面公式取相反数可看出来等价于下面最小二乘                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}}=||y-X{w^T}||_2^2        

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}N(0,{\tau^2}),那么用最大后验估计推导:

 \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{​{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{​{​{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{​{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{​{​{w_j}}}{\tau})^2})    

                          \arg{\max{_w}}L(w)=-\frac{1}{​{2{\sigma^2}}}\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}-\frac{1}{​{2{\tau^2}}}\sum\limits_{j=1}^d{​{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}  

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2   

此时就等价于Ridge回归模型

假设{\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}){w_i}{\sim}Lapace(0,b),同样采用后验估计推导:

                          \arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{​{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{​{​{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{​{2b}}\exp}(-\frac{​{\left|{​{w_j}}\right|}}{\tau})   

                          \arg{\max{_w}}L(w)=-\frac{1}{​{2{\sigma^2}}}\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}-\frac{1}{​{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{​{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}   

                          \arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{​{​{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{​{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}  

此时等价于Lasso回归模型

这里值讲解下最小二乘的SVD优化

J(w) = ||y-Xw||^2

等价于求 y=Xw

如果X是方正,可得到w = X-1w (X-1表示X的逆)

如果X不可逆,可以使用SVD进行分解  X = U∑V.T 带入上式可得。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值