Linear Regression分析概率解释和SVD优化

最新推荐文章于 2024-05-24 01:18:52 发布

那时那月那人

最新推荐文章于 2024-05-24 01:18:52 发布

阅读量393

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/xiaoxu1025/article/details/104361441

版权

线性回归可以说是最简单模型。

给定训练数据 D={ xi, yi} i=1,2,...n，其中，回归学习一个从输入x 到输出y的映射 f

且f是一个线性函数 y= f (x|w)=w.Tx

如果损失函数采用RSS

J(w) = ∑(yi -w.Txi)^2 i=1,2...n

如果没有正则项就等价于最小二乘线性回归

正则项采用L2时得到Ridge回归模型，正则项为L1得到Lasso模型。正则项是为了让模型更简单。因为实际中可能有很多个线性模型满足我们的数据特性，但其中哪个最好就让我们的正则项来确定。给w加上限制就能得到我们最想要的那个模型。

我们分析下线性回归模型的概率解释：

最小二乘(线性)回归等价于极大似然估计

正则(线性)回归等价于高斯先验(L2正则)或Laplace先验下(L1正则)的贝叶斯估计

$f(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon$

其中ε为线性预测和真值之间的残差

假设 ${\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})$ ，即 ${y_i}{\sim}N({x_i}{w^T},{\sigma^2})$ ，那么用最大似然估计推导：

                           $\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2})$           $(9)$

                           $\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-n\ln\sigma\sqrt{2\pi}}$

极大似然估计等价于极小负log似然损失(negative log likelihood, NLL) 对上面公式取相反数可看出来等价于下面最小二乘    $\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}=||y-X{w^T}||_2^2$

假设 ${\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})$ ， ${w_i}{\sim}N(0,{\tau^2})$ ，那么用最大后验估计推导：

$\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2})$

                           $\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}$

                           $\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2$

此时就等价于Ridge回归模型

假设 ${\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})$ ， ${w_i}{\sim}Lapace(0,b)$ ，同样采用后验估计推导：

                           $\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau})$

                           $\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}$

                           $\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}$

此时等价于Lasso回归模型