有监督学习:线性回归

#入门模型,记录学习内容并予以分享。

------Yc

本篇主要介绍线性回归及其三个模型算法,最小二乘法(OLS),岭回归(Ridge),Lasso回归。

1.线性回归

线性模型将有监督学习模型定义为类似公式的多项式函数:

y=w_{0}+w_{1}x_{1}+w_{2}x_{2}+...+w_{n}x_{n} (1)

线性模型就是为了确定w_{0},w_{1}...w_{n}的值,使y可根据特征值(x_{0},x_{1}...x_{n})直接得到。其中,w_{0}被称为截距(intercept),w_{1}...w_{n}被称为回归系数。

同时,一些大相径庭的多项式都是线性模型(能够转化为公式1),如:

y=w_{0}+w_{1}sin(x_{1})+w_{2}sin(x_{2})+...+w_{n}sin(x_{n})

非线性模型有更多形式,如:

y=w_{0}+sin(w_{1}x_{1})+sin(w_{2}x_{2})+...+sin(w_{n}x_{n})

y=w_{0}+e^{w_{1}x_{1}}+e^{w_{2}x_{2}}+...+e^{w_{n}x_{n}}

2.最小二乘法

通过最小化方差来计算截距和参数,即:

argmin(\sum (\widehat{y}-y)^{2})

式中,argmin(i)的意思为最小化i来求所需的各个参数,\widehat{y}为样本预测值,y为真值。

缺点:在对多维数据进行拟合时,容易出现过拟合。即:参数w特别大(到达几万甚至更大),样本x稍微变化,则预测值的改变会特别大。为此采用惩罚措施对参数进行制约。

3.岭回归(L2正则化)

通过改变回归目标函数,达到了控制回归参数值随维度疯狂增长的目的。新目标函数为:

argmin(\sum (\widehat{y}-y)^{2}+\alpha \sum w^{2})

目标函数将\alpha \sum w^{2}加入了最小化目标,其中α是一个可以调节的参数,w是线性模型中的所有参数(包括截距)。

定义解释:

在岭回归中,L2范数是一种衡量向量长度的方法。对于一个n维的向量x=(x1, x2, ..., xn),它的L2范数定义为向量中所有元素的平方和的平方根,L2范数表示为

L2也可以度量两个向量间的差异,如平方差和(Sum of Squared Difference):

优点:岭回归模型对噪声的压抑性更强,在多维回归中模型参数显著降低,并且α参数的大小与训练的回归参数w呈反向关系:α越大,回归参数越小,模型越平缓。

缺点:无论α多大,回归模型参数都有非常小的绝对值,很难造成零值,使在大数据系统中的数据产生、存储、计算等方面不利。因此产生Lasso回归。

4.Lasso回归(L1正则化)

将不重要的特征参数计算为零,其目标函数形式为:

argmin(\sum (\widehat{y}-y)^{2}+\alpha \sum |w|)

惩罚效果比岭回归严厉得多,可以使多数回归参数为零,从而简化计算,相当于压缩了相关特征。

定义解释:

L1范数表示为

使用 L1范数可以度量两个向量间的差异,如绝对误差(Sum of Absolute Difference):

就到这里吧,有用的话点个赞支持一下呗~

范数的参考网址:什么是范数(norm)?以及L1,L2范数的简单介绍_l1 norm-CSDN博客

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值