机器学习Sklearn系列：（一）基础线性模型

最新推荐文章于 2024-04-28 19:36:50 发布

克莱因胡

最新推荐文章于 2024-04-28 19:36:50 发布

阅读量405

点赞数 1

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_43973207/article/details/118075193

版权

线性回归

线性回归是最简单的线性模型，公式如下：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$

在sklearn中的函数如下：

n_jobs 表示使用几个计算核心，fit_intercept 表示是否计算截距， normalizer表示是否对数据进行归一化。

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

一个例子：

from sklearn import linear_model
x1 = np.array(np.linspace(0,10,100)).reshape(-1,1)
y = (x1*2+5).reshape(-1,1)
model = linear_model.LinearRegression()
z = model.fit(x1,y)
z.coef_               # array([[2.]])
z.intercept_          # array([5.])

注意这里里面fit之后，z.coef_ 表示权重，z.intercept表示bias，这里的线性回归直接使用的是最小二乘法，所以无需迭代优化，可以直接计算出结果

几种正则方法

在线性模型的基础上，可以增加一些正则项，根据正则项的不同，线性模型名称也有所变化，在sklearn中，常用的三种方法如下。

岭回归 Ridge Regression

增加一个二范数正则项也可以被称为岭回归 Ridge Regression，计算公式如下：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda||\theta||^2 = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2$

在sklearn中的函数

Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
 normalize=False, random_state=None, solver='auto', tol=0.001)

其中，max_iter 取决于优化器，默认为“auto”，会根据数据自动选择，如果优化器为"sag" 也就是随机均值梯度下降，默认迭代次数为1000，然后其他的方法的迭代次数根据实际情况而变，一般直接使用默认就行。copy_X 为True时候，会复制一份数据。fit_intercept表示是否需要计算截距。solver可以选择优化方法，一般情况下设置成atuo就可以了。 tol表示优化精度，当loss > previous_loss - tol 的时候，优化会停止。

岭回归还自带一个cross validation 的方法：可以设定alpha的区间alphas，然后设置交叉验证的层数cv = N, N 表示N折交叉验证

RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, fit_intercept=True, scoring=None,
 normalize=False)

sklearn官方文档中的例子：

>>> import numpy as np
>>> from sklearn import linear_model
>>> reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13),cv=10)
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
RidgeCV(alphas=array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
      1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]))
>>> reg.alpha_
0.01

LASSO 回归

增加了L1范数的正则又被称为LASSO 回归，其中， $\lambda\sum_{j=0}^n| \theta_j |$ ，这里的| | 表示绝对值。而前面的这个符号表示范数。

$J(\theta) = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda|\theta|_1 = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=0}^n| \theta_j |$

在sklearn中，Lasso也是直接调用就可以了，参数和上述岭回归差不多，这里不多介绍。

model = linear_model.Lasso(alpha=0.01)

z = model3.fit(x1,y)

和Ridge一样，LASSO也有交叉验证函数

LassoCV and LassoLarsCV

其中，当数据维度特别高的时候，LassoCV表现更好，反之则LassolarsCV表现更好

Elastic Net

接下来是弹性网，Elastic Net，结合了L1和L2正则，其中 $\rho$ 在0-1之间。

$J(\theta) = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda(\rho|\theta|_1+(1-\rho)||\theta||^2_2$

在sklearn中的函数如下，注意这里除了设置alpha （λ）也需要设置 $\rho$ ，也就l1_ratio ，参数和上述岭回归差不多，这里不多介绍。

model = linear_model.ElasticNet(alpha=0.01,l1_ratio=0.7)

克莱因胡

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习Sklearn系列：（一）基础线性模型

目录线性回归几种正则方法岭回归 Ridge RegressionLASSO 回归Elastic Net线性回归线性回归是最简单的线性模型，公式如下：J(θ)=12m∑i=1m(hθ(x(i)−y(i))2J(\theta) = \frac{1}{2m} \sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2J(θ)=2m1i=1∑m(hθ(x(i)−y(i))2在sklearn中的函数如下：n_jobs 表示使用几个计算核心，fit_intercept 表示
复制链接

扫一扫