Python机器学习日记6:线性模型(用于回归的线性模型)

一、书目与章节

在这里插入图片描述
拜读的是这本《Python机器学习基础教程》,本文选自第2章“监督学习”第3节“监督学习算法中的线性模型

本书全部代码:https://github.com/amueller/introduction_to_ml_with_python

二、线性模型

线性模型利用输入特征的线性函数(linear function)进行预测!

1. 用于回归的线性模型

对于回归问题,线性模型预测的一般公式如下:
ŷ = w[0] * x[0] + w[1] * x[1] + … + w[p] * x[p] + b
这里 x[0] 到 x[p] 表示单个数据点的特征(本例中特征个数为 p+1),w 和 b 是学习模型的参数,ŷ 是模型的预测结果。

对于单一特征的数据集,公式如下:
ŷ = w[0] * x[0] + b
这就是高中数学里的直线方程。这里 w[0] 是斜率,b 是 y 轴偏移。对于有更多特征的数据集,w 包含沿每个特征坐标轴的斜率。或者,你也可以将预测的响应值看作输入特征的加权求和,权重由 w 的元素给出(可以取负值)。

下列代码可以在一维 wave 数据集上学习参数 w[0] 和 b:

import mglearn
import numpy as np
import matplotlib.pyplot as plt
>>> mglearn.plots.plot_linear_regression_wave()

w[0]: 0.393906  b: -0.031804

添加坐标网格,便于理解直线的含义:从 w[0] 可以看出,斜率在 0.4 左
右;截距为预测直线与 y 轴的交点:比 0 略小。
在这里插入图片描述
用于回归的线性模型可以表示为这样的回归模型:

  1. 对单一特征的预测结果是一条直线
  2. 两个特征时是一个平面
  3. 在更高维度(即更多特征)时是一个超平面。

如果将直线的预测结果与KNeighborsRegressor 的预测结果进行比较,你会发现直线的预测能力非常受限。似乎数据的所有细节都丢失了。从某种意义上来说,这种说法是正确的。假设目标 y 是特征的线性组合,这是一个非常强的(也有点不现实的)假设。

但观察一维数据得出的观点有些片面。对于有多个特征的数据集而言,线性模型可以非常强大。特别地,如果特征数量大于训练数据点的数量,任何目标 y 都可以(在训练集上)用线性函数完美拟合。

有许多不同的线性回归模型,他们主要区别为:如何从训练数据中学习参数 w 和 b,以及如何控制模型复杂度。下面介绍最常见几类线性回归模型。

1.1 线性回归 / 普通最小二乘法(Linear regression / Ordinary least squares,OLS)

线性回归/普通最小二乘法是回归问题最简单也最经典的线性方法。

线性回归寻找参数 w 和 b,使得对训练集的预测值与真实的回归目标值 y之间的均方误差最小。

均方误差(mean squared error):预测值与真实值之差的平方和除以样本数

线性回归没有参数,这是一个优点,但也因此无法控制模型的复杂度。

1.1.1 线性回归在低维度(1维)数据集上的表现
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.make_wave(n_samples=60) # 取60个点
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

lr = LinearRegression().fit(X_train, y_train)

“斜率”参数(w,也叫作权重或系数)被保存在 coef_ 属性中,而偏移或截距(b)被保存在 intercept_ 属性中:

>>> print("lr.coef_:", lr.coef_)
>>> print("lr.intercept_:", lr.intercept_)
lr.coef_: [0.39390555]
lr.intercept_: -0.031804343026759746

intercept_ 属性是一个浮点数,而 coef_ 属性是一个 NumPy 数组,每个元素对应一个输入特征。由于 wave 数据集中只有一个输入特征,所以 lr.coef_ 中只有一个元素。

我们来看一下训练集和测试集的性能:

>>> print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))

Training set score: 0.67
Test set score: 0.66

R^2 约为 0.66,这个结果不是很好,但我们可以看到,训练集和测试集上的分数非常接近。这说明可能存在欠拟合,而不是过拟合。对于这个一维数据集来说,过拟合的风险很小,因为模型非常简单(或受限)。

1.1.2 线性回归在高维度数据集上的表现

对于更高维的数据集(即有大量特征的数据集),线性模型将变得更加强大,但过拟合的可能性也会变大。

将LinearRegression 应用于波士顿房价数据集( 506 个样本和 104个导出特征):

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.load_extended_boston() # 加载拓展波士顿房价数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

lr = LinearRegression().fit(X_train, y_train)

发现在训练集上的预测非常准确,但测试集上的 R^2 要低很多:

>>> print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))

Training set score: 0.95
Test set score: 0.61

训练集和测试集之间的性能差异是过拟合的明显标志

因此我们应该试图找到一个可以控制复杂度的模型。标准线性回归最常用的替代方法之一就是岭回归(ridge regression),下面来看一下。

1.2 岭回归(Ridge regression)

岭回归也是一种用于回归的线性模型,因此它的预测公式与普通最小二乘法相同。但在岭回归中,对系数(w)的选择不仅要在训练数据上得到好的预测结果,而且还要拟合附加约束。我们还希望系数尽量小。换句话说,w 的所有元素都应接近于 0。直观上来看,这意味着每个特征对输出的影响应尽可能小(即斜率很小),同时仍给出很好的预测结果。

这种约束是所谓正则化(regularization)的一个例子。

正则化:对模型做显式约束,以避免过拟合。
岭回归——> L2 正则化

依旧使用波士顿房价数据集:

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

ridge = Ridge().fit(X_train, y_train) #默认参数 alpha=1.0

可以看出,Ridge 在训练集上的分数(0.89)要低于 LinearRegression(0.95),但在测试集上的分数更高(0.75>0.61)。

>>> print("Training set score: {:.2f}".format(ridge.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(ridge.score(X_test, y_test)))

Training set score: 0.89
Test set score: 0.75

这和我们的预期一致:线性回归对数据存在过拟合,而Ridge 是一种约束更强的模型,所以更不容易过拟合。

复杂度更小的模型意味着在训练集上的性能更差,但泛化性能更好。由于我们只对泛化性能感兴趣,所以应该选择 Ridge 模型而不是 LinearRegression 模型。

1.2.1 改变alpha参数以在模型的简单性与训练集性能之间做出权衡

Ridge 模型在模型的简单性(系数都接近于 0)与训练集性能之间做出权衡。

简单性和训练集性能二者对于模型的重要程度 ——> 改变alpha 参数

在前面的例子中,我们用的是默认参数 alpha=1.0。但没有理由认为这会给出最佳权衡。

alpha 的最佳设定值取决于用到的具体数据集。

  1. 增大 alpha 会使得系数更加趋向于 0,从而降低训练集性能,但可能会提高泛化性能。例如:
>>> ridge10 = Ridge(alpha=10).fit(X_train, y_train) # 设置参数 alpha=10

>>> print("Training set score: {:.2f}".format(ridge10.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(ridge10.score(X_test, y_test)))

Training set score: 0.79
Test set score: 0.64
  1. 减小 alpha 可以让系数受到的限制更小,即在图 2-1 中向右移动。对于非常小的 alpha 值,系数几乎没有受到限制,我们得到一个与 LinearRegression 类似的模型:
>>> ridge01 = Ridge(alpha=0.1).fit(X_train, y_train) # 设置参数 alpha=10

>>> print("Training set score: {:.2f}".format(ridge01.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(ridge01.score(X_test, y_test)))

Training set score: 0.93
Test set score: 0.77

这里 alpha=0.1 似乎效果不错。我们可以尝试进一步减小 alpha 以提高泛化性能。现在,注意参数 alpha 与图 2-1 中的模型复杂度的对应关系。(第 5 章将会讨论选择参数的正确方法)

1.2.2 不同 alpha 值的岭回归与线性回归的系数比较

我们还可以查看 alpha 取不同值时模型的 coef_ 属性,从而更加定性地理解 alpha 参数是如何改变模型的。

更大的 alpha 表示约束更强的模型,所以我们预计大 alpha 对应的 coef_元素比小 alpha 对应的 coef_ 元素要小。这一点可以在下图中得到证实:

plt.plot(ridge01.coef_, 'v', label="Ridge alpha=0.1")
plt.plot(ridge.coef_, 's', label="Ridge alpha=1")
plt.plot(ridge10.coef_, '^', label="Ridge alpha=10")


plt.plot(lr.coef_, 'o', label="LinearRegression")
plt.xlabel("Coefficient index")
plt.ylabel("Coefficient magnitude")
xlims = plt.xlim()
plt.hlines(0, xlims[0], xlims[1])
plt.xlim(xlims)
plt.ylim(-25, 25)
plt.legend()

这里 x 轴对应 coef_ 的元素:x=0 对应第一个特征的系数,x=1 对应第二个特征的系数,以此类推,一直到 x=100。y 轴表示该系数的具体数值。这里需要记住的是,对于 alpha=10,系数大多在 -3 和 3 之间。对于 alpha=1 的 Ridge 模型,系数要稍大一点。对于 alpha=0.1,点的范围更大。对于没有做正则化的线性回归(即 alpha=0),点的范围很大,许多点都超出了图像的范围。
在这里插入图片描述

1.2.3 岭回归和线性回归在波士顿房价数据集上的学习曲线

还有一种方法可以用来理解正则化的影响,就是固定 alpha 值,但改变训练数据量。对于上图来说,我们对波士顿房价数据集做二次抽样,并在数据量逐渐增加的子数据集上分别对 LinearRegression 和 Ridge(alpha=1) 两个模型进行评估(将模型性能作为数据集大小的函数进行绘图,这样的图像叫作学习曲线):

mglearn.plots.plot_ridge_n_samples()

在这里插入图片描述
通过图像可以总结出以下几点:

  1. 正如所预计的那样,无论是岭回归还是线性回归,所有数据集大小对应的训练分数都要高于测试分数。
  2. 由于岭回归是正则化的,因此它的训练分数要整体低于线性回归的训练分数。但岭回归的测试分数要更高,特别是对较小的子数据集。如果少于 400 个数据点,线性回归学不到任何内容。
  3. 随着模型可用的数据越来越多,两个模型的性能都在提升,最终线性回归的性能追上了岭回归。
  4. 图中还有一个有趣之处,就是线性回归的训练性能在下降。如果添加更多数据,模型将更加难以过拟合或记住所有的数据。

要记住的是:如果有足够多的训练数据,正则化变得不那么重要,并且岭回归和线性回归将具有相同的性能(在这个例子中,二者相同恰好发生在整个数据集的情况下,这只是一个巧合)。

1.3 Lasso(Least Absolute Shrinkage and Selection Operator)

除了 Ridge,还有一种正则化的线性回归是 Lasso。

与岭回归相同,使用 lasso 也是约束系数使其接近于 0,但用到的方法不同,叫作 L1 正则化

L1 正则化的结果: 使用 lasso 时某些系数刚好为 0——> 某些特征被模型完全忽略

这可以看作是一种自动化的特征选择。某些系数刚好为 0,这样模型更容易解释,也可以呈现模型最重要的特征。

应用于波士顿房价模型:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

如你所见,Lasso 在训练集与测试集上的表现都很差。这表示存在欠拟合,我们发现模型只用到了 104 个特征中的 4 个。

>>> lasso = Lasso().fit(X_train, y_train) #默认值 alpha=1.0
>>> print("Training set score: {:.2f}".format(lasso.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(lasso.score(X_test, y_test)))
>>> print("Number of features used:", np.sum(lasso.coef_ != 0))

Training set score: 0.29
Test set score: 0.21
Number of features used: 4
1.3.1 改变alpha参数

与 Ridge 类似,Lasso 也有一个正则化参数 alpha,可以控制系数趋向于 0 的强度。

  1. 为了降低欠拟合,我们尝试减小 alpha。这么做的同时,我们还需要增加 max_iter 的值(运行迭代的最大次数):
>>> lasso001 = Lasso(alpha=0.01, max_iter=100000).fit(X_train, y_train)
>>> print("Training set score: {:.2f}".format(lasso001.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(lasso001.score(X_test, y_test)))
>>> print("Number of features used:", np.sum(lasso001.coef_ != 0))

Training set score: 0.90
Test set score: 0.77
Number of features used: 33

alpha值变小,我们可以拟合一个更复杂的模型,在训练集和测试集上的表现也更好。模型性能比使用 Ridge 时略好一点,而且我们只用到了 104个特征中的 33 个。这样模型可能更容易理解。

  1. 但如果把 alpha 设得太小,那么就会消除正则化的效果,并出现过拟合,得到与LinearRegression 类似的结果:
>>> lasso00001 = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train)
>>> print("Training set score: {:.2f}".format(lasso00001.score(X_train, y_train)))
>>> print("Test set score: {:.2f}".format(lasso00001.score(X_test, y_test)))
>>> print("Number of features used:", np.sum(lasso00001.coef_ != 0))

Training set score: 0.95
Test set score: 0.64
Number of features used: 96
1.3.2 不同 alpha 值的Lasso与岭回归的系数比较

再次对不同模型的系数进行作图:

plt.plot(lasso.coef_, 's', label="Lasso alpha=1")
plt.plot(lasso001.coef_, '^', label="Lasso alpha=0.01")
plt.plot(lasso00001.coef_, 'v', label="Lasso alpha=0.0001")

plt.plot(ridge01.coef_, 'o', label="Ridge alpha=0.1")
plt.legend(ncol=2, loc=(0, 1.05))
plt.ylim(-25, 25)
plt.xlabel("Coefficient index")
plt.ylabel("Coefficient magnitude")

  1. 在 alpha=1 时,我们发现不仅大部分系数都是 0(我们已经知道这一点),而且其他系数也都很小。
  2. 将 alpha 减小至 0.01,我们得到图中向上的三角形,大部分特征等于 0。
  3. alpha=0.0001 时,我们得到正则化很弱的模型,大部分系数都不为 0,并且还很大。为了便于比较,图中用圆形表示 Ridge 的最佳结果。alpha=0.1 的 Ridge 模型的预测性能与alpha=0.01 的 Lasso 模型类似,但 Ridge 模型的所有系数都不为 0。

在实践中,在两个模型中一般首选岭回归。但如果特征很多,你认为只有其中几个是重要的,那么选择 Lasso 可能更好。同样,如果你想要一个容易解释的模型,Lasso 可以给出更容易理解的模型,因为它只选择了一部分输入特征。scikit-learn 还提供了 ElasticNet类,结合了 Lasso 和 Ridge 的惩罚项。在实践中,这种结合的效果最好,不过代价是要调节两个参数:一个用于 L1 正则化,一个用于 L2 正则化。

2. 用于分类的线性模型

为了防止过长篇幅影响阅读体验,请移步:Python机器学习日记6:线性模型(用于分类的线性模型)

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

调参侠鱼尾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值