线性回归

最新推荐文章于 2024-05-25 00:45:00 发布

xifuture_

最新推荐文章于 2024-05-25 00:45:00 发布

阅读量287

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/xifuture_/article/details/78514442

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

模型

自变量x和因变量y为线性关系。
x：数据点集合，y：目标值，(x, y)：一个训练样本。

y = a * x + b + e

$y = a * x + b + e$

e $e$ 为误差，这里假设服从均值0的正态分布。
机器学习中，一般描述为

h θ (x) = θ 0 + θ 1 * x 1 + \dots + θ n * x n

$h_\theta(x) = \theta_0 + \theta_1 * x_1 + \ldots + \theta_n * x_n$
假设函数：

h θ (x) = \sum k = 0 n θ k x k = θ T x

$h_\theta(x) = \sum_{k=0}^n\theta_kx_k = \theta^Tx$

x $x$ 是向量。矩阵表示

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1, 1, ⋮ 1, x 11, x 21, ⋮ x m 1, x 12 x 22, ⋮ x m 2, \dots, \dots, ⋮ \dots, x 1 n x 2 n ⋮ x m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$X=\begin{bmatrix} 1,&x_1^1,&x_2^1&\cdots,&x_n^1\\ 1,&x_1^2,&x_2^2,&\cdots,&x_n^2\\ \vdots &\vdots &\vdots &\vdots&\vdots\\ 1,&x_1^m,&x_2^m,&\cdots,&x_n^m \end{bmatrix} \qquad \Theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \vdots\\ \theta_n \end{bmatrix}$
其中，

xji表示第j个样本第i维特征，m个样本，n维特征。 $x_i^j表示第j个样本第i维特征，m个样本，n维特征。$

已知训练集 $x=({x_0, x_1,\ldots,x_n})$ 估计 $\theta$ ，MSE为点估计的一种评价标准。
注：已假定e服从正态分布，MSE也就自然了。比如SAE绝对差和，无法给出可解的优化问题。

代价函数（可以通过最大似然估计推导出）：

J (θ) = 1 2 m \sum k = 1 m (h θ (x k) - y k) 2

$J(\theta) = \frac{1}{2m}\sum_{k=1}^m\left(h_\theta(x^k) - y^k\right)^2$
目的，寻找最小化

J(θ) $J(\theta)$ 的

θ∗ $\theta^*$ ，几何意义上，就是试图找一条直线，使所有样本与直线的欧式距离之和最小。

θ * = a r g m i n (J (θ))

$\theta^* = argmin(J(\theta))$

策略及算法

最小二乘

由 $z^Tz=\sum_{i}{}z_i^2$ ，

J (θ) = 1 2 m (X Θ - y) T (X Θ - y)

$J(\theta)=\frac{1}{2m}(X\Theta - y)^T(X\Theta - y)$

正规方程组

$X_TX$ 为满秩矩阵或小样本少特征情况下：

L (Θ) = 1 2 (X Θ - y) T (X Θ - y) = 1 2 [Θ T X T X Θ - Θ T x T y - y T X Θ + y T y] = 1 2 [Θ T X T X Θ - 2 Θ T x T y + y T y]

$\begin{aligned} L(\Theta)&=\frac{1}{2}(X\Theta - y)^T(X\Theta - y)\\ &=\frac{1}{2}[\Theta^TX^TX\Theta - \Theta^Tx^Ty - y^TX\Theta+y^Ty]\\ &=\frac{1}{2}[\Theta^TX^TX\Theta - 2\Theta^Tx^Ty+y^Ty] \end{aligned}$
这里

\Rightarrow \Rightarrow \Rightarrow \partial L ( Θ ) Θ = 0 \partial L ( Θ ) Θ = 1 2 (X T X Θ + X T X Θ - 2 X T y) = 0 X T X Θ = X T y Θ = (X T X) - 1 X T y

$\begin{aligned} &\partial \frac{L(\Theta)}{\Theta}=0\\ \Rightarrow \ &\partial \frac{L(\Theta)}{\Theta}=\frac{1}{2}(X^TX\Theta+X^TX\Theta-2X^Ty)=0\\ \Rightarrow\ & X^TX\Theta=X^Ty\\ \Rightarrow\ &\Theta=(X^TX)^{-1}X^Ty \end{aligned}$

梯度下降法

迭代逼近，一般采用批量下降，为了减少收敛至局部最优解的概率，随机初始化多次，从中选择最优解。

迭代规则：

θ i : = θ i - α \partial J ( θ ) \partial θ i

$\theta_i:=\theta_i-\alpha\frac{\partial J(\theta)}{\partial\theta_i}$
其中，

α $\alpha$ 为学习速率，值过小会导致迭代收敛慢，值过大会导致徘徊在最优解附近无法收敛。

\partial J ( θ ) \partial θ i = \partial \partial θ i 1 2 (h θ (x) - y) 2 = (h θ (x) - y) \partial \partial θ i (h θ (x) - y) = (h θ (x) - y) \partial \partial θ i \sum k = 0 m θ k x k = (h θ (x) - y) x i

$\begin{aligned} \frac{\partial J(\theta)}{\partial\theta_i}&=\frac{\partial}{\partial\theta_i}\frac{1}{2}(h_\theta(x)-y)^2\\ &=(h_\theta(x)-y)\frac{\partial}{\partial\theta_i}(h_\theta(x)-y)\\ &=(h_\theta(x)-y)\frac{\partial}{\partial\theta_i}\sum_{k=0}^m\theta_k x_k\\ &=(h_\theta(x)-y)x_i \end{aligned}$
迭代规则：

θ i : = θ i - α \sum k = 0 m (h θ (x k - y k) x k i

$\theta_i:=\theta_i-\alpha\sum_{k=0}^m(h_\theta(x^k-y^k)x_i^k$
随机梯度下降法：更新参数时，不必遍历所有样本，随机选择一个就可以。

θ i : = θ i - α (h θ (x k - y k) x k i

$\theta_i:=\theta_i-\alpha(h_\theta(x^k-y^k)x_i^k$

梯度下降中，由于样本分布不同，可能会遇到局部最小值点、鞍点、下降速度过慢、跳过最小值点等问题。

过拟合

模型泛化能力差，高方差。

来自网络的图片，很形象：

一般由于：

训练集和测试集特征分布不一致
样本和特征数量不匹配，模型复杂

解决办法：

合理化样本和特征数量（比如相应减少特征或增加样本）
交叉验证
正则化

正则化

L1_normal（lasso、L1正则化），使用L1_normal的建模称为lasso(least absolute shrinkage and selection operator)回归

J (θ) = 1 2 m (X Θ - y) T (X Θ - y) + λ ∥ Θ ∥ 1

$J(\theta)=\frac{1}{2m}(X\Theta - y)^T(X\Theta - y)+ \lambda\left\|\Theta\right\|_1$
L2_normal（ridge、L2正则化），使用L2_normal的建模称为ridge(岭)回归

J (θ) = 1 2 m (X Θ - y) T (X Θ - y) + λ ∥ Θ ∥ 22

$J(\theta)=\frac{1}{2m}(X\Theta - y)^T(X\Theta - y)+ \lambda\left\|\Theta\right\|_2^2$
一些解释：

L1、L2都是一种通过对权值向量引入额外约束以避免产生过拟合的方法。
L1产生稀疏权值矩阵，某些权值项为0，挑选样本特征，降低模型复杂度。
L2 减小某些权值的影响，降低模型复杂度。

矩阵解释：

$\Theta$ 为非奇异矩阵时，矩阵可逆，代价函数有唯一解。如果其为近似奇异矩阵时，微小的样本变化都可能导致模型巨大的变化，模型泛化能力差。
增强矩阵求逆数值稳定性，可在方阵 $X^TX$ 的主对角线上增加 $\lambda$ 。

$Θ^= (X T X + λ I) - 1 X T y$ $\hat\Theta=(X^TX+\lambda I)^{-1}X^Ty$
L2的求解刚好能获取上面公式。

关于 $\lambda$ 选择

$\lambda$ 越大，对参数修正越明显，模型相对简单
一般通过交叉验证获取
这是一个bias-var-tradeoff 偏差、方差权衡的问题

code

# -*- coding:utf-8 -*-  

import numpy as np  
from sklearn.linear_model import LinearRegression, RidgeCV, LassoCV
from sklearn.preprocessing import PolynomialFeatures  
import matplotlib.pyplot as plt  
from sklearn.pipeline import Pipeline  
import matplotlib as mpl  
import warnings  

if __name__ == "__main__":  
    warnings.filterwarnings("ignore")

    np.random.seed(0)

    ORDER = 8
    N = 10
    x = np.linspace(0, 6, N) + np.random.randn(N)  
    x = np.sort(x)

    y = 1.2 * x**2 - 3.1*x - 3 + np.random.randn(N)
    x = x.reshape(-1, 1)
    y = y.reshape(-1, 1)

    models = [
        Pipeline([('poly', PolynomialFeatures()), ('linear',                LinearRegression(fit_intercept=False))]),
        Pipeline([('poly', PolynomialFeatures()), ('linear', RidgeCV(alphas=np.logspace(-3, 2, 50), fit_intercept=False))]),  
        Pipeline([('poly', PolynomialFeatures()), ('linear', LassoCV(alphas=np.logspace(-3, 2, 50), fit_intercept=False))]),  
    ]

    mpl.rcParams['font.sans-serif'] = [u'simHei']  
    mpl.rcParams['axes.unicode_minus'] = False  
    np.set_printoptions(suppress=True)

    plt.figure(figsize=(18, 12), facecolor='w')  
    d_pool = np.arange(1, ORDER, 2)
    m = d_pool.size
    clrs = []

    for c in np.linspace(255, 16711680, m):
        clrs.append('#%06x' % np.int32(c))

    print(clrs)

    line_width = np.linspace(5, 2, m)

    titles = [u'线性回归', u'Ridge回归', u'LASSO']

    for t in range(3):
        model = models[t]

        plt.subplot(2, 2, t+1)  
        plt.plot(x, y, 'ro', ms=10, zorder=ORDER)

        for i, d in enumerate(d_pool):
            model.set_params(poly__degree=d)  
            model.fit(x, y.flatten())

            lin = model.get_params('linear')['linear']

            x_hat = np.linspace(x.min(), x.max(), num=100)  
            x_hat.shape = -1, 1  
            y_hat = model.predict(x_hat)  
            s = model.score(x, y)

            z = ORDER - 1 if (d == 2) else 0  
            label = u'%d阶，$R^2$=%.3f' % (d, s)  
            if hasattr(lin, 'l1_ratio_'):  
                label += u'，L1 ratio=%.2f' % lin.l1_ratio_

            plt.plot(x_hat, y_hat, color=clrs[i], lw=line_width[i], alpha=0.75, label=label, zorder=z)

        plt.legend(loc='upper left')  
        plt.grid(True)  
        plt.title(titles[t], fontsize=18)  
        plt.xlabel('X', fontsize=16)  
        plt.ylabel('Y', fontsize=16)

    plt.tight_layout(1, rect=(0, 0, 1, 0.95))  
    plt.suptitle(u'多项式曲线拟合比较', fontsize=22)  
    plt.show()