线性回归——Linear Regression原理

最新推荐文章于 2023-06-19 10:17:37 发布

稚与

最新推荐文章于 2023-06-19 10:17:37 发布

阅读量1.6k

点赞数 1

分类专栏： Machine learning 文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_45698935/article/details/105973510

版权

Machine learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Linear Regression

文章目录

Linear Regression

简介

线性回归是一种回归学习方法，一般用于处理连续性变量，算是机器学习的入门算法。虽然线性模型的形式很简单，但是线性模型的思想是很重要的，许多非线性模型都是在线性模型的基础上通过引入高维映射而得。

优点

建模速度快，不需要复杂计算
可解释性好

缺点

不适用与非线性数据
可能出现过拟合

基本原理

基本形式

给定数据集 $D=\{(x_1,y_1), ..., (x_m, y_m\}$ ，其中 $x_i=(x_{i1}, ..., x_{id})$ ，线性回归模型试图学习到 $\hat y=w^Tx+b$ ，使得 $\hat y$ 近似等于 $y$ 。

损失函数Loss Function

一般选用均方误差(mean square error， MSE)，采用**最小二乘法(least square method)**求解，简单来说就是找到一条直线，使所有样本到直线上的欧氏距离之和最小。

均方误差即 $L=\frac1{2m}\Sigma_{i=1}^m(\hat y-y)^2$ ，这里乘了 $\frac12$ 是为了使后面的计算式更为简洁。

梯度下降Gradient Decent

基本思路：首先赋予 $w$ 、 $b$ 初始值，用链式法则求出梯度，沿着梯度的反方向不断更新参数，使损失函数不断减小至收敛。具体求法为：

$\frac{\partial L}{\partial w}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial w}=\frac 1m\Sigma_{i=0}^m(\hat y_i-y_i)x_i$

$\frac{\partial L}{\partial b}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial b}=\frac 1m\Sigma_{i=0}^m(\hat y_i-y_i)$

参数更新：

$w_j←w_j+α(y−\hat y)x_j$

$b←b+α(y−\hat y)$

其中 $\alpha$ 称为学习率（learning rate）。

这里写图片描述

sklearn实现

代码

from sklearn import linear_model, datasets
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score


if __name__ == '__main__':
    #load data
    diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

    # Use only one feature
    diabetes_X = diabetes_X[:, np.newaxis, 2]

    # Split the data into training/testing sets
    diabetes_X_train = diabetes_X[:-20]
    diabetes_X_test = diabetes_X[-20:]

    # Split the targets into training/testing sets
    diabetes_y_train = diabetes_y[:-20]
    diabetes_y_test = diabetes_y[-20:]

    # Create linear regression object
    regr = linear_model.LinearRegression()

    # Train the model using the training sets
    regr.fit(diabetes_X_train, diabetes_y_train)

    # Make predictions using the testing set
    diabetes_y_pred = regr.predict(diabetes_X_test)

    # The coefficients
    print('Coefficients: \n', regr.coef_)
    # The mean squared error
    print('Mean squared error: %.2f'
        % mean_squared_error(diabetes_y_test, diabetes_y_pred))
    # The coefficient of determination: 1 is perfect prediction
    print('Coefficient of determination: %.2f'
        % r2_score(diabetes_y_test, diabetes_y_pred))

    # Plot outputs
    plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
    plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)

    plt.xticks(())
    plt.yticks(())

    plt.show()

Out：

Coefficients:
[938.23786125]
Mean squared error: 2548.07
Coefficient of determination: 0.47

可视化：

在这里插入图片描述
reference：

机器学习中的五种回归模型及其优缺点

稚与

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
9
评论
线性回归——Linear Regression原理

Linear Regression简介线性回归是一种回归学习方法，一般用于处理连续性变量，算是机器学习的入门算法。虽然线性模型的形式很简单，但是线性模型的思想是很重要的，许多非线性模型都是在线性模型的基础上通过引入高维映射而得。优点建模速度快，不需要复杂计算可解释性好缺点不适用与非线性数据可能出现过拟合基本原理基本形式给定数据集D={(x1,y1),......
复制链接

扫一扫