关于线性回归算法

最新推荐文章于 2023-09-07 10:38:17 发布

每天进步亿点点~

最新推荐文章于 2023-09-07 10:38:17 发布

阅读量814

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/zhicheng_xu/article/details/105878415

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性回归属于监督学习算法中，回归算法的一种，主要应用场景是连续数值型变量的预测问题。

模型

线性回归的模型为：
$\hat{y_i}=wx_i+b$
其中 $w : 特征权重$ ， $b : 偏置值$ ， $\hat{y_i} 为自变量的预测值$ ， $x_i为因变量$ ， $y_i为自变量的真实值$ 。

策略

线性回归通过拟合一条直线，使得预测值与真实值之间的差异最小。基于此目的，我们确定损失函数：
$L=\sum_{i}(y_i-\hat{y_i})^2$

参数 $(w, b)$ 的估计值 $(\hat{w}, \hat{b})$ ，将使得损失函数 $L$ 达到最小值，即：
$(\hat{w}, \hat{b})=argmin_{w,b}\sum(y_i-wx_i-b)^2$

参数求解

使用梯度下降法求解参数 $(\hat{w}, \hat{b})$ ，即分别对损失函数中的 $w, b$ 求一阶偏导数：
$\begin{aligned} \frac{\partial}{\partial_w}L &=\frac{\partial}{\partial_w}\sum(y_i-wx_i-b)^2 = 2(wx_i+b-y_i)x_i\end{aligned}$

$\begin{aligned} \frac{\partial}{\partial_b}L &=\frac{\partial}{\partial_b}\sum(y_i-wx_i-b)^2 = 2(wx_i+b-y_i)\end{aligned}$

可以得到参数 $w$ ， $b$ 的更新公式为：
$\longleftarrow w-\eta(wx_i+b-y_i)x_i$
$\longleftarrow b-\eta(wx_i+b-y_i)$
其中， $\eta$ 为学习率，即学习的步长，取值范围在 $[0, 1]$ 之间。

线性回归的scikit-learn实现

在scikit-learn中通过 sklearn.linear_model.LinearRegression 类进行实现，该类的主要参数和方法如下：

class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)

参数

fit_intercept：是否计算偏置项
normalize：是否归一化
n_jobs：指定CPU核数

属性

coef_：输出模型的权重向量 $w$
intercept_：输出模型的偏置项 $b$

方法

fit(X_train, y_train)：在训练集上训练模型
score(X_test, y_test)：返回模型在测试集上的得分，这里的得分是实际上是决定系数 $R^2$ ，可以理解成回归模型对原始数据的可解释程度，计算公式如下：
$R^2 = 1-\frac{\sum(y_i-\hat{y_i})^2}{\sum(y_i-\bar{y_i})^2}=1-\frac{回归误差}{均方误差}$

我们使用官方自带的波士顿房价数据建立线性回归预测模型，代码运行环境如下：

系统/软件	版本
Windows	Windows 10专业版
Python	Python 3.7

# 忽略警告
import warnings
warnings.filterwarnings('ignore')

# 导入波士顿房价数据
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
print (X.shape)
print(y.shape)

'''
上述步骤运行结果如下：
(506, 13)
(506,)
'''

# 划分数据集：训练集、测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 数据标准化
from sklearn import preprocessing

standard_X = preprocessing.StandardScaler()
X_train = standard_X.fit_transform(X_train)
X_test = standard_X.fit_transform(X_test)

standard_y = preprocessing.StandardScaler()
y_train = standard_y.fit_transform(y_train.reshape(-1, 1))
y_test = standard_y.fit_transform(y_test.reshape(-1, 1))

# 使用普通线性回归模型训练和预测
from sklearn.linear_model import LinearRegression
model_linearRegression = LinearRegression()
model_linearRegression.fit(X_train, y_train.ravel())
print('普通线性回归模型得分：%.3f'% model_linearRegression.score(X_test, y_test.ravel()))
print('特征权重：', model_linearRegression.coef_)
print('偏置值', model_linearRegression.intercept_)

'''
普通线性回归模型得分：0.778
特征权重： [-1.25033986e-01  8.31820979e-02  2.21863444e-03  4.95293742e-02
 -2.30770283e-01  2.66947733e-01  3.62496237e-04 -3.38742538e-01
  3.13757680e-01 -2.00036848e-01 -2.48256928e-01  1.24455186e-01
 -4.28563706e-01]
偏置值 3.997687893659791e-15
'''

# 画图(以普通线性回归模型的测试集数据示例)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] # 设置中文显示
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

fig = plt.figure(figsize=(20, 5), dpi=100)
ax = fig.add_subplot(111)
ax.set_title('线性回归模型得分：%.3f'%model_linearRegression.score(X_test, y_test.ravel()))
line1 = ax.plot(range(len(y_test)), y_test, 'b', label='真实值')
line2 = ax.plot(range(len(model_linearRegression.predict(X_test))), model_linearRegression.predict(X_test),'r--', label='预测值',linewidth=2)
legend = plt.legend(shadow=True)
legend.get_frame().set_facecolor('#6F93AE')

#保存图片
plt.savefig('线性回归模型结果.png')
#显示图片
plt.show()

最终可视化呈现如下：
在这里插入图片描述
可以看到模型最终的拟合效果与得分。

每天进步亿点点~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于线性回归算法

线性回归属于监督学习算法中，回归算法的一种，主要应用场景是连续数值型变量的预测问题。模型线性回归的模型为：yi^=wxi+b\hat{y_i}=wx_i+byi^=wxi+b其中 w:特征权重w:特征权重w:特征权重，b:偏置值b:偏置值b:偏置值，yi^为自变量的预测值\hat{y_i} 为自变量的预测值yi^为自变量的预测值，xi为因变量x_i为因变量xi为因变量，yi为自...
复制链接

扫一扫