机器学习：多元线性回归公式推导及代码实战

最新推荐文章于 2024-06-03 23:54:00 发布

Code-Dragon

最新推荐文章于 2024-06-03 23:54:00 发布

阅读量3.9k

点赞数 3

分类专栏：机器学习大数据文章标签：机器学习

本文链接：https://blog.csdn.net/zfx008/article/details/109351454

版权

大数据同时被 2 个专栏收录

6 篇文章 2 订阅

订阅专栏

机器学习

1 篇文章 1 订阅

订阅专栏

什么是多元线性回归

要了解这个问题，我们首先想到一元线性回归f(x)=wx+b，一元线性回归是一个主要影响因素作为自变量来解释因变量的变化，在现实问题研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时，所进行的回归分析就是多元线性回归。
设 $f(x_i)$ 为因变量， $x_1,x_2,...x_k 为自变量,$ 则多元线性回归可以表示为：
$f(x_i)=w_1x_1+w_2x_2+...w_kx_k+b$

多元线性回归公式推导

向量表达形式

用向量形式写成: $f(x_i)=w^Tx_i+b,$
$其中w=[w_1,w_2,...w_k],x=[x_1,x_2...x_k]均为列向量$
$w^T表w的转置，即行向量。$

推导过程

在这里插入图片描述

代码实战

数据集

这里有一个循环发电场的数据集，格式为csv，共有1001条记录，每个数据有6列，分别是: PE（输出电力)，AT（温度）, V（压力）, AP（湿度）, RH（压强），FL（风力）。我们要得到一个线性的关系，对应PE是label，而AT/V/AP/RH/FL这5个是feature。
部分数据集截图如下：

在这里插入图片描述

1、解析解求解

#用解析解（正规方程）求解多元线性回归代码
import  numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

#读数据 数据预处理
data=np.loadtxt("发电厂数据集.csv",delimiter=",",skiprows=1,dtype=np.float32)
#print(data)
#print(data.shape[1])  #shape[0]返回行  shape[1]返回列
index=np.ones((data.shape[0],1))
#print(index)
data=np.hstack((data,index))  #数据集合并全1的列
X=data[:,1:]  #切片
y=data[:,0]
#print(y)

#将数据集分成训练数据和测试数据  X的80%作为训练数据  20%作为测试数据
train_x,text_x,train_y,text_y=train_test_split(X,y,train_size=0.8)
# print(train_x.shape[0])
# print(text_x.shape[0])
#参数（权重）推导出来的解析解（正规方程）的代码
weight=np.dot(np.dot(np.linalg.inv(np.dot(train_x.T,train_x)),train_x.T),train_y)
#print(weight)

#用训练（学习）得到的模型预测
predict=np.dot(text_x,weight)  #得到预测值
# print(predict)

#绘制曲线可视化拟合情况
plt.plot(range(len(text_y)),text_y,c="red",alpha=0.5)  #绘制测试数据的真实值
plt.plot(range(len(text_y)),predict,c="blue",alpha=0.5)  #绘制测试数据的预测值
plt.show()

效果展示

运行结果如下：
在这里插入图片描述

sklearn求解

import numpy as np
from sklearn import linear_model
from sklearn.model_selection import  train_test_split
import matplotlib.pyplot as plt
import pickle
#读数据
data = np.loadtxt("发电厂数据集.csv",delimiter=",",skiprows=1,dtype=np.float32)
#分出特征数据X和Y
X=data[:,1:]
Y=data[:,0]
#分割训练数据与测试数据
X_train,X_test,y_train,y_test = train_test_split(X, Y, test_size=0.8)
#使用sklearn线性模型中的线性回归模型
model = linear_model.LinearRegression()
#训练模型
model.fit(X_train,y_train)

# 查看训练好的模型的参数
print(model.coef_)  #系数（权重）
print(model.intercept_)   #截距（偏重）
#模型预测
y_predict=model.predict(X_test)
#可视化看看模型效果
plt.rcParams['font.sans-serif']=["SimHei"]  #支持中文
plt.title("预测值与真实值的散点图")
plt.xlabel("样本ID")
plt.ylabel("Label值")
plt.scatter(np.arange(100),y_test[:100],c="red" )
plt.scatter(np.arange(100),y_predict[:100],c="green")
plt.show()