本文所用文件的链接
链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ
提取码:p57s
sklearn提供的线性回归相关API:
import sklearn.linear_model as lm
# 获取线性回归模型
model = lm.LinearRegression()
# 模型训练
# 输入集: x数据样本矩阵
# 输出集: 列向量
model.fit(输入集, 输出集)
# 通过输入样本得到预测输出
预测输出 = model.predict(输入样本)
评估训练结果误差(metrics)
线性回归模型训练完毕后, 可以利用测试集评估训练结果的误差. sklearn.metrics模块提供了计算模型误差的几个常用算法:
import slearn.metrics as sm
# 平均绝对值误差 1/m∑|预测输出-真实输出|
sm.mean_absolute_error(y, pred_y)
# 平均平方误差 sqrt(1/m∑(预测输出-真实输出)^2)
sm.mean_squared_error(y, pred_y)
# 中位数绝对值误差 median(|预测输出-真实输出|)
sm.median_absolute_error(y, pred_y)
# r2得分 (0,1]的一个分值,分数越高,误差越小
sm.r2_score(y, pred_y)
案例:利用single.txt文件的数据做线性回归模型。
"""
线性回归
"""
import numpy as np
import sklearn.linear_model as lm
import matplotlib.pyplot as mp
import sklearn.metrics as sm
x ,y = np.loadtxt('../ml_data/single.txt',
delimiter=',', usecols=(0,1),
unpack=True)
# 把x改为n行1列 这样才可以作为输入交给模型训练
x = x.reshape(-1, 1)
# 训练模型
model = lm.LinearRegression()
model.fit(x, y)
pred_y = model.predict(x)
# 评估回归模型的误差
# 平均绝对值误差 1/m∑|预测输出-真实输出|
print(sm.mean_absolute_error(y, pred_y))
# 平均平方误差 sqrt(1/m∑(预测输出-真实输出)^2)
print(sm.mean_squared_error(y, pred_y))
# 中位数绝对值误差 median(|预测输出-真实输出|)
print(sm.median_absolute_error(y, pred_y))
# r2得分 (0,1]的一个分值,分数越高,误差越小
print(sm.r2_score(y, pred_y))
mp.figure('Linear Regression', facecolor='lightgray')
mp.title('Linear Regression', fontsize=18)
mp.xlabel('X', fontsize=16)
mp.ylabel('Y', fontsize=16)
mp.tick_params(labelsize=12)
mp.grid(linestyle=':')
mp.scatter(x, y, s=60, c='dodgerblue',
label='Points')
mp.plot(x, pred_y, c='orangered', linewidth=2,
label='Regression Line')
mp.legend()
mp.show()
平均绝对值误差 1/m∑|预测输出-真实输出|
0.5482812185435971
平均平方误差 sqrt(1/m∑(预测输出-真实输出)^2)
0.436069032381806
中位数绝对值误差 median(|预测输出-真实输出|)
0.5356597030142558
r2得分 (0,1]的一个分值,分数越高,误差越小
0.7362638998481811
训练数据与预测结果的图像