说得直观一点,就是将平面上的一些散点拟合为一条最为接近的曲线,获得曲线方程,从而可以通过输入其他x坐标的值实现对结果值的预测。
如图,这是简单的一元线性回归模型,训练数据包含X和Y两组,其中X中的数据表示学生在作业上投入的时间,Y中的数据表示学生的作业成绩,X和Y中的数据是一一对应的。笔者使用最小二乘回归拟合训练数据中X与Y的关系。
最小二乘法
其通过最小化误差的平方和寻找数据的最佳匹配函数。使用该方法可以实现预测未知的数据,并使得这些求得的数据与实际数据之间误差的平方和最小。
python类库
NumPy
Numeric Python。由多维数组对象和用于处理数组的例程集合组成的库,支持大量维度数组与矩阵运算,也针对数组运算提供大量的数学函数库。
Matplotlib
绘图库。可与NumPy一起使用,提供了一种有效的MatLab开源替代方案。
import matplotlib.pyplot as plt
import numpy as np
x = np.array([0.50, 0.75, 1.00, 1.25, 1.50, 1.85, 2.00, 2.25, 2.50, 2.75, 3.25, 3.50, 4.25, 5.00, 5.50])
y = np.array([10, 20, 22, 33, 40, 52, 48, 55, 55, 62, 73, 74, 82, 90, 93]) # 将(x,y)坐标点输入
z1 = np.polyfit(x, y, 2)
#使用polyfit方法进行拟合,选择二次方程式
p1 = np.poly1d(z1)
# 打印拟合多项式
print(p1)
# 求对应的各项拟合函数值
fx = p1(x)
# 绘制图像
plot1 = plt.plot(x, y, '*', label='study time')
plot2 = plt.plot(x, fx, 'r', label='score')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc=4)
plt.title('score')
plt.show()
plt.savefig('score.png')
文章参考:张一鸣
处于初步学习阶段,如有不妥或问题敬请指出。