Linear Regression
线性回归是机器学习领域的入门算法,其旨在寻找训练样本自变量和因变量间的函数关系,以对新样本求得预测值。
考虑最简单的情形:
训练集:
x
y
1
1
2
2
3
3
4
4
5
5
测试集:
x
y
6
?
要得到测试集中因变量y的值,一眼便能看出y = 6,其实,我们把这个“一眼”的过程可以分为很多段:1.寻找训练集中x和y的函数关系y=x 2.将测试集中自变量x的值带入函数y=x 3.得出最终因变量的值6,这也是线性回归模型一般的求解思路。
对于稍微复杂一些的模型(这里指不能“一眼”看出来的函数),例如下面的数据集:
x
y
1
1
2
3
3
4
4
6
5
8
我们又怎么得到它们的函数关系呢?
设自变量为
xi
,自变量为
yi
,我们旨在寻找合适的
w
和
在得到这样的式子以后,我们将自变量的值带入,即可得到对应的因变量的值(这里不是真实值),所以我们可以得到该数据集上的均方误差:
这里 y′i 指训练集上的预测值。我们的目标是使均方误差达到最小,对于此问题的优化方法很多,例如梯度下降法等,这里直接使用最小二乘法求全局最优解,对 w 和
联立方程即可求得 w 和
& b=
此时我们就得到了最终的线性回归模型:
考虑更为一般的情况,在实际应用中,训练集中的自变量往往拥有很多属性,所以,自变量不再是只有一个属性的向量,而是由许多属性组成的矩阵,对于这种情况,我们采取同样的方式求解
w
和