以根据房屋的属性来预测价格为例,假设房屋的价格与房屋的面积和居室的数目有关,如下表所示;
Living area() bedrooms Prices
2104 3 400
1600 3 330
2400 3 369
1416 2 232
3000 4 540
把房屋的面积记为特征,把居室的数目记为特征,价格记为。我们猜测和之间,满足关系:
因此我们可以建立模型:
我们也可以把上式写成向量的形式
其中,是参数,是我们的训练数据和检测数据中的特征值。实际上,是未知量,我们的目标就是通过训练数据调整,来使得输出的结果更接近真实值。
在将训练的数据中的代入,都会得到一个输出,这个值和真实的之间会存在一个随机的误差:
我们假定所有的房屋都是独立的,我们可以认为,误差的存在可能是房屋中的价格还会受到一些其他的因素的影响,而这些因素在建模的过程中没有体现,这些细枝末节可能使得房屋的价格有一些震荡。如果把这些因素看成随机变量,当足够多的随机变量叠加之后,根据中心极限定理,形成的分布就是正态分布。因此:
误差是独立同分布的,服从均值为0,方差为某定值的高斯分布。