1.特征
前面已经了解过多变量的线性回归,现在学习一些可供选择的特征,以及如何得到不同的学习算法,当选择了合适的特征后,这些算法往往是非常有效的,另外也了解多项式回归,它使得我们能够使用线性回归的方法来拟合非常复杂的函数,甚至是非线性函数。
以预测房价为例,假设有两个特征分别是房子临街宽度和垂直宽度,可以建立一个这样的线性回归模型,hθ(x) = θ0 + θ1x1 + θ2x2,其中临街宽度是第一个特征x1,纵深是第二个特征x2。
但在运用线性回归时不一定非要用给出的x1,x2作为特征,其实可以自己创造新的特征。如预测房价时更多考虑的是所拥有的土地的面积,因此我们可以创建一个新的特征x表示土地的面积,即临街宽度和纵深的乘积。于是使用如下式子作为假设,hθ(x) = θ0 + θ1x
该式子只用一个特征,即所拥有的土地面积。
有时通过定义新的特征,可能会得到一个更好的模型。
2.多项式回归
与选择特征相的想法密切相关的一个概念被称为多项式回归,比如有一个住房价格的数据集,可能会有多个不同的模型用于拟合,选择之一是这样的二次模型
直线似乎不能很好的模拟这些数据,但会发现二次函数模型不合理,因为我们不觉得随着土地面积的增加,房子的价格会降下来。因此会考虑不同的模型,转而选择使用一个三次函数,它的拟合效果就比较好。hθ(x) = θ0 + θ1 x1 + θ2 x2 + θ3 x3
如何将模型与数据进行拟合呢?使用多元线性回归的方法,可以对算法做一个简单的修改来实现它
仅仅通过将这三个特征特征这样设置,然后再应用线性回归的方法,就可以模拟这个模型,最终将一个三次函数拟合到数据上,如果像上述那样选择特征,那么特征缩放就变得重要了,因此如果使用特征下降法,特征缩放特别重要,这样才能将值变得有可比性。
我们有很大的余地来选择使用哪些特征: