week2
四、多变量线性回归(Linear Regression with Multiple Variables)
4.1 多维特征
目前为止,我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x1, x2,…,xn,)。
增添更多特征后,我们引入一系列新的注释:
- n 代表特征的数量
- x(i) 代表第i个训练实例,是特征矩阵中的第i行,是一个向量(vector)
比如说,上图的:
- x(i)j代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征
支持多变量的假设h表示为:
hθ(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
这个公式中有n+1个参数和n个变量,为了使得公式能够简化一些,引入x0 = 1,则公式转化为:
hθ(x) = θ0x0 + θ1x1 + θ2x2 + … + θnxn
此时模型中的参数是一个n+1维的向量,任何一个训练实例都是n+1维的向量,特征矩阵X的维度是m*(n+1)。因此公式可以简化为:hθ(x) = θTX,其中上标T代表矩阵转置。
4.2 多变量梯度下降
同样地,在多变量线性回归中,代价函数是所有建模误差的平方和,即:
其中:hθ(x) = θTX = θ0 + θ1x1 + θ2x2 + … + θnxn
我们的目标和单变量线性回归问题一样,需要找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法为:
即:
求导数后得到:
开始随机选择一系列的参数值,计算所有的预测结果后,再给所有的参数一个新的值,如此循环直到收敛
python代码示例:
def computeCost(X, y, theta):
inner = np.power(((X * theta.T) - y), 2)
return np.sum(inner) / (2 * len(X))
4.3 梯度下降法实践1-特征缩放
面对多维特征问题,由于不同的特征量具有不同的含义和数值,需要要保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛,解决的方法是尝试所有的特征尺度都尽量缩放到-1~1之间。
通用的最简单的方法是令:xn = (xn - μn)/sn,其中μn是平均值,sn是标准差
4.4 梯度下降法实践2-学习率
梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,不能提前预知,但可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
此外还有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阈值(例如0.001)进行比较,但通常看上面的图标会更好。
梯度下降算法的每次迭代受到学习率 α 的影响,如果学习率 α 过小,则达到收敛所需的迭代次数会非常高;如果学习率 α 过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。
4.5 特征和多项式回归
如房价预测问题:
hθ(x) = θ0 + θ1 ✖ frontage + θ2 ✖ depth
x1 = frontage(临街宽度),x2 = depth(纵向深度),x = frontage * depth = area(面积),则hθ(x) = θ0 + θ1 x。
但是线性回归并不适用于所有数据,根据数据情况,有时需要曲线来适应我们的数据,比如一个二次方模型: 或者三次方模型: hθ(x) = θ0 + θ1 x1 + θ2 x22,或者三次方模型:
通常,需要现观察数据然后再决定准备尝试可能的模型,另外,我们可以将复杂模型转化为线性回归模型:
x2= x22,x3 = x33
那如果选择/转化多项式回归模型,在运行梯度下降算法前,特征缩放很有必要: