多变量线性回归
模型
假设函数
此处为了表示方便将x0定1,且可以将其用矩阵相乘表示
代价函数
单变量与多变量梯度下降比对
特征缩放
举例
视频中举房价为例子,有两个变量x1为0-200的面积
x2为1-5的数量卧室
以θ1、θ2为变量绘制等高图
(立椭圆的图形特征可以用梯度下降的步伐或者导数大小来理解)
易见变量相差较大时,梯度下降需要多次迭代才能收敛
为减少迭代次数,通过缩放使他们相差较小(椭圆化圆的味道)
均值归一化(Mean normalization)
μi为xi的均值
Si为xi的范围(上限-下限)或标准差
(中心极限定理??)
学习率
学习了在迭代中决定迭代步伐大小,也就是说,α过大会得到不单调递减甚至发散的代价函数变化,α过小则导致迭代次数的增加,浪费了时间。
尝试不同的α,选择合适值。
特征和多项式回归
还是房价的例子,假设有两个特征frontage、depth,可以定义新的特征frontage*depth,即面积,更符合房价的原意。
多项式回归
所有问题的数据不都是线性的,我们需要用更高次的模型来适应数据集。
二次和三次举例
更合适的模型
注意:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。
正规方程
解释
针对线性某些线性回归问题,正规方程会给我们更好的方法来求θ
举例,对下图中的代价函数求导并置0,解出θ回代代价函数可求最小值
当有多个参数时候,构造矩阵X,y的构造形式同xi矩阵(下图左)
代价函数对θi求偏导并置0可得
X’ *X是为了获得方阵,然后求逆矩阵
西瓜书上部分解释
使用举例
使用条件
X’ *X是可逆矩阵
注意,其不是可逆矩阵的情况很少见,一般是一下两种情况:
1.特征多余(线性相关)
2.特征过多,m<=n(m为样本数,n为特征数)
在Octave中,即使条件不成立,也可以用pinv()来实现,即伪逆函数。
梯度下降与正规方程比对
梯度下降法 | 正规方程 |
---|---|
可能需要多次运行来选择α | 不用选择α |
需要多次迭代 | 无需迭代 |
通常在样本数量较多时用(>1w) | 通常在样本数量较少时用 |
适用各种模型 | 适用线性模型 |