文章目录
Week 2
3.1 多维特征
1)符号表示
X j X_j Xj:第 j j j个特征
n n n:特征的总数
x ⃗ ( i ) \vec{x}^{(i)} x(i):包含第 i i i 个训练示例的所有特征向量
x ⃗ j ( i ) \vec{x}_j^{(i)} xj(i):包含第 i i i 个训练示例的所有特征向量的第 j j j 个特征
2)多元线性回归
3)向量化
计算机硬件可以并行工作,所以向量化后运行速度快。
4)梯度下降
3.2 特征缩放
1)示例
示例:购房问题中, x 1 x_1 x1表示房屋尺寸, x 2 x_2 x2表示卧室数量
没经过特征缩放的效果:
等高线细长可能导致梯度下降时回来会横跳很长时间。
经过特征缩放的效果:
2)特征缩放的实现
3)均值归一化
可能会出现负值
首先找到平均值,也称训练集上的均值,用μ表示
分子: x − μ x-μ x−μ,分母: m a x − m i n max-min max−min
4)Z-score归一化
计算每个特征的标准差σ和平均值μ
3.3 梯度下降收敛判断
看学习曲线可以发现,300次迭代时的效果和后面的差不多,意味着梯度下降或多或少收敛了,因为曲线不再下降。
也可以通过自动收敛测试判断,但是正确的阈值ε的值不好确定。
3.4 学习率设置
验证是否有bug:将 α α α设置为一个非常小的数字,看看是否会导致成本降低。如果 α α α很小但是成本有时增加,则表示代码中存在错误。
3.5 特征工程
设计新的特征,通过转换或组合问题的原始特征来使学习算法更容易做出准确地预测。
3.6 多项式回归
特征工程很重要,不然出现高次幂就指数爆炸了。