特征缩放意义:
若特征间差异过大,成本函数的等高线为椭圆
会导致在梯度下降过程中来回徘徊
将特征适当缩放,让等高线近似于圆形,便于进行计算
特征缩放常用方法:
Feature scaling:
x
x
m
a
x
\frac{x}{xmax}
xmaxx
Mean normalization:
x
−
μ
x
m
a
x
−
x
m
i
n
\frac{x-μ}{xmax-xmin}
xmax−xminx−μ
Z-score normalization:
x
−
μ
σ
\frac{x-μ}{σ}
σx−μ
学习曲线:
通过设定迭代次数判断梯度下降是否收敛
学习率:
学习率太大:可能导致成本函数不降反升
学习率太小:迭代次数太多
特征工程:
从原有数据中,提取更能描述数据特征的变量,例如x2/
x
\sqrt{x}
x/x1x2等等
过拟合
过拟合: 尽管回归后数据集的损失很小,但方差过大,过度满足了样本数据。
当数据集有一点点变动,计算结果将会改变很大。
防止过拟合: 足够多的训练集/选择适量的合适特征/正则化
正则化: 保留所有特征功能,只是防止特征产生较大的影响
J(w, b) =
1
2
m
[
∑
i
=
1
m
(
y
^
i
−
y
i
)
2
]
+
λ
2
m
[
∑
i
=
1
m
(
w
j
)
2
]
\frac{1}{2m}[ \sum_{i=1}^{m} (ŷ^i - y^i)^2]+\frac{λ}{2m}[ \sum_{i=1}^{m} (w_{j})^2]
2m1[∑i=1m(y^i−yi)2]+2mλ[∑i=1m(wj)2]