习题3-2:在线性空间中,证明一个点
x
x
x到平面
f
(
x
,
w
)
=
w
T
x
+
b
=
0
f(x,w)=w^{T}x+b=0
f(x,w)=wTx+b=0的距离为
∣
f
(
x
;
w
)
∣
/
∣
∣
w
∣
∣
|f(x;w)|/||w||
∣f(x;w)∣/∣∣w∣∣
答:设平面内有一点
x
′
{x}'
x′,使得
x
−
x
′
x-{x}'
x−x′垂直于此平面,因为w垂直于此平面,因此又有
x
−
x
′
x-{x}'
x−x′平行与
w
w
w。
即: x − x ′ = k w x-{x}'=kw x−x′=kw(k为常数),因此点x到平面的距离为 ∣ k ∣ ∗ ∣ ∣ w ∣ ∣ |k|*||w|| ∣k∣∗∣∣w∣∣,
又因为 w T x + b = f ( x ; w ) w^{T}x+b=f(x;w) wTx+b=f(x;w)且 w T x ′ + b = 0 w^{T}{x}'+b=0 wTx′+b=0。所以 f ( x ; w ) = w T ( x − x ′ ) f(x;w)=w^{T}(x-{x}') f(x;w)=wT(x−x′)。
代入 k w kw kw,得到 f ( x ; w ) = w T k w f(x;w)=w^{T}kw f(x;w)=wTkw。
对两边同时取模得到: ∣ f ( x ; w ) ∣ = ∣ ∣ w ∣ ∣ ∗ ∣ b ∣ ∗ ∣ ∣ w ∣ ∣ |f(x;w)|=||w||*|b|*||w|| ∣f(x;w)∣=∣∣w∣∣∗∣b∣∗∣∣w∣∣,
距离为 ∣ k ∣ ∗ ∣ ∣ w ∣ ∣ = f ( x ; w ) / ∣ ∣ w ∣ ∣ |k|*||w||=f(x;w)/||w|| ∣k∣∗∣∣w∣∣=f(x;w)/∣∣w∣∣。
习题3-5:在Logistic回归中,是否可以用
y
^
=
σ
(
w
T
x
)
\hat{y}=\sigma (w^{T}x)
y^=σ(wTx)去逼近正确的标签
y
y
y ,并用平方损失
(
y
−
y
^
)
2
(y-\hat{y})^{2}
(y−y^)2最小化来优化参数
w
w
w?
答:
在Logistic回归中可以用sigmoid函数去逼近正确的标签
y
y
y ,用平方损失
(
y
−
y
^
)
2
(y-\hat{y})^{2}
(y−y^)2最小化来优化参数
w
w
w则,我认为不可行。
E
=
1
2
(
y
^
−
y
)
2
E = \frac{1}{2}(\hat{y} - y)^{2}
E=21(y^−y)2
∂
E
∂
w
=
(
y
^
−
y
)
σ
′
x
\frac{\partial E}{\partial w} = (\hat{y} - y)\sigma ^{'}x
∂w∂E=(y^−y)σ′x
w
=
w
−
η
∂
E
∂
w
=
w
−
η
(
y
^
−
y
)
σ
′
x
w = w - \eta \frac{\partial E}{\partial w} = w - \eta (\hat{y} - y)\sigma ^{'}x
w=w−η∂w∂E=w−η(y^−y)σ′x
由于Sigmoid函数的横坐标绝对值较大时,函数值趋于平缓,因此大多数情况下
Δ
w
\Delta{w}
Δw几乎为0,
w
w
w很难去优化。
习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?
R
(
w
)
=
−
1
N
∑
n
=
1
N
(
y
(
n
)
)
T
l
o
g
y
^
(
n
)
R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}
R(w)=−N1n=1∑N(y(n))Tlogy^(n)
当我们加入正则化后:
R
(
w
)
=
−
1
N
∑
n
=
1
N
(
y
(
n
)
)
T
l
o
g
y
^
(
n
)
+
λ
W
T
W
R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W
R(w)=−N1n=1∑N(y(n))Tlogy^(n)+λWTW
则
∂
R
(
W
)
∂
W
=
−
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
+
2
λ
W
\frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} + 2\lambda W
∂W∂R(W)=−N1n=1∑N(y^(n)−y(n))x(n)+2λW
更新参数时:
W
=
W
+
α
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
−
2
λ
W
W = W + \alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} - 2\lambda W
W=W+αN1n=1∑N(y^(n)−y(n))x(n)−2λW
加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。