习题3-2
在线性空间中,证明一个点 𝒙 𝒙 x 到平面 𝑓 ( 𝒙 ; 𝒘 ) = 𝒘 T 𝒙 + 𝑏 = 0 𝑓(𝒙; 𝒘) = 𝒘^T𝒙 + 𝑏 = 0 f(x;w)=wTx+b=0 的距离为 ∣ 𝑓 ( 𝒙 ; 𝒘 ) ∣ / ‖ 𝒘 ‖ |𝑓(𝒙; 𝒘)|/‖𝒘‖ ∣f(x;w)∣/‖w‖ 。
解答:
首先我们要知道高中的几个公式(多的就算是拓展了)
a
→
⊥
b
→
→
a
→
∗
b
→
=
0
,
(
1
)
\overrightarrow a \bot \overrightarrow b \rightarrow \overrightarrow a*\overrightarrow b=0,(1)
a⊥b→a∗b=0,(1)
c
o
s
<
a
→
,
b
→
>
=
a
→
⋅
b
→
∣
a
→
∣
∣
b
→
∣
,
(
2
)
cos<\overrightarrow a,\overrightarrow b>={ \overrightarrow a \cdot \overrightarrow b\over |\overrightarrow a||\overrightarrow b|},(2)
cos<a,b>=∣a∣∣b∣a⋅b,(2)
d
=
∣
A
B
→
⋅
n
→
∣
∣
n
→
∣
,
(
n
→
为平面
a
的法向量,
A
B
是
a
的一条射线,
d
为点
B
的距离
)
,
(
3
)
d = {|\overrightarrow {AB} \cdot\overrightarrow n| \over |\overrightarrow n|},(\overrightarrow n为平面a的法向量,AB是a的一条射线,d为点B的距离),(3)
d=∣n∣∣AB⋅n∣,(n为平面a的法向量,AB是a的一条射线,d为点B的距离),(3)
d
=
∣
A
B
→
∣
c
o
s
θ
(
θ
是
A
B
→
与法向量
n
→
的夹角
)
d = |\overrightarrow {AB}|cos\theta(\theta是\overrightarrow {AB}与法向量\overrightarrow {n}的夹角)
d=∣AB∣cosθ(θ是AB与法向量n的夹角)
a
→
⋅
b
→
=
∣
a
→
∣
∣
b
→
∣
c
o
s
<
a
→
,
b
→
>
,
(
4
)
\overrightarrow a \cdot \overrightarrow b=|\overrightarrow a||\overrightarrow b|cos<\overrightarrow a,\overrightarrow b>,(4)
a⋅b=∣a∣∣b∣cos<a,b>,(4)
A
B
→
=
O
B
→
−
O
A
→
=
B
→
−
A
→
,
(
5
)
\overrightarrow {AB}=\overrightarrow {OB}-\overrightarrow{OA}=\overrightarrow {B}-\overrightarrow{A},(5)
AB=OB−OA=B−A,(5)
然后我们推导一下,
取一个在平面上的一个点 𝒙 0 𝒙_0 x0 ,做向量 𝒙 0 𝒙 → \overrightarrow {𝒙_0𝒙} x0x ,点 𝒙 𝒙 x 到平面的距离就是向量 𝒙 0 𝒙 → \overrightarrow {𝒙_0𝒙} x0x 在平面法向量 n → ( 就是 𝒘 → ) \overrightarrow {n}(就是\overrightarrow {𝒘} ) n(就是w) 上的投影。
根据公式(2)
c
o
s
<
𝒙
0
𝒙
→
,
𝒘
→
>
=
𝒙
0
𝒙
→
⋅
𝒘
→
∣
𝒙
0
𝒙
→
∣
∣
𝒘
→
∣
=
𝒙
→
⋅
𝒘
→
−
𝒙
0
→
⋅
𝒘
→
∣
𝒙
0
𝒙
→
∣
∣
𝒘
→
∣
=
𝑓
(
𝒙
;
𝒘
)
−
𝑓
(
𝒙
0
;
𝒘
)
∣
𝒙
0
𝒙
→
∣
∣
𝒘
→
∣
=
𝑓
(
𝒙
;
𝒘
)
−
0
∣
𝒙
0
𝒙
→
∣
∣
𝒘
→
∣
(
x
0
在平面上,所以
𝑓
(
𝒙
0
;
𝒘
)
=
0
)
=
𝑓
(
𝒙
;
𝒘
)
∣
𝒙
0
𝒙
→
∣
∣
𝒘
→
∣
\begin{aligned} cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘> &={ \overrightarrow {𝒙_0𝒙} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \\ &={ \overrightarrow {𝒙} \cdot \overrightarrow 𝒘-\overrightarrow {𝒙_0} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-𝑓(𝒙_0; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-0 \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}(x_0在平面上,所以𝑓(𝒙_0; 𝒘)=0)\\ &={𝑓(𝒙; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \end{aligned}
cos<x0x,w>=∣x0x∣∣w∣x0x⋅w=∣x0x∣∣w∣x⋅w−x0⋅w=∣x0x∣∣w∣f(x;w)−f(x0;w)=∣x0x∣∣w∣f(x;w)−0(x0在平面上,所以f(x0;w)=0)=∣x0x∣∣w∣f(x;w)所以,将
c
o
s
<
𝒙
0
𝒙
→
,
𝒘
→
>
cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘>
cos<x0x,w>带入
d
d
d得
d
=
∣
𝑓
(
𝒙
;
𝒘
)
∣
∣
𝒘
∣
d = { |𝑓(𝒙; 𝒘) |\over | 𝒘|}
d=∣w∣∣f(x;w)∣
习题3-5
在Logistic回归中,是否可以用 𝑦 = σ ( 𝒘 T 𝒙 ) 𝑦 = \sigma({𝒘}^T𝒙) y=σ(wTx) 去逼近正确的标签𝑦,并用平方损失 ( 𝑦 − 𝑦 ^ ) 2 (𝑦 − \hat 𝑦)^2 (y−y^)2 最小化来优化参数 𝒘 𝒘 w ?
解答:
σ
(
x
)
=
1
1
+
e
x
p
(
−
x
)
\sigma(x)={1 \over 1+exp(-x)}
σ(x)=1+exp(−x)1可以用
s
i
g
m
o
i
d
sigmoid
sigmoid 函数去逼近正确的标签,但是并不建议用均方误差来优化函数。
E
=
1
2
∑
n
=
1
N
(
y
n
−
y
^
n
)
2
E = {1\over2}\sum_{n=1}^N(y_n-\hat y_n)^2
E=21n=1∑N(yn−y^n)2这里均方误差加入常数项是为了求导方便,并不影响最终的结果。
下面开始公式推导
y
^
=
σ
(
𝒘
T
𝒙
)
∂
E
∂
w
=
∑
n
=
1
N
(
y
n
−
y
^
n
)
2
y
^
n
(
1
−
y
^
n
)
x
n
\hat y = \sigma({𝒘}^T𝒙)\\ \begin{aligned} {∂E\over ∂w}&=\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)x_n\\ \end{aligned}
y^=σ(wTx)∂w∂E=n=1∑N(yn−y^n)2y^n(1−y^n)xn更新公式:
w
=
w
−
μ
∂
E
∂
w
=
w
−
∑
n
=
1
N
(
y
n
−
y
^
n
)
2
y
^
n
(
1
−
y
^
n
)
w = w-μ{∂E\over ∂w}=w-\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)
w=w−μ∂w∂E=w−n=1∑N(yn−y^n)2y^n(1−y^n)由
s
i
g
m
o
i
d
sigmoid
sigmoid函数可以知道,值域位于
[
0
,
1
]
[ 0 , 1 ]
[0,1]之内。所以最后所得出来
∑
n
=
1
N
(
y
n
−
y
^
n
)
2
y
^
n
(
1
−
y
^
n
)
\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)
∑n=1N(yn−y^n)2y^n(1−y^n)函数值极小。更新速率贼慢,不适用。
习题3-6
在 Softmax 回归的风险函数(公式 (3.39))中,如果加上正则化项会有什么影响?
解答:
加上正则化后:
R
(
w
)
=
−
1
N
∑
n
=
1
N
(
y
n
)
T
l
o
g
y
^
n
+
λ
w
T
w
R(w)=-{1\over N}\sum_{n=1}^N(y_n)^Tlog\hat y_n+λw^Tw
R(w)=−N1n=1∑N(yn)Tlogy^n+λwTw那么
∂
R
(
w
)
∂
w
=
−
1
N
∑
n
=
1
N
(
y
n
−
y
^
n
)
x
n
+
2
λ
w
{∂R(w)\over ∂w}=-{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n+2λw
∂w∂R(w)=−N1n=1∑N(yn−y^n)xn+2λw
w
w
w的更新公式为:
w
=
w
+
a
1
N
∑
n
=
1
N
(
y
n
−
y
^
n
)
x
n
−
2
λ
w
w=w+a{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n-2λw
w=w+aN1n=1∑N(yn−y^n)xn−2λw在每次更新参数中都要减去
2
λ
w
2λw
2λw,使得新的参数不会太大,也不会造成溢出的错误发生,抑制了过拟合的发生。
当然,Softmax回归中使用的𝐶个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 𝒗,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题