深度学习 作业二 第三章课后

习题3-2

在线性空间中,证明一个点 𝒙 𝒙 x 到平面 𝑓 ( 𝒙 ; 𝒘 ) = 𝒘 T 𝒙 + 𝑏 = 0 𝑓(𝒙; 𝒘) = 𝒘^T𝒙 + 𝑏 = 0 f(x;w)=wTx+b=0 的距离为 ∣ 𝑓 ( 𝒙 ; 𝒘 ) ∣ / ‖ 𝒘 ‖ |𝑓(𝒙; 𝒘)|/‖𝒘‖ f(x;w)∣/‖w

解答:

首先我们要知道高中的几个公式(多的就算是拓展了)
a → ⊥ b → → a → ∗ b → = 0 , ( 1 ) \overrightarrow a \bot \overrightarrow b \rightarrow \overrightarrow a*\overrightarrow b=0,(1) a b a b =0,(1) c o s < a → , b → > = a → ⋅ b → ∣ a → ∣ ∣ b → ∣ , ( 2 ) cos<\overrightarrow a,\overrightarrow b>={ \overrightarrow a \cdot \overrightarrow b\over |\overrightarrow a||\overrightarrow b|},(2) cos<a ,b >=a ∣∣b a b ,(2) d = ∣ A B → ⋅ n → ∣ ∣ n → ∣ , ( n → 为平面 a 的法向量, A B 是 a 的一条射线, d 为点 B 的距离 ) , ( 3 ) ​ d = {|\overrightarrow {AB} \cdot\overrightarrow n| \over |\overrightarrow n|},(\overrightarrow n为平面a的法向量,AB是a的一条射线,d为点B的距离),(3) ​ d=n AB n ,(n 为平面a的法向量,ABa的一条射线,d为点B的距离),(3) d = ∣ A B → ∣ c o s θ ( θ 是 A B → 与法向量 n → 的夹角 ) d = |\overrightarrow {AB}|cos\theta(\theta是\overrightarrow {AB}与法向量\overrightarrow {n}的夹角) d=AB cosθ(θAB 与法向量n 的夹角) a → ⋅ b → = ∣ a → ∣ ∣ b → ∣ c o s < a → , b → > , ( 4 ) \overrightarrow a \cdot \overrightarrow b=|\overrightarrow a||\overrightarrow b|cos<\overrightarrow a,\overrightarrow b>,(4) a b =a ∣∣b cos<a ,b >,(4) A B → = O B → − O A → = B → − A → , ( 5 ) \overrightarrow {AB}=\overrightarrow {OB}-\overrightarrow{OA}=\overrightarrow {B}-\overrightarrow{A},(5) AB =OB OA =B A ,(5)
然后我们推导一下,

取一个在平面上的一个点 𝒙 0 𝒙_0 x0 ,做向量 𝒙 0 𝒙 → \overrightarrow {𝒙_0𝒙} x0x ,点 𝒙 𝒙 x 到平面的距离就是向量 𝒙 0 𝒙 → \overrightarrow {𝒙_0𝒙} x0x 在平面法向量 n → ( 就是 𝒘 → ) \overrightarrow {n}(就是\overrightarrow {𝒘} ) n (就是w ) 上的投影。

根据公式(2)
c o s < 𝒙 0 𝒙 → , 𝒘 → > = 𝒙 0 𝒙 → ⋅ 𝒘 → ∣ 𝒙 0 𝒙 → ∣ ∣ 𝒘 → ∣ = 𝒙 → ⋅ 𝒘 → − 𝒙 0 → ⋅ 𝒘 → ∣ 𝒙 0 𝒙 → ∣ ∣ 𝒘 → ∣ = 𝑓 ( 𝒙 ; 𝒘 ) − 𝑓 ( 𝒙 0 ; 𝒘 ) ∣ 𝒙 0 𝒙 → ∣ ∣ 𝒘 → ∣ = 𝑓 ( 𝒙 ; 𝒘 ) − 0 ∣ 𝒙 0 𝒙 → ∣ ∣ 𝒘 → ∣ ( x 0 在平面上,所以 𝑓 ( 𝒙 0 ; 𝒘 ) = 0 ) = 𝑓 ( 𝒙 ; 𝒘 ) ∣ 𝒙 0 𝒙 → ∣ ∣ 𝒘 → ∣ \begin{aligned} cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘> &={ \overrightarrow {𝒙_0𝒙} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \\ &={ \overrightarrow {𝒙} \cdot \overrightarrow 𝒘-\overrightarrow {𝒙_0} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-𝑓(𝒙_0; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-0 \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}(x_0在平面上,所以𝑓(𝒙_0; 𝒘)=0)\\ &={𝑓(𝒙; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \end{aligned} cos<x0x ,w >=x0x ∣∣w x0x w =x0x ∣∣w x w x0 w =x0x ∣∣w f(x;w)f(x0;w)=x0x ∣∣w f(x;w)0(x0在平面上,所以f(x0;w)=0)=x0x ∣∣w f(x;w)所以,将 c o s < 𝒙 0 𝒙 → , 𝒘 → > cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘> cos<x0x ,w >带入 d d d
d = ∣ 𝑓 ( 𝒙 ; 𝒘 ) ∣ ∣ 𝒘 ∣ d = { |𝑓(𝒙; 𝒘) |\over | 𝒘|} d=wf(x;w)

习题3-5

在Logistic回归中,是否可以用 𝑦 = σ ( 𝒘 T 𝒙 ) 𝑦 = \sigma({𝒘}^T𝒙) y=σ(wTx) 去逼近正确的标签𝑦,并用平方损失 ( 𝑦 − 𝑦 ^ ) 2 (𝑦 − \hat 𝑦)^2 (yy^)2 最小化来优化参数 𝒘 𝒘 w

解答:
σ ( x ) = 1 1 + e x p ( − x ) \sigma(x)={1 \over 1+exp(-x)} σ(x)=1+exp(x)1可以用 s i g m o i d sigmoid sigmoid 函数去逼近正确的标签,但是并不建议用均方误差来优化函数。
E = 1 2 ∑ n = 1 N ( y n − y ^ n ) 2 E = {1\over2}\sum_{n=1}^N(y_n-\hat y_n)^2 E=21n=1N(yny^n)2这里均方误差加入常数项是为了求导方便,并不影响最终的结果。
下面开始公式推导
y ^ = σ ( 𝒘 T 𝒙 ) ∂ E ∂ w = ∑ n = 1 N ( y n − y ^ n ) 2 y ^ n ( 1 − y ^ n ) x n \hat y = \sigma({𝒘}^T𝒙)\\ \begin{aligned} {∂E\over ∂w}&=\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)x_n\\ \end{aligned} y^=σ(wTx)wE=n=1N(yny^n)2y^n(1y^n)xn更新公式:
w = w − μ ∂ E ∂ w = w − ∑ n = 1 N ( y n − y ^ n ) 2 y ^ n ( 1 − y ^ n ) w = w-μ{∂E\over ∂w}=w-\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n) w=wμwE=wn=1N(yny^n)2y^n(1y^n) s i g m o i d sigmoid sigmoid函数可以知道,值域位于 [ 0 , 1 ] [ 0 , 1 ] [0,1]之内。所以最后所得出来 ∑ n = 1 N ( y n − y ^ n ) 2 y ^ n ( 1 − y ^ n ) \sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n) n=1N(yny^n)2y^n(1y^n)函数值极小。更新速率贼慢,不适用。

习题3-6

在 Softmax 回归的风险函数(公式 (3.39))中,如果加上正则化项会有什么影响?

解答:

加上正则化后:
R ( w ) = − 1 N ∑ n = 1 N ( y n ) T l o g y ^ n + λ w T w R(w)=-{1\over N}\sum_{n=1}^N(y_n)^Tlog\hat y_n+λw^Tw R(w)=N1n=1N(yn)Tlogy^n+λwTw那么
∂ R ( w ) ∂ w = − 1 N ∑ n = 1 N ( y n − y ^ n ) x n + 2 λ w {∂R(w)\over ∂w}=-{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n+2λw wR(w)=N1n=1N(yny^n)xn+2λw w w w的更新公式为:
w = w + a 1 N ∑ n = 1 N ( y n − y ^ n ) x n − 2 λ w w=w+a{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n-2λw w=w+aN1n=1N(yny^n)xn2λw在每次更新参数中都要减去 2 λ w 2λw 2λw,使得新的参数不会太大,也不会造成溢出的错误发生,抑制了过拟合的发生。

当然,Softmax回归中使用的𝐶个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 𝒗,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题

参考文章:邱锡鹏《神经网络与深度学习》—— 部分习题答案整理

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值