神经网络与深度学习 作业2:第三章课后习题

习题3-2:在线性空间中,证明一个点 x x x到平面 f ( x , w ) = w T x + b = 0 f(x,w)=w^{T}x+b=0 f(x,w)=wTx+b=0的距离为 ∣ f ( x ; w ) ∣ / ∣ ∣ w ∣ ∣ |f(x;w)|/||w|| f(x;w)∣/∣∣w∣∣
答:设平面内有一点 x ′ {x}' x,使得 x − x ′ x-{x}' xx垂直于此平面,因为w垂直于此平面,因此又有 x − x ′ x-{x}' xx平行与 w w w

即: x − x ′ = k w x-{x}'=kw xx=kw(k为常数),因此点x到平面的距离为 ∣ k ∣ ∗ ∣ ∣ w ∣ ∣ |k|*||w|| k∣∣w∣∣,

又因为 w T x + b = f ( x ; w ) w^{T}x+b=f(x;w) wTx+b=f(x;w) w T x ′ + b = 0 w^{T}{x}'+b=0 wTx+b=0。所以 f ( x ; w ) = w T ( x − x ′ ) f(x;w)=w^{T}(x-{x}') f(x;w)=wT(xx)

代入 k w kw kw,得到 f ( x ; w ) = w T k w f(x;w)=w^{T}kw f(x;w)=wTkw

对两边同时取模得到: ∣ f ( x ; w ) ∣ = ∣ ∣ w ∣ ∣ ∗ ∣ b ∣ ∗ ∣ ∣ w ∣ ∣ |f(x;w)|=||w||*|b|*||w|| f(x;w)=∣∣w∣∣b∣∣w∣∣,

距离为 ∣ k ∣ ∗ ∣ ∣ w ∣ ∣ = f ( x ; w ) / ∣ ∣ w ∣ ∣ |k|*||w||=f(x;w)/||w|| k∣∣w∣∣=f(x;w)/∣∣w∣∣

习题3-5:在Logistic回归中,是否可以用 y ^ = σ ( w T x ) \hat{y}=\sigma (w^{T}x) y^=σ(wTx)去逼近正确的标签 y y y ,并用平方损失 ( y − y ^ ) 2 (y-\hat{y})^{2} (yy^)2最小化来优化参数 w w w
答:
在Logistic回归中可以用sigmoid函数去逼近正确的标签 y y y ,用平方损失 ( y − y ^ ) 2 (y-\hat{y})^{2} (yy^)2最小化来优化参数 w w w则,我认为不可行。
E = 1 2 ( y ^ − y ) 2 E = \frac{1}{2}(\hat{y} - y)^{2} E=21(y^y)2
∂ E ∂ w = ( y ^ − y ) σ ′ x \frac{\partial E}{\partial w} = (\hat{y} - y)\sigma ^{'}x wE=(y^y)σx
w = w − η ∂ E ∂ w = w − η ( y ^ − y ) σ ′ x w = w - \eta \frac{\partial E}{\partial w} = w - \eta (\hat{y} - y)\sigma ^{'}x w=wηwE=wη(y^y)σx
由于Sigmoid函数的横坐标绝对值较大时,函数值趋于平缓,因此大多数情况下 Δ w \Delta{w} Δw几乎为0, w w w很难去优化。
习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

R ( w ) = − 1 N ∑ n = 1 N ( y ( n ) ) T l o g y ^ ( n ) R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)} R(w)=N1n=1N(y(n))Tlogy^(n)
当我们加入正则化后: R ( w ) = − 1 N ∑ n = 1 N ( y ( n ) ) T l o g y ^ ( n ) + λ W T W R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W R(w)=N1n=1N(y(n))Tlogy^(n)+λWTW

∂ R ( W ) ∂ W = − 1 N ∑ n = 1 N ( y ^ ( n ) − y ( n ) ) x ( n ) + 2 λ W \frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} + 2\lambda W WR(W)=N1n=1N(y^(n)y(n))x(n)+2λW
更新参数时: W = W + α 1 N ∑ n = 1 N ( y ^ ( n ) − y ( n ) ) x ( n ) − 2 λ W W = W + \alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} - 2\lambda W W=W+αN1n=1N(y^(n)y(n))x(n)2λW
加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

红肚兜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值