NNDL 作业2:第三章课后习题

习题3-2  在线性空间中,证明一个点x到平面f(x;w)=w^{T}x+b=0的距离为\left | f(x;w) \right |/\left \| w \right \|

设平面上有点x1,使得x-x1与该平面垂直

\because w也与该平面垂直,所以w和x-x1平行  即:x-x1=kw(k是常数)

\therefore 点x到平面的距离为|k| ||w||

\because w^{T}x+b=f(x;w)=0     w^{T}x1+b=0
\therefore f(x;w)=w^{T}(x-x1)     即  f(x;w)=w^{T}kw

两边同时取模得|f(x;w)|=||w|| |k| ||w||    

\therefore  |k| ||w||=\frac{f(x;w)}{||w||}  

点到平面的距离即证得

习题3-5 在Logistic回归中,是否可以用\hat{y}=\sigma (w^{T}x)去逼近正确的标签y,并用平方损失\left ( y-\hat{y} \right )^{2}最小化来优化参数w 

在以sigmoid为激活函数时,不能使用平方损失作为loss function,效果远不如cross entropy

(1)当以平方损失作为loss function时

L=\frac{1}{2}(\hat{y}-y)^{2}

\frac{\partial L}{\partial w}=(\hat{y}-y)\sigma {}'x

w=w-\eta \frac{\partial L}{\partial w}=w-\eta (\hat{y}-y){\sigma }'x

 当趋近正无穷和负无穷时,sigmoid函数趋于平缓,靠近中间,导数几乎为0,导致\frac{\partial L}{\partial w}趋近0,w 很难去优化

(2)当以cross entropy作为loss function时

{\sigma }'=\sigma \cdot \left ( 1-\sigma \right )y=\sigma \left ( w^{T}x \right )

L=-yln\hat{y}-(1-y)ln(1-\hat{y})

\frac{\partial L}{\partial w}=-y \frac{1}{\hat{y}}{\sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x

       =-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

       =\frac{\hat{y}\sigma (1-\sigma )x-y\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x+y\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

       =\frac{\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})} 

       =\frac{(\hat{y}-y)\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})} 

       =\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}

       =(\hat{y}-y)x 

可以看到梯度公式中没有\sigma {}',权重受(\hat{y}-y)影响,所以当误差大时权重更新快,误差小时权重更新慢,所以当使用sigmoid 作为激活函数时,常用交叉熵损失函数而不用均方误差损失函数

习题3-6 在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响 ?

 3.39 : R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}

加入正则化后:

R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W

\frac{\partial R(W)}{\partial W}=-\frac{1}{N} \sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2\lambda W

W=W+\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W

加入正则化后,在参数更新时每次需要减2\lambda W使参数不会太大,不会造成溢出之类的错误,同时也抑制过拟合

ref:

神经网络与深度学习[邱锡鹏] 第三章习题解析 - whyaza - 博客园

常见的损失函数(loss function)总结 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值