NNDL 作业2：第三章课后习题

最新推荐文章于 2022-12-10 17:45:27 发布

_Gypsophila___

最新推荐文章于 2022-12-10 17:45:27 发布

阅读量233

点赞数 1

本文链接：https://blog.csdn.net/weixin_73486730/article/details/127028709

版权

习题3-2 在线性空间中，证明一个点x到平面 $f(x;w)=w^{T}x+b=0$ 的距离为 $\left | f(x;w) \right |/\left \| w \right \|$

设平面上有点x1,使得x-x1与该平面垂直

$\because$ w也与该平面垂直，所以w和x-x1平行即：x-x1=kw（k是常数）

$\therefore$ 点x到平面的距离为|k| ||w||

$\because$ $w^{T}x+b=f(x;w)=0$ $w^{T}x1+b=0$
$\therefore$ $f(x;w)=w^{T}(x-x1)$ 即 $f(x;w)=w^{T}kw$

两边同时取模得 $|f(x;w)|=||w|| |k| ||w||$

$\therefore$ $|k| ||w||=\frac{f(x;w)}{||w||}$

点到平面的距离即证得

习题3-5 在Logistic回归中，是否可以用 $\hat{y}=\sigma (w^{T}x)$ 去逼近正确的标签y,并用平方损失 $\left ( y-\hat{y} \right )^{2}$ 最小化来优化参数w

在以sigmoid为激活函数时，不能使用平方损失作为loss function，效果远不如cross entropy

（1）当以平方损失作为loss function时

$L=\frac{1}{2}(\hat{y}-y)^{2}$

$\frac{\partial L}{\partial w}=(\hat{y}-y)\sigma {}'x$

$w=w-\eta \frac{\partial L}{\partial w}=w-\eta (\hat{y}-y){\sigma }'x$

当趋近正无穷和负无穷时，sigmoid函数趋于平缓，靠近中间，导数几乎为0，导致 $\frac{\partial L}{\partial w}$ 趋近0，w 很难去优化

（2）当以cross entropy作为loss function时

${\sigma }'=\sigma \cdot \left ( 1-\sigma \right )y=\sigma \left ( w^{T}x \right )$

$L=-yln\hat{y}-(1-y)ln(1-\hat{y})$

$\frac{\partial L}{\partial w}=-y \frac{1}{\hat{y}}{\sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x$

$=-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$=\frac{\hat{y}\sigma (1-\sigma )x-y\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x+y\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$=\frac{\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$=\frac{(\hat{y}-y)\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}$

$=(\hat{y}-y)x$

可以看到梯度公式中没有 $\sigma {}'$ ，权重受 $(\hat{y}-y)$ 影响，所以当误差大时权重更新快，误差小时权重更新慢，所以当使用sigmoid 作为激活函数时，常用交叉熵损失函数而不用均方误差损失函数

习题3-6 在Softmax回归的风险函数（公式（3.39））中，如果加上正则化项会有什么影响？

$3.39 : R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}$

加入正则化后：

$R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W$

$\frac{\partial R(W)}{\partial W}=-\frac{1}{N} \sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2\lambda W$

$W=W+\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W$

加入正则化后，在参数更新时每次需要减 $2\lambda W$ 使参数不会太大，不会造成溢出之类的错误，同时也抑制过拟合

ref:

关注