神经网络与深度学习作业2：第三章课后习题

最新推荐文章于 2022-11-29 19:56:29 发布

红肚兜

最新推荐文章于 2022-11-29 19:56:29 发布

阅读量424

点赞数 1

本文链接：https://blog.csdn.net/weixin_63539289/article/details/127031036

版权

习题3-2:在线性空间中，证明一个点 $x$ 到平面 $f(x,w)=w^{T}x+b=0$ 的距离为 $∣ f (x; w) ∣/∣∣ w ∣∣$
答：设平面内有一点 ${x}'$ ,使得 $x-{x}'$ 垂直于此平面，因为w垂直于此平面，因此又有 $x-{x}'$ 平行与 $w$ 。

即： $x-{x}'=kw$ (k为常数),因此点x到平面的距离为 $∣ k ∣ * ∣∣ w ∣∣$ ,

又因为 $w^{T}x+b=f(x;w)$ 且 $w^{T}{x}'+b=0$ 。所以 $f(x;w)=w^{T}(x-{x}')$ 。

代入 $k w$ ，得到 $f(x;w)=w^{T}kw$ 。

对两边同时取模得到： $∣ f (x; w) ∣ = ∣∣ w ∣∣ * ∣ b ∣ * ∣∣ w ∣∣$ ,

距离为 $∣ k ∣ * ∣∣ w ∣∣ = f (x; w) /∣∣ w ∣∣$ 。

习题3-5：在Logistic回归中，是否可以用 $\hat{y}=\sigma (w^{T}x)$ 去逼近正确的标签 $y$ ,并用平方损失 $(y-\hat{y})^{2}$ 最小化来优化参数 $w$ ？
答：
在Logistic回归中可以用sigmoid函数去逼近正确的标签 $y$ ,用平方损失 $(y-\hat{y})^{2}$ 最小化来优化参数 $w$ 则，我认为不可行。
$\frac{1}{2}(\hat{y} - y)^{2}$
$\frac{\partial E}{\partial w} = (\hat{y} - y)\sigma ^{'}x$
$\eta \frac{\partial E}{\partial w} = w - \eta (\hat{y} - y)\sigma ^{'}x$
由于Sigmoid函数的横坐标绝对值较大时，函数值趋于平缓，因此大多数情况下 $\Delta{w}$ 几乎为0， $w$ 很难去优化。
习题3-6：在Softmax回归的风险函数（公式（3.39））中，如果加上正则化项会有什么影响？

$-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}$
当我们加入正则化后： $-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W$

则 $\frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} + 2\lambda W$
更新参数时： $\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} - 2\lambda W$
加入正则化后，在更新参数时每次需要减去2\lambda W，使得参数不会太大，便不会造成溢出之类的错误发生，同时也会抑制过拟合。