深度学习作业二第三章课后

最新推荐文章于 2022-11-27 19:01:38 发布

岳轩子

最新推荐文章于 2022-11-27 19:01:38 发布

阅读量274

点赞数 2

分类专栏：深度学习习题

本文链接：https://blog.csdn.net/weixin_51395608/article/details/126982948

版权

深度学习习题专栏收录该内容

10 篇文章 1 订阅

订阅专栏

习题3-2

在线性空间中，证明一个点 $x$ 到平面 $𝑓(𝒙; 𝒘) = 𝒘^T𝒙 + 𝑏 = 0$ 的距离为 $∣ f (x; w) ∣/‖ w ‖$ 。

解答：

首先我们要知道高中的几个公式(多的就算是拓展了)
$\overrightarrow a \bot \overrightarrow b \rightarrow \overrightarrow a*\overrightarrow b=0,(1)$ $cos<\overrightarrow a,\overrightarrow b>={ \overrightarrow a \cdot \overrightarrow b\over |\overrightarrow a||\overrightarrow b|},(2)$ ${|\overrightarrow {AB} \cdot\overrightarrow n| \over |\overrightarrow n|},(\overrightarrow n为平面a的法向量，AB是a的一条射线，d为点B的距离),(3) $ $|\overrightarrow {AB}|cos\theta(\theta是\overrightarrow {AB}与法向量\overrightarrow {n}的夹角)$ $\overrightarrow a \cdot \overrightarrow b=|\overrightarrow a||\overrightarrow b|cos<\overrightarrow a,\overrightarrow b>,(4)$ $\overrightarrow {AB}=\overrightarrow {OB}-\overrightarrow{OA}=\overrightarrow {B}-\overrightarrow{A},(5)$
然后我们推导一下，

取一个在平面上的一个点 $𝒙_0$ ，做向量 $\overrightarrow {𝒙_0𝒙}$ ，点 $x$ 到平面的距离就是向量 $\overrightarrow {𝒙_0𝒙}$ 在平面法向量 $\overrightarrow {n}(就是\overrightarrow {𝒘} )$ 上的投影。

根据公式（2）
$\begin{aligned} cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘> &={ \overrightarrow {𝒙_0𝒙} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \\ &={ \overrightarrow {𝒙} \cdot \overrightarrow 𝒘-\overrightarrow {𝒙_0} \cdot \overrightarrow 𝒘\over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-𝑓(𝒙_0; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}\\ & ={𝑓(𝒙; 𝒘)-0 \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|}(x_0在平面上，所以𝑓(𝒙_0; 𝒘)=0)\\ &={𝑓(𝒙; 𝒘) \over |\overrightarrow {𝒙_0𝒙}||\overrightarrow 𝒘|} \end{aligned}$ 所以，将 $cos<\overrightarrow {𝒙_0𝒙},\overrightarrow 𝒘>$ 带入 $d$ 得
$|\over | 𝒘|}$

习题3-5

在Logistic回归中，是否可以用 $\sigma({𝒘}^T𝒙)$ 去逼近正确的标签𝑦，并用平方损失 $\hat 𝑦)^2$ 最小化来优化参数 $w$ ？

解答：
$\sigma(x)={1 \over 1+exp(-x)}$ 可以用 $s i g m o i d$ 函数去逼近正确的标签，但是并不建议用均方误差来优化函数。
${1\over2}\sum_{n=1}^N(y_n-\hat y_n)^2$ 这里均方误差加入常数项是为了求导方便，并不影响最终的结果。
下面开始公式推导
$\hat y = \sigma({𝒘}^T𝒙)\\ \begin{aligned} {∂E\over ∂w}&=\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)x_n\\ \end{aligned}$ 更新公式：
$w-μ{∂E\over ∂w}=w-\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)$ 由 $s i g m o i d$ 函数可以知道，值域位于 $[0, 1]$ 之内。所以最后所得出来 $\sum_{n=1}^N(y_n-\hat y_n)^2 \hat y_n (1-\hat y_n)$ 函数值极小。更新速率贼慢，不适用。

习题3-6

在 Softmax 回归的风险函数（公式 (3.39)）中，如果加上正则化项会有什么影响？

解答：

加上正则化后：
$R(w)=-{1\over N}\sum_{n=1}^N(y_n)^Tlog\hat y_n+λw^Tw$ 那么
${∂R(w)\over ∂w}=-{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n+2λw$ $w$ 的更新公式为：
$w=w+a{1\over N}\sum_{n=1}^N(y_n-\hat y_n)x_n-2λw$ 在每次更新参数中都要减去 $2 λ w$ ，使得新的参数不会太大，也不会造成溢出的错误发生，抑制了过拟合的发生。