NNDL 作业2：第三章课后作业

别被打脸

已于 2022-09-24 02:10:27 修改

阅读量679

点赞数 3

于 2022-09-23 23:53:26 首次发布

本文链接：https://blog.csdn.net/zhenjiteng/article/details/126814011

版权

前言

这次每个问题的公式都是一点一点手推的，感觉手推完真的收获了很多，并且好多概念上不清晰的，这次也明白了好多，并且，实在有点不懂的又去看了看达哥。感觉真收获了好多，所以可能话有点唠叨。

一、习题3-2

在线性空间中，证明一个点 $x$ 到平面 $f(x;w)=w^{T}x+b=0$ 的距离为 $|f(x;w)|/||w||$

首先，我先说明一点，这个推导只是一个过程，虽然推得比较细，我感觉明白了之后，要记住结论，就像我之前说过的要站在巨人的肩膀上，要明白原理，但是也要记住这个结论，老师之前给我说过，因为有些东西好用，是好多人经历了好长时间实验出来的经验，在初学阶段更多是去模仿，这就是站在站在巨人的肩膀上。

首先，画一个图的解释为

从我们到那是学数学的角度上说，理解点到平面的，就要先理解点到直线的。

证:根据定义，点 $p$ 到直线 $l$ 的距离是点 $p$ 到直线 $l$ 的垂线段的长，如图1.设点 $p$ 到直线 $l$ 的垂线为 $l^{'}$ ，垂足为 $Q$ ，由 $l\perp l^{^{'}}$ 可知 $l^{'}$ 的斜率为 $\frac{B}{A}$

所以 $l^{'}$ 的方程为： $y-y_{0}=\frac{B}{A}(x-x_{0})$ 与联立方程组

解得交点 $Q(\frac{B^{2}x_{0}-ABy_{0}-AC}{A^{2}+B^{2}},\frac{A^{2}y_{0}-ABx_{0}-BC}{A^{2}+B^{2}})$

所以 $|PQ|=\frac{(Ax_{0}+By_{0}+C)^{2}}{A^{2}+B^{2}}$ ,中间的化简过程稍微一推即可，这个结果比较好推(手推过了）。

下面，变到平面上，联系就是相当于是点到平面上的一条特殊直线的距离，理解这个是非常重要的。

下面放一段手推的过程，因为下课手推了一下，推得比较细一点。

主要是实在不想写了半天的浪费了，所以也请老师和各位大佬帮我纠纠错

二、习题3-5

在Logistic回归中，是否可以用 $\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签y,并用平方损失 $(y-\hat{y})^2$ ,最小化来优化参数 $w$ ？

这个其实一开始想到的还是达哥的解释，毕竟有句话叫有事不决去，请达哥，当你不清楚的时候，达哥会告诉你一切。

但是咱这是学习，所以我最后会说说当初看达哥视频直观上的感受，前边还是从理论上感受一下（这个查了好多资料，还是想要一种最直观的）。

理论上：

这个其实和2-1那个是差不多的，当时我总结的时候就说了，这是大致的规律差不多都可以用，但是有特殊情况，这个就是。

其实就是那句话分类用交叉熵损失，这个特殊是因为，说是回归其实还是分类任务，所以还是没有违背规律的

其实这个过程有点类似于当时分析最小二乘法，也有点像梯度下降法，但是我也说不好，请老师和各位大佬刚我纠正。

$R(w)=\frac{1}{2}(y-y\hat{})^{2}$

然后再就是咱们常见的求偏导，来求 $\Delta w$ ，也就是

$\frac{\partial R(w)}{\partial w}=y\hat{}(1-y\hat{})(y-y\hat{})$

前边其实就是一个sigmoid函数求导，所以由更新公式可知

$w{}'\leftarrow w+\sigma \Delta w$

也就是

$w{}'=w+\sigma y\hat{}(1-y\hat{})(y-y\hat{})$

分析到这明显可以看出sigmoid的局限性，由于y是（0,1）的，这样迭代速度会极慢，如果想提升速度，会导致 $\sigma$ 过大，当 $\sigma$ 过大时，会导致极小点无法被找到，也就是，梯度下降法步长过大的情况，所以用这个会不太好，明显不如交叉熵损失

下边是达哥的意思：

当我们使用平方误差作为损失函数的时候，你会想要让这个误差尽可能地小，对于这个逻辑回归损失函数，我们也想让它尽可能地小，为了更好地理解这个损失函数怎么起作用。

在这门课中有很多的函数效果和现在这个类似，就是如果 y 等于1，我们就尽可能让y变大，如果等 y于0，我们就尽可能让 y 变小。损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对 m 个样本的损失函数求和然后除以 m :

损失函数只适用于像这样的单个训练样本，而代价函数是参数的总代价，所以在训练逻辑回归模型时候，我们需要找到合适的 w 和 b ，来让代价函数 J 的总代价降到最低。根据我们对逻辑回归算法的推导及对单个样本的损失函数的推导和针对算法所选用参数的总代价函数的推导，结果表明逻辑回归可以看做是一个非常小的神经网络

这个是达哥视频上的推导，有兴趣的可以去看一看。（达哥是真狠，拜一拜）
在这里插入图片描述 三、习题3-6

在Softmax回归的风险函数中，如果加上正则化会有什么影响？

首先，先说一下，我第一时间就想到的，会导致参数矩阵 W 中，对应每个类别的矩阵向量w。这个是我第一时间就想到的，但是，我还是那句话，咱是学习，所以咱还是深入探究一下吧。

首先，先套一波这学期的神书蒲公英书上的解释，壮壮胆（也是从理论层面上解释）。

Softmax回归中使用的𝐶个权重向量是冗余的，即对所有的权重向量都减去一个同样的向量 𝒗，不改变其输出结果。因此，Softmax回归往往需要使用正则化来约束其参数。此外，我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题

先来一波公式上的推导，从公式的角度上（这个公式的推导，确实学了一会）：

风险回归函数为，同时也是正则化前

$R(w)=\frac{1}{N}\sum_{n=1}^{N}(y^{n})^{T}log\hat{y}^{n}$

正则化之为

$R(w)=\frac{1}{N}\sum_{n=1}^{N}(y^{n})^{T}log\hat{y}^{n}+\lambda w^{T}w$

对正则话之前的R（w）求偏导更新公式

$\frac{\partial R(w)}{\partial w}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{n}-y^{n})x^{n}$

对正则话之后的R（w）求偏导更新公式

$\frac{\partial R(w)}{\partial w}=-\frac{1}{N}\sum_{n=1}^{N}(y\hat{n}-y^{n})x^{n}+2\lambda w$

正则化前更新参数

$w=w+\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{n}-y^{n})x^{n}$

正则化后的更新参数
$w=w+\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{n}-y^{n})x^{n}-2\lambda w$

加入正则化后，在更新参数时每次需要减去 2λW ，使得参数不会太大，便不会造成溢出之类的错误发生，同时也会抑制过拟合。

正则化：

Regularization，中文翻译过来可以称为正则化，或者是规范化。什么是规则？闭卷考试中不能查书，这就是规则，一个限制。同理，在这里，规则化就是说给损失函数加上一些限制，通过这种规则去规范他们再接下来的循环迭代中，不要自我膨胀。

目的：

一方面要使得L(w)的取值最小，必然w的绝对值会取到很大，这样模型才能完美拟合训练样本点；另一方面，当w的绝对值很大时，||w||的值又会变得很大，因此为了权衡，只有使得w取值适当，才能保证值取到最优。这样得到的拟合曲线平滑很多，因此具有泛化能力。这就是正则化存在的意义，能帮助我们在训练模型的过程中，防止模型过拟合。

至于常用的正则化函数，这个也有，但是我感觉不如损失函数那么规律强。

心得体会

感觉这次真的学到了好多，以前都是之前记住结论，或者都是看达哥的视频，没有真的从公式推导的方面来细推这个，经过这些整理之后，感觉真的更清晰了，不想之前像背口诀一样的用。

第一部分，之前知道这个结论完全是记住的，这个在之前推过，但是其实是有点忘了推导过程的，只是记住了关键，联系就是相当于是点到平面上的一条特殊直线的距离，理解这个是非常重要的。由于这个是又完全手推的，所以真的清晰了，不像以前一样凭感觉，靠结论了。

第二部分，这个其实是以前只是靠达哥的结论，因为以前，看达哥的视频，达哥是完全证明过的，但是当时看晕晕乎乎的，当时看完，我感觉这个明白了，但是这个其实，真的大神就是大神，这个手推的话是真费劲，后来又看了看达哥，才明白了点，感觉弄彻底清楚是非常重要的，就像老师说的，咱们学人工智能，如果咱们不知道原理的话，只是那么用，和其他专业的学生有什么区别呢，所以这个是非常重要的

第三部分，这个以前也是考结论，到那是这个真的是完全可以手推的，就像我写的公式，我感觉这部分，更多的是理解正则化的定义，让公式的推理与概念，相互映证着来。这样才能真正理解，才能真正明白，而不会忘了，在理解了正则化定义以后，我又手推了一遍，感觉真的学到了好多东西。

最后当然是感谢老师，并且请老师和各位大佬多教教我。