吴恩达机器学习Deeplearning.ai课程学习笔记(Supervised Machine Learning Regression and Classification---week2)

最新推荐文章于 2024-10-08 20:27:53 发布

智能提桶工程师

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量209

点赞数 1

分类专栏：吴恩达机器学习课程——学习笔记文章标签：人工智能机器学习学习 Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_61573157/article/details/129227402

版权

吴恩达机器学习课程——学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

书接上文，我们跟着吴恩达大佬学习完了线性回归以及成本函数与相关的梯度下降的原理；在这周我们将开始多元线性回归的学习，包括其中的各种原理把哈哈哈哈。

多维特征

多维特征就是例如下图中的X1，X2，X3等等。对应于具体的模型，例如房价预测模型，对房价的各种影响因素（比较多时）便可叫做多维特征咯。显然，这和咱之前学的线性代数里的矩阵好像，多维向量类似的，其实就是一个道理而已，一直以来个人对于线性代数的理解一直都是基于一种系统的统一的格式对高维数据高维方程组的求解，利用矩阵。因此这也引出了python里面非常出名的数据处理包numpy,具体numpy我个人也还没有学的特别多，但是捏，能够一点点理解吧

numpy就在这里讲一点点吧，按大佬的课程来理解呢，其实就是可以将数据进行矩阵之类类似的运算，在numpy中是包含了并且支持这些运算的，这就使得我们的数据处理变得十分的简单，不需要刻意的去写太多的代码来实现我们的操作。

比如下图中：假如我们要实现例如左边的向量w与x的矩阵相乘，也就是想定义f(x)=w*x,如果是靠一般的for循环进行定义的话，就如左下角那一堆，亦或者右上角那一堆。但是如果我先用np.array定义w构造一个数组，下面就可以直接调用np的dot函数进行向量点积或矩阵乘法，一行代码搞定f函数的定义。

这虽然看起来很粗糙很简单，但这个功能是python之所以能成为目前机器学习最热门最实用的编程语言的前提之一。

多元线性回归的梯度下降

上一周的文章我们系统解释了什么是线性回归的梯度下降，下面我们可以引申一下。

很显然，左边是One feature的梯度下降公式，右边就是n features 的梯度下降公式，区别不大个人认为，不过是特征数多了几个，每一步走的原理还是一样的，但是每一步都会更新所有特征的w以及b才会继续下一步更新迭代，直到这所有玩意的偏导到极值啦，cost函数也就最小啦。

用向量表示呢，异常的简洁哈，如下图即可操作

这里

我想补充一点小知识，从数学原理上解释一下为毛这个J对w,b的偏导数可以直接成为一个类似真实值与预测值的差这种成本函数值。其实挺简单的，就是把成本函数J带入进去，利用简单的二元函数的偏导公式就能得出，当然对于多维特征来说也就是多元函数的偏导公式，但这些学过高数的孩子都明白，二元跟多元区别不大不就是多了几条方程式子咯。

值得稍微提一下的是，吴恩达大佬这边还提出了一种除了梯度下降法之外的回归操作替代方案。

正规方程（normal equation),具体见下图。

特征缩放：

也就是在回归途中的一种数据处理方式吧，为了方便梯度下降的别串稀了，把特征变量的范围在不影响相对大小的前提下缩放到一定的范围。

例如这个房价预测的例子哈，房屋尺寸的数值上是300-2000，卧室的数量数值是0-5，很显然这两个特征哥们的范围差的不是一点点了

所以，这会有啥影响捏。如下图的右上角，由于卧室的取值范围较小，尺寸范围较大，所以捏，在成本函数眼中，w2自然是要比较大一些（因为卧室的数量值很小），w1自然要小一些（因为尺寸的数值很大，如果w1还这么大，那这就太大了误差肯定巨大，成本函数必然不允许），所以，在这个模型中它的成本函数就是像右上角那玩意一样，特别细长，这会导致一个啥问题呢？我们自己梯度下降的步长由学习率决定，很明显，假如学习率稍微一点点大，在这个模型的梯度下降中，一小步就可能从左边直接跨到右边，完美错过最低点，自然从右往左也是，这样就永不达到最小值永不收敛。直接鸡

所以需要对特征进行一定的收缩，让它们的值比较接近，例如利用归一化公式把卧室数量和尺寸值都缩到0-1，这样的话所有数据都是0-1咯，成本函数就跟圆一样咯，自然梯度下降就没那么刺激咯，那么容易跳过最低点。