吴恩达机器学习第3-4章
第三章
第三章主要讲解矩阵的基础知识,如果你考过研了,你可以跳过。如果没有考过研的话,需要认真看一看,但由于讲得比较基础,可能会有很多不懂的地方,你可以找一找讲线性代数的课程看一看。
第四章
4-1多变量
若我们有四个特征量,当我们有多个特征值后,我们的预测方程就应该变化。
为了方便表达,我们会令x0=1,相当于额外定义了一个特征量x0。之后的预测方程就可以变为
4-2 多元梯度下降
根据上一章得出的多元特征的预测函数和代价函数,则可以得出他的新梯度下降的表示形式。
4-3 多元梯度下降演练1-特征缩放
当有两个特征量,而且这两个特征量的值相差特别大时,那么画出来的等高线则会非常的细长,需要找很久才能找到全局最小值。
这个时候,一个有效的方法就时特征缩放。这样画出来的等高线就会看起来更圆一点。
通常我们将特征值缩放到-1到1这个区间,当然这个不是必须的,也可以缩放到其他区间,
有时候我们也会做均值归一化。特征量减平均值再除以数量。
4-4 多元梯度下降演练2学习率
不同的问题,学习迭代的次数就不一样,有的问题可能迭代30次就收敛了,有的问题迭代300次才收敛。
当步长太大时,可能会照成无法收敛的状态。当步长太小时,可能会照成收敛很慢的状态。
4-5 特征和多项式回归
若再房屋售卖的例子中,我们的特征值有一个长度和宽度,那么就意味着房屋的面积为长乘宽。那么预测方程就能变成一个特征值房屋面积。
4-6 正规方程(区别于迭代方法的直接解法)
我们之前一直用的都是梯度下降法来求各个θ值。而正规方程用的是解析方程而得到的θ值,所以不再需要我们去运行迭代算法,而是直接一次性的就出θ的值。可以看出,其实正规方程就是为函数求导,而得到最小值。如果学过高数的话,应该很容易理解
若放在矩阵中的话,情况就会稍微有点不一样。直接用一直式子就可以得出使函数最小化的θ值。
梯度下降和正规方程的比较。当特征值的数量很大时,推荐使用梯度下降,当特征值的数量不是很大时,推荐使用正规方程。
4-7 正规方程在矩阵不可逆的情况下的解决方法
在有时候我们可能会碰到特征方程不可逆的情况,在Octave中,有个函数为pinv,他能够在矩阵不可逆的情况下,就出θ。
矩阵不可逆的情况一般有两种:一种时包含了多余的特征值,如房屋售卖中,一种特征值为米为单位的房屋面积,另一种时以英尺为单位的房屋面积。另一种是特征值太多了,导致样本数量小于特征值的数量。