吴恩达机器学习打卡day10-CSDN博客

本文链接：https://blog.csdn.net/weixin_46915208/article/details/125035820

本系列文档按课程视频的章节（P+第几集）进行分类，记录了学习时的一些知识点，方便自己复习。

课程视频P93—选择要使用的功能

尽可能通过“调参”使数据符合正态分布。

在这里插入图片描述

图1

增加维度
在这里插入图片描述

图2

在这里插入图片描述

图3

创造特征

在这里插入图片描述

图4

课程视频P94—多元高斯分布

在平面图形上看，就会容易误判绿色的点，但是如果从三维图形看，它不一定是坏点。
在这里插入图片描述

图5

下面用几张图形象的看一下高斯分布：
图一：μ取在原点，改变的值

压缩后的数据是可以重现回原始数据了，会有一点误差，但误差很小。
在这里插入图片描述

图6

图三：改变μ的值，使其不在原点上：
在这里插入图片描述

图7

PCA优点是可以压缩数据和加快算法运行，并用在二维和三维的可视化上。
虽然PCA可以压缩数据，并保留数据中99%的方差（理解为几乎保留了数据的全部有效信息），但是PCA不能用于防止过拟合，目前我们防止过拟合只能使用正则化。
在这里插入图片描述

图8

课程视频P95

在这里插入图片描述

图9

## 课程视频P95

图10

课程视频P96-基于内容的推荐算法

$\theta$ 对应用户，x对应电影。每一个用户有一个参数向量，这个向量点乘电影的的特征向量得到用户的分数。
theta是参数，是要学习的, x是人为分的电影的特征; theta*x=实际分数。实际分数是用户打的。
在这里插入图片描述

图11

课程视频P89—高斯分布（Gaussian Distribution）

在这里插入图片描述

图12

在这里插入图片描述

图13

在这里插入图片描述

图14

课程视频P97

下面我们来看怎么来求θ值：
这个公式其实是线性回归的变种，它和线性回归有很多相似的样子，其思路也很相似，代价函数都是预测值和实际值的差值平方和。
在这里插入图片描述

图15

课程视频P98-协同过滤

一开始电影类型未知，根据用户的打分得知用户的喜好类型，从而模拟出该电影是什么类型的电影；进而又用该电影的类型去给用户模拟一个打分。就这样鸡生蛋、蛋生鸡，一直重复，精确度就越来越高。
在这里插入图片描述

图16

在这里插入图片描述

图17

课程视频P98

由用户给出打分θ，去学习电影类型x。

在这里插入图片描述

图18

课程视频P99

在上面提到我们可以通过不过x --> θ --> x --> θ --> x --> …的过程来求出θ和x的最优值，这个过程比较复杂，下面有一种更简单的方法，我们可以同时求出x和θ的值：

在这里插入图片描述

图19

** 整理一下协同过滤算法的流程：**
在这里插入图片描述

图19

课程视频P100-向量化：低秩矩阵分解

在这里插入图片描述

图20

在这里插入图片描述

图21

在这里插入图片描述

图22

课程视频P101-向量化：低秩矩阵分解

假设我们有下面一组数据：
即对于某一部电影，利用已经评过分的值（？不计算在内），计算出平均分，记为μ，于是归一化矩阵为原来的Y的每一个数减去这一行（这一部电影）对应的平均值，得到新的Y，如图片右侧所示（？的仍为？），利用这个新的Y矩阵学习θ和x的值。则对于Eve，之前关于最小化的分析仍成立，即
在这里插入图片描述

图23

其实对于这个预测结果我们是可以接受的，因为我们不知道Eve的喜好，因此把她的评分预测为平均水平。
特殊情况：若出现有一部电影无评分的情况，则可以考虑使每列的均值为0，即计算每列的均值，用Y减去对应列的均值得到新的Y矩阵。
在这里插入图片描述

图24

课程视频P102-大数据集训练模型（Learning With Large Datasets）

这部分内容和之前的 Machine Learning第六讲[应用机器学习的建议] --（二）诊断偏差和方差有重合部分。这个题目对应的点，也就是高方差和高偏差的情况，应该使用什么解决方案。
在这里插入图片描述

图25

参考文献：
[1] https://blog.csdn.net/xueluowutong/article/details/85609983?spm=1001.2014.3001.5502
[2] https://blog.csdn.net/xueluowutong/article/details/85620471?spm=1001.2014.3001.5502
[3] https://blog.csdn.net/xueluowutong/article/details/85676076?spm=1001.2014.3001.5502

未完待续…