本系列文档按课程视频的章节(P+第几集)进行分类,记录了学习时的一些知识点,方便自己复习。
课程视频P93—选择要使用的功能
尽可能通过“调参”使数据符合正态分布。
增加维度
创造特征
课程视频P94—多元高斯分布
在平面图形上看,就会容易误判绿色的点,但是如果从三维图形看,它不一定是坏点。
下面用几张图形象的看一下高斯分布:
图一:μ取在原点,改变的值
压缩后的数据是可以重现回原始数据了,会有一点误差,但误差很小。
图三:改变μ的值,使其不在原点上:
PCA优点是可以压缩数据和加快算法运行,并用在二维和三维的可视化上。
虽然PCA可以压缩数据,并保留数据中99%的方差(理解为几乎保留了数据的全部有效信息),但是PCA不能用于防止过拟合,目前我们防止过拟合只能使用正则化。
课程视频P95
课程视频P96-基于内容的推荐算法
θ
\theta
θ对应用户,x对应电影。每一个用户有一个参数向量,这个向量点乘电影的的特征向量得到用户的分数。
theta是参数,是要学习的, x是人为分的电影的特征; theta*x=实际分数。实际分数是用户打的。
在这里插入图片描述
课程视频P89—高斯分布(Gaussian Distribution)
课程视频P97
下面我们来看怎么来求θ值:
这个公式其实是线性回归的变种,它和线性回归有很多相似的样子,其思路也很相似,代价函数都是预测值和实际值的差值平方和。
课程视频P98-协同过滤
一开始电影类型未知,根据用户的打分得知用户的喜好类型,从而模拟出该电影是什么类型的电影;进而又用该电影的类型去给用户模拟一个打分。就这样鸡生蛋、蛋生鸡,一直重复,精确度就越来越高。
课程视频P98
由用户给出打分θ,去学习电影类型x。
课程视频P99
在上面提到我们可以通过不过x --> θ --> x --> θ --> x --> …的过程来求出θ和x的最优值,这个过程比较复杂,下面有一种更简单的方法,我们可以同时求出x和θ的值:
** 整理一下协同过滤算法的流程:**
课程视频P100-向量化: 低秩矩阵分解
课程视频P101-向量化: 低秩矩阵分解
假设我们有下面一组数据:
即对于某一部电影,利用已经评过分的值(?不计算在内),计算出平均分,记为μ,于是归一化矩阵为原来的Y的每一个数减去这一行(这一部电影)对应的平均值,得到新的Y,如图片右侧所示(?的仍为?),利用这个新的Y矩阵学习θ和x的值。则对于Eve,之前关于最小化的分析仍成立,即
其实对于这个预测结果我们是可以接受的,因为我们不知道Eve的喜好,因此把她的评分预测为平均水平。
特殊情况:若出现有一部电影无评分的情况,则可以考虑使每列的均值为0,即计算每列的均值,用Y减去对应列的均值得到新的Y矩阵。
课程视频P102-大数据集训练模型(Learning With Large Datasets)
这部分内容和之前的 Machine Learning第六讲[应用机器学习的建议] --(二)诊断偏差和方差有重合部分。这个题目对应的点,也就是高方差和高偏差的情况,应该使用什么解决方案。
参考文献:
[1] https://blog.csdn.net/xueluowutong/article/details/85609983?spm=1001.2014.3001.5502
[2] https://blog.csdn.net/xueluowutong/article/details/85620471?spm=1001.2014.3001.5502
[3] https://blog.csdn.net/xueluowutong/article/details/85676076?spm=1001.2014.3001.5502
未完待续…