吴恩达机器学习课程-作业8-异常检测和推荐系统（python实现）

最新推荐文章于 2022-11-04 20:03:03 发布

生榨的椰汁

最新推荐文章于 2022-11-04 20:03:03 发布

阅读量2k

点赞数 9

分类专栏： Machine Learing(Andrew) 文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44027820/article/details/104616231

版权

该博客介绍了吴恩达机器学习课程中异常检测和推荐系统的实践。异常检测通过高斯分布识别异常数据，而推荐系统利用协同过滤算法进行电影评分预测。博客详细阐述了参数估计、阈值选择、高维数据处理以及协同过滤的代价函数、梯度下降优化等关键步骤，并探讨了随机梯度下降在大数据量下的应用。

摘要由CSDN通过智能技术生成

椰汁笔记

这是也是一个非监督学习算法

异常检测做什么？
从一组数据中找到那些“异常”的数据，基于高斯分布（正太分布）。生活中的很多事情都是符合高斯分布的，对于数据也是如此。我们通过参数估计，估计出数据符合的高斯分布参数，当其中的数据分布在高斯分布中概率很小的地方，就认为这是异常数据。
具体怎么做？
选择可以描述异常状态的特征作为输入
$x^{(1)},x^{(2)},\dots,x^{(m)}$
根据以往的数据估计高斯分布的参数(对每一个特征)
$\mu_j=\frac{1}{m}\sum_{i=0}^{m}x_j^{(i)} \\\sigma_j^2=\frac{1}{m}\sum_{i=0}^{m}(x_j^{(i)}-\mu_j)^2$
对于一个新的数据，预测其发生概率
$P(x)=\prod_{j=1}^nP(x_j;\mu_j;\sigma_j^2)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}e^{-\frac{(x_j-\mu_)^2j}{2\sigma_j^2}}$
当概率小于一定阈值后认定为异常。
这个算法有什么缺点？
可以看到，之前的模型中对每个特征都是独立地处理，最后的组合只是简单的相乘。这样就是存在一些问题，特征之间的关联没有捕捉到。
升级的方式就是多元高斯分布，将不再单独考虑特征，而是将特征一起考虑，自动捕捉之间的关联。
参数的估计变为，其中的sigma为协方差矩阵
$\mu=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} \\\Sigma=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)}-\mu)(x^{(i)}-\mu)^T$

关注