异常检测与推荐系统机器学习基础(8)

最新推荐文章于 2024-02-03 16:02:00 发布

海上机械师

最新推荐文章于 2024-02-03 16:02:00 发布

阅读量2.1k

点赞数 1

分类专栏：算法机器学习文章标签：机器学习异常检测推荐系统高斯分布协同过滤

本文链接：https://blog.csdn.net/i_love_home/article/details/50771951

版权

算法同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

异常检测

异常检测被广泛应用于欺诈检测（例如信用卡被偷事件）。给定大量数据，指出与均值有巨大差异的点。例如，在制造业中检测缺陷与异常。高斯分布对数据建模往往会很有用。

本模块涉及“推荐系统”（Amazon, Netflix, Apple 等公司用它来向用户推荐产品）。推荐系统（Recommender systems）寻找用户与产品间的交互模式从而生成推荐建议。该课程介绍了推荐算法，例如协同过滤算法与低秩矩阵分解。

密度估计

问题动机

密度估计

异常检测的案例：（欺诈/不正常行为）

特征 $x^{(i)}$
于数据中建立模型 $p(x)$
定义异常值，根据 $p(x) < ε$

当然，参数 $ε$ 是决定异常的关键。

高斯分布

x \sim N (μ, σ 2) = 1 2 π - - \sqrt σ e (- ( x - μ ) 2 2 σ 2) p (x; μ, σ 2) μ = 1 m \sum i = 1 m x (i), σ 2 = 1 m \sum i = 1 m (x (i) - μ) 2

$\begin{gathered} x \sim N\left( {\mu ,{\sigma ^2}} \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{\left( { - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}} \right)}} \\ p\left( {x;\mu ,{\sigma ^2}} \right) \\ \mu = \frac{1}{m}\sum\limits_{i = 1}^m {{x^{\left( i \right)}}} ,{\sigma ^2} = \frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {{x^{\left( i \right)}} - \mu } \right)}^2}} \\ \end{gathered}$

算法

1 密度估计

类似《数理统计》中的极大似然估计方法。

p (x) = p (x 1; μ 1, σ 21) p (x 2; μ 2, σ 22) \dots p (x n; μ n, σ 2 n) = \prod i = 1 n p (x i; μ i, σ 2 i) x \in R n; x 1 \sim N (μ 1, σ 21), \dots, x n \sim N (μ n, σ 2 n)

$\begin{aligned} p\left( x \right) = p\left( {{x_1};{\mu _1},\sigma _1^2} \right)p\left( {{x_2};{\mu _2},\sigma _2^2} \right) \cdots p\left( {{x_n};{\mu _n},\sigma _n^2} \right) = \prod\limits_{i = 1}^n {p\left( {{x_i};{\mu _i},\sigma _i^2} \right)} \\ x \in {\mathbb{R}^n};{x_1} \sim N\left( {{\mu _1},\sigma _1^2} \right), \cdots ,{x_n} \sim N\left( {{\mu _n},\sigma _n^2} \right) \\ \end{aligned}$

2 算法流程

选择能作为指出异常例子的特征 $x_i$
参数估计 ${\mu _i},\sigma _i^2$
$μ i = 1 m \sum j = 1 m x (j) i, σ 2 i = 1 m \sum j = 1 m (x (j) i - μ i) 2$ ${\mu _i} = \frac{1}{m}\sum\limits_{j = 1}^m {x_i^{\left( j \right)}} ,\sigma _i^2 = \frac{1}{m}\sum\limits_{j = 1}^m {{{\left( {x_i^{\left( j \right)} - {\mu _i}} \right)}^2}}$
给定新的例子 $x$ ，计算 $p(x)$
$p (x) = \prod j = 1 n p (x j; μ j, σ 2 j) = \prod j = 1 n 1 2 π - - \sqrt σ j e ⎛ ⎝ - ( x j - μ j ) 2 2 σ 2 j ⎞ ⎠$ $p\left( x \right) = \prod\limits_{j = 1}^n {p\left( {{x_j};{\mu _j},\sigma _j^2} \right)} = \prod\limits_{j = 1}^n {\frac{1}{{\sqrt {2\pi } {\sigma _j}}}{e^{\left( { - \frac{{{{\left( {{x_j} - {\mu _j}} \right)}^2}}}{{2\sigma _j^2}}} \right)}}}$
$p(x) < ε$ ，则为异常。

构建异常检测系统

值得注意的事，异常检测并不是一种监督学习方法。

开发与评估异常检测系统

估计异常检测系统最直接且有效的方法是采用数值评估的方法。
数据集将被分为训练集、验证集与预测集：60%, 20%, 20%。其中我们训练集是无异常的，记作 $x^{(i)}$ ，验证集与预测集包含标签（是否异常），记作 $(x^{(i)}_{CV}, y^{(i)}_{CV})$ 与 $(x^{(i)}_{test}, y^{(i)}_{test})$ 。

例如：10000正常，20异常（异常的数量一般很少）

训练集：6000正常
验证集：2000正常，10异常
预测集：2000正常，10异常

1 算法评估

算法可调整的参数有特征与阈值 $ε$ ，用于改善系统性能，其改善的方法遵循迭代的规则：

x t r a i n - \to - p (x) x C V                  参 数 : 特 征 ， ε 值                  反 复 评 估 ， 迭 代 至 最 好 的 p (x) - \to - - - - b e s t p (x) x t e s t \to 结 果

$\underbrace {\overbrace {{x_{train}}\xrightarrow{{p\left( x \right)}}{x_{CV}}}^{参数:~特征，\varepsilon 值}}_{反复评估，迭代至最好的~p\left( x \right)}\xrightarrow{{best ~~ p\left( x \right)}}{x_{test}} \to 结果$

评估指标

预测准确率

召回率/查准率

F1 值

异常检测 vs. 监督学习

在异常检测系统设计中，给定的数据是存在标签的（正常：异常？1:0），那么，这是不是意味着异常检测等同于监督学习呢？

表11
表12

特征选择

特征选择是为了希望异常值检测更加准确。

特征的分布近似为高斯分布，更有利于算法。我们通过数值运算将原有的特征分布由非高斯分布逼近于高斯分布。
增加一些有效的特征，有利于异常检测，方法包含增加新特征、从原有特征衍生的特征。

多元高斯分布

多元高斯分布能检测到更多有利于异常检测的信息。

多元高斯分布

有时候，一元的高斯分布去除了特征间的关联性，会导致异常值也属于正常范围内，而多元高斯分布很好的保留了各个特征两两间的关联性，这里，我们用协方差来表示2个变量间的独立性，即关联程度，可称之为相关系数。

变量： $x \in {\mathbb{R}^n},p\left( x \right)$
参数： $\mu \in {\mathbb{R}^n},\Sigma \in {\mathbb{R}^{n \times n}}$
模型：
$p (x; μ, Σ) = 1 2 π - - \sqrt | Σ | 1 2 e (- 1 2 (x - μ) T Σ - 1 (x - μ))$ $p\left( {x;\mu ,\Sigma } \right) = \frac{1}{{\sqrt {2\pi } {{\left| \Sigma \right|}^{\frac{1}{2}}}}}{e^{\left( { - \frac{1}{2}{{\left( {x - \mu } \right)}^{\text{T}}}{\Sigma ^{ - 1}}\left( {x - \mu } \right)} \right)}}$

其中， $\left| \Sigma \right|$ 为协方差矩阵 $\Sigma$ 的行列式值。

使用多元高斯分布的异常检测

多元高斯分布与一元高斯分布的区别在于参数 $\mu$ 与 $\Sigma$ 的估计方法。

μ = 1 m \sum m i = 1 x (i), Σ = 1 m \sum m i = 1 (x (i) - μ) (x (i) - μ) T

$\mu = \frac{1}{m}\sum\nolimits_{i = 1}^m {{x^{\left( i \right)}}} ,\Sigma = \frac{1}{m}\sum\nolimits_{i = 1}^m {\left( {{x^{\left( i \right)}} - \mu } \right){{\left( {{x^{\left( i \right)}} - \mu } \right)}^{\text{T}}}}$

我们可以发现，当协方差矩阵 $\Sigma$ 为对角矩阵的时候，多元高斯分布又变成了一元高斯分布，其中对角线上的值为各个特征的方程 $\sigma _i^2$ 。

下面，我们对一元高斯分布于多元高斯分布做一个简单的对比，

一元/多元高斯分布对比

推荐系统

本模块涉及的知识包含协同过滤算法与低秩矩阵分解。

预测电影评分

问题制定

预测电影评分的问题有如下定义：

$n_u$ 为用户数；
$n_m$ 为电影数；
$r(i, j) = 1$ ，即用户 $j$ 对电影 $i$ 评分过；
$y(i, j)$ ，当 $r(i, j) = 1$ 时，用户 $j$ 对电影 $i$ 的评分。

问题制定

基于内容的推荐

内容推荐

问题的描述：

参数
${x^{\left( i \right)}}$ ：电影 $i$ 的特征向量；
${\theta ^{\left( j \right)}}$ ：用户 $j$ 的参数向量，；
$n$ ：特征 $(x_1, x_2, …, x_n)$ 的数量；
${m^{\left( j \right)}}$ ：用户 $j$ 评分过的电影数；
${\left( {{\theta ^{\left( j \right)}}} \right)^{\text{T}}}\left( {{x^{\left( i \right)}}} \right)$ ：用户 $j$ 对电影 $i$ 的评分。
目标方程（类似最小二乘问题）
子目标： ${\theta ^{\left( i \right)}}$
$min θ (j) 1 2 m ( j ) \sum i : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) 2 + λ 2 m ( j ) \sum k = 1 n (θ (j) k) 2$ $\mathop{\min}\limits_{\theta^{(j)}} ~\frac{1}{{2{m^{\left( j \right)}}}}\sum\limits_{i:r\left( {i,j} \right) = 1} {{{\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)}^2}} + \frac{\lambda }{{2{m^{\left( j \right)}}}}\sum\limits_{k = 1}^n {{{\left( {\theta _k^{\left( j \right)}} \right)}^2}}$
优化目标： ${\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}$
$min θ (1), \dots, θ (n u) 1 2 \sum j = 1 n u \sum i : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) 2 + λ 2 \sum j = 1 n u \sum k = 1 n (θ (j) k) 2$ $\mathop {\min }\limits_{{\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}} \frac{1}{2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{i:r\left( {i,j} \right) = 1} {{{\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)}^2}} } + \frac{\lambda }{2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{k = 1}^n {{{\left( {\theta _k^{\left( j \right)}} \right)}^2}} }$
梯度：
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial \partial θ ( j ) k J = \sum i : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) x (i) k, k = 0 \partial \partial θ ( j ) k J = \sum i : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) x (i) k + λ θ (j) k, k \neq 0$ $\left\{ \begin{gathered} \frac{\partial }{{\partial \theta _k^{\left( j \right)}}}J = \sum\limits_{i:r\left( {i,j} \right) = 1} {\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)x_k^{\left( i \right)}} ,\quad k = 0 \\ \frac{\partial }{{\partial \theta _k^{\left( j \right)}}}J = \sum\limits_{i:r\left( {i,j} \right) = 1} {\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)x_k^{\left( i \right)}} + \lambda \theta _k^{\left( j \right)},\quad k \ne 0\\ \end{gathered} \right.$

值得注意的事，电影数量与用户数量决定了优化的搜索空间；另外，基于内容的推荐系统，特征值的提取，需要了解电影的成分（即爱情、动作等成分）。

协同过滤

协同过滤的实质是自行学习所要使用的特征，即 $x^{(i)}$ 是未知的，需要通过算法求解。有一个巧妙的思路是已知 ${\theta ^{\left( j \right)}}$ 去学习 $x^{(i)}$ ，即定义如下目标方程：

子目标： $x^{(i)}$
$min x (i) 1 2 \sum j : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) 2 + λ 2 \sum k = 1 n (x (i) k) 2$ $\mathop {\min }\limits_{{x^{\left( i \right)}}} \frac{1}{2}\sum\limits_{j:r\left( {i,j} \right) = 1} {{{\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)}^2}} + \frac{\lambda }{2}\sum\limits_{k = 1}^n {{{\left( {x_k^{\left( i \right)}} \right)}^2}}$
优化目标： ${x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}}$
$min x (1), \dots, x (n m) 1 2 \sum i = 1 n m \sum j : r (i, j) = 1 ((θ (j)) T (x (i)) - y (i, j)) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2$ $\mathop {\min }\limits_{{x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}}} \frac{1}{2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{j:r\left( {i,j} \right) = 1} {{{\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)}^2}} } + \frac{\lambda }{2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{k = 1}^n {{{\left( {x_k^{\left( i \right)}} \right)}^2}} }$

值得注意的是，这里的参数 ${\theta ^{\left( j \right)}}$ 给定的。

1 简单的协同过滤算法

给定 ${x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}}$ ，估计 ${\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}$ ；
给定 ${\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}$ ，估计 ${x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}}$ ；

基本的协同过滤算法：

协同过滤算法

协同过滤算法并不是 $x$ 与 $θ$ 分开计算的迭代过程，而是以 $x$ 与 $θ$ 为学习参数的迭代过程。

优化算法的目标为

min x ( 1 ) , \dots , x ( n m ) θ ( 1 ) , \dots , θ ( n u ) J (x (1), \dots, x (n m), θ (1), \dots, θ (n u))

$\mathop {\min }\limits_{\scriptstyle {x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}} \atop \scriptstyle {\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}} } \;J\left( {{x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}},{\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}} \right)$

其中， $x \in {\mathbb{R}^n},\theta \in {\mathbb{R}^n}$ ，此处 $x$ 中不包含 $x_0$ 。值得注意的事，该优化问题的维度是 ${n_m} \times n + {n_u} \times n$ 。

这里的代价函数 $J$ 为

J (x (1), \dots, x (n m), θ (1), \dots, θ (n u)) = 1 2 \sum (i, j) : r (i, j) = 1 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2 + λ 2 \sum j = 1 n u \sum k = 1 n (x (j) k) 2 ((θ (j)) T (x (i)) - y (i, j)) 2

$\begin{aligned} J\left( {{x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}},{\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}} \right) = \frac{1}{2}\sum\limits_{\left( {i,j} \right):r\left( {i,j} \right) = 1} & {{{\left( {{{\left( {{\theta ^{\left( j \right)}}} \right)}^{\text{T}}}\left( {{x^{\left( i \right)}}} \right) - y\left( {i,j} \right)} \right)}^2}} \\ + \frac{\lambda }{2}\sum\limits_{i = 1}^{{n_m}} {\sum\limits_{k = 1}^n {{{\left( {x_k^{\left( i \right)}} \right)}^2}} } \\ + \frac{\lambda }{2}\sum\limits_{j = 1}^{{n_u}} {\sum\limits_{k = 1}^n {{{\left( {x_k^{\left( j \right)}} \right)}^2}} } \\ \end{aligned}$

1 协同过滤的算法

${x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}},{\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}$ 随机初始化
优化算法求解 $\min J$ 得到 ${x^{\left( 1 \right)}}, \cdots ,{x^{\left( {{n_m}} \right)}},{\theta ^{\left( 1 \right)}}, \cdots ,{\theta ^{\left( {{n_u}} \right)}}$
预测用户 $j$ 对电影 $i$ 的评分 ${\left( {{\theta ^{\left( j \right)}}} \right)^{\text{T}}}\left( {{x^{\left( i \right)}}} \right)$

低秩矩阵分解

矢量化：低秩矩阵分解

矢量化1

\Rightarrow Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 55 ? 00 5 ? 400 0 ? 055 00 ? 4 ? ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ - \to - - - - - - - - - - - o r Y (i, j) = (x (i)) T θ (j) Y (i, j) = (θ (j)) T x (i) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ (θ (1)) T x (1) (θ (1)) T x (2) ⋮ (θ (1)) T x (n m) (θ (2)) T x (1) (θ (2)) T x (2) ⋮ (θ (2)) T x (n m) \dots \dots ⋱ \dots (θ (n u)) T x (1) (θ (n u)) T x (2) ⋮ (θ (n u)) T x (n m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\Rightarrow {\mathbf{Y}} = \left[ {\begin{array}{*{20}{r}} 5&5&0&0 \\ 5&?&?&0 \\ ?&4&0&? \\ 0&0&5&4 \\ 0&0&5&? \end{array}} \right]\xrightarrow[{or\;Y(i,j) = {{({x^{\left( i \right)}})}^{\text{T}}}{\theta ^{\left( j \right)}}}]{{Y(i,j) = {{({\theta ^{\left( j \right)}})}^{\text{T}}}{x^{\left( i \right)}}}}\left[ {\begin{array}{*{20}{c}} {{{({\theta ^{\left( 1 \right)}})}^{\text{T}}}{x^{\left( 1 \right)}}}&{{{({\theta ^{\left( 2 \right)}})}^{\text{T}}}{x^{\left( 1 \right)}}}& \cdots &{{{({\theta ^{\left( {{n_u}} \right)}})}^{\text{T}}}{x^{\left( 1 \right)}}} \\ {{{({\theta ^{\left( 1 \right)}})}^{\text{T}}}{x^{\left( 2 \right)}}}&{{{({\theta ^{\left( 2 \right)}})}^{\text{T}}}{x^{\left( 2 \right)}}}& \cdots &{{{({\theta ^{\left( {{n_u}} \right)}})}^{\text{T}}}{x^{\left( 2 \right)}}} \\ \vdots & \vdots & \ddots & \vdots \\ {{{({\theta ^{\left( 1 \right)}})}^{\text{T}}}{x^{\left( {{n_m}} \right)}}}&{{{({\theta ^{\left( 2 \right)}})}^{\text{T}}}{x^{\left( {{n_m}} \right)}}}& \cdots &{{{({\theta ^{\left( {{n_u}} \right)}})}^{\text{T}}}{x^{\left( {{n_m}} \right)}}} \end{array}} \right]$

矢量化的表达方式为 ${\mathbf{Y}} = {\mathbf{X}}{{\mathbf{\Theta }}^{\text{T}}}$

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ - (x (1)) T - - (x (2)) T - ⋮ - (x (n m)) T - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ - (θ (1)) T - - (θ (2)) T - ⋮ - (θ (n u)) T - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

${\mathbf{X}}{\text{ = }}\left[ {\begin{array}{*{20}{c}} { - {{\left( {{x^{\left( 1 \right)}}} \right)}^{\text{T}}} - } \\ { - {{\left( {{x^{\left( 2 \right)}}} \right)}^{\text{T}}} - } \\ \vdots \\ { - {{\left( {{x^{\left( {{n_m}} \right)}}} \right)}^{\text{T}}} - } \end{array}} \right],{\mathbf{\Theta }} = \left[ {\begin{array}{*{20}{c}} { - {{\left( {{\theta ^{\left( 1 \right)}}} \right)}^{\text{T}}} - } \\ { - {{\left( {{\theta ^{\left( 2 \right)}}} \right)}^{\text{T}}} - } \\ \vdots \\ { - {{\left( {{\theta ^{\left( {{n_u}} \right)}}} \right)}^{\text{T}}} - } \end{array}} \right]$

1 寻找相似的电影

电影 $i$ ，其特征 ${x^{\left( i \right)}} \in {\mathbb{R}^n}$ ，寻找相似的电影 $j$ ，其 $x^{(j)}$ 满足

∥ ∥ x (i) - x (j) ∥ ∥ \to s m a l l

$\left\| {{x^{\left( i \right)}} - {x^{\left( j \right)}}} \right\| \to small$

即电影 $j$ 是相似于电影 $i$ 的。

实施细节：均值归一化

Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 55 ? 00 5 ? 400 0 ? 055 00 ? 40 ? ? ? ? ? ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \Rightarrow μ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 2.5 2.5 2 2.25 1.25 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ - \to - - - - Y' = Y - μ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 2.5 2.5 ? - 2.25 - 1.25 2.5 ? 2 - 2.25 - 1.25 - 2.5 ? - 2 2.75 3.75 - 2.5 - 2.5 ? 1.75 - 1.25 ? ? ? ? ? ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

${\mathbf{Y}} = \left[ {\begin{array}{*{20}{r}} 5&5&0&0&? \\ 5&?&?&0&? \\ ?&4&0&?&? \\ 0&0&5&4&? \\ 0&0&5&0&? \end{array}} \right] \Rightarrow \mu = \left[ {\begin{array}{*{20}{r}} {2.5} \\ {2.5} \\ 2 \\ {2.25} \\ {1.25} \end{array}} \right]\xrightarrow{{{\mathbf{Y'}} = {\mathbf{Y}} - \mu }}\left[ {\begin{array}{*{20}{r}} {2.5}&{2.5}&{ - 2.5}&{ - 2.5}&? \\ {2.5}&?&?&{ - 2.5}&? \\ ?&2&{ - 2}&?&? \\ { - 2.25}&{ - 2.25}&{2.75}&{1.75}&? \\ { - 1.25}&{ - 1.25}&{3.75}&{ - 1.25}&? \end{array}} \right]$

对于未对任何电影做过评分的用户，均值归一化的预处理方法会非常的有效（但不等同有理）。而均值归一化之后的评分的计算方法为 ${({\theta ^{\left( j \right)}})^{\text{T}}}{x^{\left( i \right)}} + {\mu _i}$ 。

相关检索

欺诈检测：http://code.csdn.net/news/2824689
推荐系统：http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/
协同过滤算法：http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/
极大似然估计：http://blog.csdn.net/bingduanlbd/article/details/24384771
均值归一化：http://blog.csdn.net/acdreamers/article/details/44664205

海上机械师

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
异常检测与推荐系统机器学习基础(8)

异常检测异常检测被广泛应用于欺诈检测（例如信用卡被偷事件）。给定大量数据，指出与均值有巨大差异的点。例如，在制造业中检测缺陷与异常。高斯分布对数据建模往往会很有用。本模块涉及“推荐系统”（Amazon, Netflix, Apple 等公司用它来向用户推荐产品）。推荐系统（Recommender systems）寻找用户与产品间的交互模式从而生成推荐建议。该课程介绍了推荐算法，例如
复制链接

扫一扫