MLaPP Chapter 4 Gaussian models 高斯模型

最新推荐文章于 2021-05-23 23:04:02 发布

张小彬的代码人生

最新推荐文章于 2021-05-23 23:04:02 发布

阅读量3.2k

点赞数

分类专栏：机器学习 MLaPP 文章标签： MLaPP 高斯分布高斯模型

本文链接：https://blog.csdn.net/zhangxb35/article/details/54927614

版权

本文详细介绍了高斯模型，包括符号定义、基础知识、多元高斯模型的极大似然估计、高斯判别分析及其应用。讨论了线性高斯系统、Wishart分布，并探讨了如何推断高斯分布的参数。内容涵盖从理论到实践，适合机器学习初学者及进阶者阅读。

摘要由CSDN通过智能技术生成

4.1 Introduction 介绍

4.1.1 Notation 符号

一般矩阵用大写加粗的字母，向量用小写加粗字体。

4.1.2 Basics 基础

回顾一下多元高斯概率密度函数：

N (x | μ, Σ) ≜ 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)]

$\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma}) \triangleq \frac1{(2\pi)^{D/2}|\mathbf{\Sigma}|^{1/2}}\mathrm{exp}\left[-\frac12(\mathbf{x}-\boldsymbol{\mu})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right]$

首先，我们来胡扯一下。不不不，不对，首先我们来解释一下马氏距离（Mahalanobis Distance）的概念。和欧式距离（Euclidean distance）一样，马氏距离可以计算两点之间的距离，但是在计算距离的时候，同时会考虑整体样本的分布情况，所以可以说马氏距离也是衡量一个点与一个分布之间的标准。

假设多维的高斯分布均值为 $\boldsymbol{\mu}=(\mu_1,...,\mu_n)$ ，那么定义变量 $\mathbf{x} = (x_1,...,x_n)$ 两点之间的欧氏距离为

d E (x, μ) = (x - μ) T (x - μ) - - - - - - - - - - - - - \sqrt = (x 1 - μ 1) 2 + \dots + (x n - μ n) 2 - - - - - - - - - - - - - - - - - - - - - - \sqrt

$d_E(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x}-\boldsymbol{\mu})^T(\mathbf{x}-\boldsymbol{\mu})} = \sqrt{(x_1-\mu_1)^2 + \cdots + (x_n-\mu_n)^2}$ 那么以原点为中心，欧氏距离

∥x∥2=c $\left\| \mathbf{x} \right\|_2 = c$ 的所有点集合为一个正球体，

x 21 + x 22 + \dots + x 2 n = c 2

$x_1^2 + x_2^2 + \cdots + x_n^2 = c^2$

在统计上，我们希望寻找一个这样的距离，沿着某方向分量上的数据如果比较离散，则给一个较小的权重。假设有

u = (x i s i), v = (μ i s i), i = 1, . . ., p

$\boldsymbol{u} = (\frac{x_i}{s_i}), \boldsymbol{v} = (\frac{\mu_i}{s_i}), i = 1,...,p$ 为新的基底，

d M (x, μ) = d E (u, v) = (u - v) T (u - v) - - - - - - - - - - - - - \sqrt = (x 1 - μ 1 s 1) 2 + \dots + (x n - μ n s n) 2 - - - - - - - - - - - - - - - - - - - - - - - \sqrt = (x - μ) T Σ - 1 (x - μ) - - - - - - - - - - - - - - - - \sqrt

$\begin{align*} d_M(\mathbf{x},\boldsymbol{\mu}) = d_E(\boldsymbol{u}, \boldsymbol{v}) & = \sqrt{(\mathbf{u}-\boldsymbol{v})^T(\mathbf{u}-\boldsymbol{v})} \\ & = \sqrt{(\frac{x_1-\mu_1}{s_1})^2 +\cdots + (\frac{x_n-\mu_n}{s_n})^2} \\ & = \sqrt{(\mathbf{x}-\boldsymbol{\mu})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}\end{align*}$

这里的 $\mathbf{\Sigma} = \text{diag}(s_1^2,\cdots,s_n^2)$

那么以原点为中心，马氏距离 $\left\| \mathbf{x} \right\| = c$ 的所有点集合为一个椭球体，

(x 1 s 1) 2 + (x 2 s 2) 2 + \dots + (x n s n) 2 = c 2

$(\frac{x_1}{s_1})^2 + (\frac{x_2}{s_2})^2 + \cdots + (\frac{x_n}{s_n})^2 = c^2$

好了，上面都是根据某篇博客胡编的，下面来看书里是怎么解读多元高斯分布的概率密度函数的。

首先，协方差矩阵 $\boldsymbol{\Sigma}$ 是一个实对称矩阵，必然可以正交对角化。有 $\boldsymbol{\Sigma} = \mathbf{U}^T \boldsymbol{\Lambda} \mathbf{U}$ ，其中 $\mathbf{U}$ 为正交矩阵（orthonormal matrix），即满足 $\bf{U^TU=I}$ ，由矩阵 $\bf{\Sigma}$ 的特征向量组成； $\bf{\Lambda}$ 为对角矩阵（diagonal matrix），对角元素为 $\bf{\Sigma}$ 的特征值。同理：

Σ - 1 = U - T Σ - 1 U - 1 = U Σ - 1 U T = \sum i = 1 D 1 λ i u i u T i

$\boldsymbol{\Sigma}^{-1} = \mathbf{U}^{-T}\boldsymbol{\Sigma}^{-1}\mathbf{U}^{-1} = \mathbf{U}\boldsymbol{\Sigma}^{-1}\mathbf{U}^T = \sum_{i=1}^D \frac{1}{\lambda_i}\mathbf{u}_i \mathbf{u}_i^T$ 注意

最低0.47元/天解锁文章

张小彬的代码人生

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MLaPP Chapter 4 Gaussian models 高斯模型

4.1 Introduction 介绍4.1.1 Notation 符号一般矩阵用大写加粗的字母，向量用小写加粗字体。4.1.2 Basics 基础回顾一下多元高斯概率密度函数：N(x|μ,Σ)≜1(2π)D/2|Σ|1/2exp[−12(x−μ)TΣ−1(x−μ)]\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma}) \triangle
复制链接

扫一扫

专栏目录