【系列一】频率派v.s.贝叶斯派

最新推荐文章于 2024-07-20 17:45:23 发布

zwszws111

最新推荐文章于 2024-07-20 17:45:23 发布

阅读量179

点赞数

分类专栏：机器学习-白板推导系列笔记文章标签：机器学习人工智能概率论统计模型统计学

本文链接：https://blog.csdn.net/zwszws111/article/details/108223748

版权

机器学习-白板推导系列笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1. 资料介绍

1.1 书籍推荐

注：每本书各有侧重点，并没有一本书能全方位覆盖
侧重于频率派——统计机器学习：

李航《统计学习方法》
周志华《机器学习》
《elements of statistical learning》

侧重于贝叶斯派——概率图模型

周志华《机器学习》
《pattern recognition and machine learning》（PRML）
《machine learning：a probabilistic perspective》MLAPP

另有一本”圣经“：《deep learning》

1.2 视频推荐

台大林轩田基石+技法
张志华：机器学习导论+统计机器学习
Ng：CS229
徐亦达：概率模型
台大李宏毅：机器学习

2. 频率派v.s.贝叶斯派

datas: $X=(x_1,x_2,\dotsc,x_n)^T_{n\times p}=\begin{pmatrix}x_{11},x_{12}\dotsc,x_{1p}\\x_{21},x_{22}\dotsc,x_{2p}\\ \vdots\\x_{n1},x_{n2}\dotsc,x_{np}\end{pmatrix}$
parameter: $\theta$
$x_i\backsim p(x_i|\theta)$
频率派的观点：参数 $\theta$ 是未知常量，数据 $X$ 是一个随机变量(r.v.)。
对参数 $\theta$ 进行极大似然估计： $\theta_{MLE}=arg\max_{\theta}\ell(\theta)=arg\max_{\theta}\log P(x|\theta)=\\arg\max_{\theta}\log\prod_{i=1}^{n} p(x_i|\theta)=arg\max_{\theta}\sum_{i=1}^{n} \log p(x_i|\theta)$
贝叶斯派的观点：参数 $\theta$ 不是常量，而是一个服从某种概率分布的随机变量(r.v.)
$\theta\backsim p(\theta)$ 称之为先验概率。
借助贝叶斯定理将参数的先验和后验通过似然连接起来： $P(\theta|X)=\frac{P(X|\theta) \cdot P(\theta)}{P(X)}$ $P(\theta|X)$ 称为后验概率， $P(X|\theta)$ 为‘似然’， $P (X)$ 实际上是随机变量X的分布函数，可以写成积分 $\int_\theta P(X|\theta)P(\theta)d\theta$ 。