贝叶斯学习

ww要努力呀

已于 2022-12-31 14:53:29 修改

阅读量89

点赞数

分类专栏： # 复习内容

于 2022-12-31 11:05:13 首次发布

本文链接：https://blog.csdn.net/wwang_123/article/details/128503627

版权

复习内容专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

2.1 概述

2.2 贝叶斯决策论

概率基础：

事件A的概率$0\leq P(A) \leq 1 $
条件概率： $P(A|B)=\frac{P(AB)}{P(B)}$ , $P(B|A)=\frac{P(AB)}{P(A)}$
乘法定律： $P (A B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)$
全概率公式： $A_{1}\cup A_{2}\cup ... A_{n}=\Omega 且 A_{i}\cap A_{j}=\varphi ，则P(A)=\sum_{i=1}^{n}P(A|B_{i})P(B_{i})$
Bayes公式：
- $P(A_{i}|B)=\frac{P(B|A_{i})P(A_{i})}{\sum_{j=1}^{n}P(B|A_{j})P(A_{j})}$
- $P(A_{i}|B)\propto P(B|A_{i})P(A_{i})$

Bayes决策：

基于观察特征、类别的贝叶斯公式
$P(\omega _{i}|x)=\frac{P(x|\omega _{i})P(\omega _{i})}{P(x)}$ $(posterior=\frac{likehood*prior}{evidence})$
$=\frac{P(x|\omega _{i})P(\omega _{i})}{\sum_{j} P(x|\omega _{i})P(\omega _{i})}$
$P(\omega _{i}|x)\propto P(x|\omega _{i})P(\omega _{i})$ $(posterior\propto likelihood*prior)$
贝叶斯决策：
- $Decide=\left\{\begin{matrix} \omega_{1} &p(\omega_{1}|x)>p(\omega_{2}|x) \\ \omega_{2} &otherwise \\ \end{matrix}\right.$ $\Rightarrow $ $\left{\begin{matrix} \omega_{1} &p(x|\omega_{1})p(\omega_{1})>p(x|\omega_{2})p(\omega_{2}) \ \omega_{2} &otherwise \ \end{matrix}\right. $
- $\left\{\begin{matrix} \omega_{1} &\frac{p(x|\omega_{1})}{p(x|\omega_{2})}>\frac{p(\omega_{2})}{p(\omega_{1})} \\ \omega_{2} &otherwise \\ \end{matrix}\right.$
类别相似性函数：
- $g_{i}(x)=p(\omega_{i}|x)=\frac{p(x|\omega_{i})p(\omega_{i})}{\sum_{j=1}^{c}p(x|\omega_{j})p(\omega_{j})}$
- $g_{i}(x)=p(x|\omega_{i})p(\omega_{i})$
- $g_{i}(x)=lnp(x|\omega_{i})+lnp(\omega_{i})$
决策函数：
- $g(x)=g_{1}(x)-g_{2}(x)$
- $g(x)=p(\omega_{1}|x)-p(\omega_{2}|x)$
- $g(x)=ln\frac{p(x|\omega_{1})}{p(x|\omega_{2})}+ln\frac{p(\omega_{1})}{p(\omega_{2})}$

2.3 贝叶斯分类器

贝叶斯分类器：

朴素贝叶斯分类器：假设 $p (x ∣ c)$ 中x特征向量的各维属性独立
- 采用了“属性独立性假设”
- $p(c|x)=\frac{p(c)p(x|c)}{p(x)} \propto p(c)p(x|c)=p(c)\prod_{i=1}^{d}p(x_{i}|c)$
- 关键问题：由训练样本学习类别条件概率和类别先验概率 $p(x_{i}|c)和p(c)$
- k个类别，d个属性，共1+k*d个概率分布要统计
- 类别先验概率的估计： $p(c)=\frac{|D_{c}|}{|D|}$
- 类别概率密度估计：
  - $x_{i}$ 离散情况： $p(x_{i}|c)=\frac{|D_{c,x_{i}}|}{|D_{c}|}$
  - $x_{i}$ 连续情况： $p(x_{i}|c)=\frac{1}{\sqrt{2\pi}\sigma _{c,i}}exp(-\frac{(x_{i}-\mu_{c,i})^{2}}{2\sigma_{c,i}^{2}})$ （由某一概率分布估计类别概率）
- 学习过程：
  - 类别先验估计
  - 类别条件概率估计
- 决策过程：
  - 类别先验估计
  - 类别条件概率估计
  - 贝叶斯决策 $h(x)=\underset{c\epsilon y}{argmax}P(c)\prod_{i=1}^{d}P(x_{i}|c)$
半朴素贝叶斯分类器：假设 $p (x ∣ c)$ 中x各维属性存在依赖
正态分布的贝叶斯分类器：假设 $p(x|c(\theta))$ 服从正态分布

2.4 贝叶斯学习与参数估计问题

贝叶斯学习

通过观测数据likelihood修正模型先验，得到后验概率分布：
$p(\theta|D,\alpha)\propto p(D|\theta)p(\theta|\alpha)$
其中， $\alpha$ 是超参数，不是估计的参数

极大似然估计

最大化观测数据的概率
- $p(\theta|D,\alpha)\propto p(D|\theta)p(\theta|\alpha)$
- 最大化 $p(D|\theta)$
似然函数likelihood：
- $p(D|\theta)=p(x_{1},...,x_{n}|\theta)=\prod_{i=1}^{n}p(x_{i}|\theta)$
Maximum Likelihood
- $\hat{\theta}=arg \displaystyle \max_{\theta}p(D|\theta)$

转化为求log-likelihood极大的问题：

$\hat{\theta}=arg \displaystyle \max_{\theta}\sum_{i=1}^{n}logp(x_{i}|\theta)$

求解过程

$\sum_{i=1}^{n}\nabla_{\theta}logp(x_{i}|\theta)=0$

最大后验估计

问题描述

求使后验概率最大的模型或参数( $\theta$ )
- $p(\theta|D,\alpha)\propto p(D|\theta)p(\theta|\alpha)$
- 最大化 $p(\theta|D,\alpha)$
贝叶斯公式中
- $p(\theta|D,\alpha)=\frac{P(D|\theta)P(\theta|\alpha)}{P(D|\alpha)}$
- $\hat{\theta}_{MAP}:\frac{\partial }{\partial \theta}p(\theta|D,\alpha)=0 \ or \ \frac{\partial }{\partial \theta}p(D|\theta)p(\theta|\alpha)=0$