统计学习方法第四章 | 朴素贝叶斯法

最新推荐文章于 2024-04-30 16:24:56 发布

HW_WY

最新推荐文章于 2024-04-30 16:24:56 发布

阅读量164

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/zhang15953709913/article/details/84327081

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1 朴素贝叶斯法的学习与分类

1.1 基本方法

假设训练数据集 $T = \left\{ \left( x _ { 1 } , y _ { 1 } \right) , \left( x _ { 2 } , y _ { 2 } \right) , \cdots , \left( x _ { N } , y _ { N } \right) \right\}$ 由 $P ( X , Y )$ 独立同分布产生

（1）学习先验概率分布 $P \left( Y = c _ { k } \right) , \quad k = 1,2 , \cdots , K$

（2）学习条件概率分布

$P ( X = x | Y = c _ { k } ) = P \left( X ^ { ( 1 ) } = x ^ { ( 1 ) } , \cdots , X ^ { ( n ) } = x ^ { ( n ) } | Y = c _ { k } \right) , \\ \quad\quad k = 1,2 , \cdots , K$

（3）于是学习到联合概率分布 $P ( X , Y )$

朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯法也由此得名。具体地，条件独立性假设是：

$\begin{aligned} P ( X = x | Y = c _ { k } ) & = P \left( X ^ { ( 1 ) } = x ^ { ( 1 ) } , \cdots , X ^ { ( n ) } = x ^ { ( n ) } | Y = c _ { k } \right) \\ & = \prod _ { j = 1 } ^ { n } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) \end{aligned}$

即每个特征相互独立

朴素贝叶斯分类器可表示为：

$y = f ( x ) = \arg \max _ { c _ { k } } \frac { P \left( Y = c _ { k } \right) \prod _ { j } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) } { \sum _ { k } P \left( Y = c _ { k } \right) \prod _ { j } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) }$

1.2 后验概率最大化的含义

后验概率最大化 <=> 期望风险最小化

2 朴素贝叶斯法的参数估计

2.1 极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P \left( Y = c _ { k } \right)$ 和 $P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right)$ ，可以应用极大似然估计法来估计相应的概率

先验概率 $P \left( Y = c _ { k } \right)$ 的极大似然估计是：

$P \left( Y = c _ { k } \right) = \frac { \sum _ { i = 1 } ^ { N } I \left( y _ { i } = c _ { k } \right) } { N } , k = 1,2 , \cdots , K$

设第 j 个特征x(j) 可能取值的集合为{aj1,aj2...ajSj}，条件概率的极大似然估计是：

$\begin{array} { l } { P \left( X ^ { ( j ) } = a _ { j l } | Y = c _ { k } \right) = \frac { \sum _ { i = 1 } ^ { N } I \left( x _ { i } ^ { ( j ) } = a _ { j l } y _ { i } = c _ { k } \right) } { \sum _ { i = 1 } ^ { N } I \left( y _ { i } = c _ { k } \right) } } \\ { j = 1,2 , \cdots , n ; l = 1,2 , \cdots , S _ { j } : \quad k = 1,2 , \cdots , K } \end{array}$

2.2 贝叶斯估计法

用极大似然估计可能会出现所要估计的概率值为 0 的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是：

$\begin{array} { l } { P \left( X ^ { ( j ) } = a _ { j l } | Y = c _ { k } \right) = \frac { \sum _ { i = 1 } ^ { N } I \left( x _ { i } ^ { ( j ) } = a _ { j l } y _ { i } = c _ { k }+ \right) +\lambda} { \sum _ { i = 1 } ^ { N } I \left( y _ { i } = c _ { k } \right) +S_j\lambda} } \\ { j = 1,2 , \cdots , n ; l = 1,2 , \cdots , S _ { j } : \quad k = 1,2 , \cdots , K } \end{array}$

式中 $\lambda \geq 0$ .

$\lambda = 0$ 时就是极大似然估计
$\lambda = 1$ 时就是拉普拉斯平滑

例题

HW_WY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法第四章 | 朴素贝叶斯法

目录1 朴素贝叶斯法的学习与分类1.1 基本方法1.2 后验概率最大化的含义2 朴素贝叶斯法的参数估计2.1 极大似然估计2.2 贝叶斯估计法1 朴素贝叶斯法的学习与分类1.1 基本方法假设训练数据集由独立同分布产生（1）学习先验概率分布（2）学习条件概率分布（3）于是学习到联合概率分布朴素贝叶斯法对条件概率分布作了...
复制链接

扫一扫