机器学习算法之贝叶斯

最新推荐文章于 2024-04-30 17:15:32 发布

yu_tsl

最新推荐文章于 2024-04-30 17:15:32 发布

阅读量395

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/yu_tsl/article/details/82113103

版权

10 篇文章 0 订阅

订阅专栏

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法，是一种古典概率模型

朴素贝叶斯的优点：
对小规模的数据表现很好，适合多分类任务，适合增量式训练，朴素贝叶斯法高效且易于实现。
缺点：
对输入数据的表达形式很敏感，分类的性能不一定很高。

（推荐一篇不错的文章，朴素贝叶斯算法原理小结）

由上面我们得到了贝叶斯公式，而贝叶斯模型的原理是后验概率最大化，或者期望风险最小化。

什么是后验概率最大化，为什么用它？这要从期望风险最小化说起。

假设我们采用一个模型，它用来进行分类，如果我们采用0-1损失函数，则它对应的期望风险为：

1.极大似然估计

2. 贝叶斯估计

由于极大似然估计可能出现概率为0的情况，因此采用贝叶斯估计，在概率上添加 $\lambda$ ，当 $\lambda$ =1，我们称其为拉普拉斯平滑。

对于连续变量的处理：

这是一种利用熵划分的方法：

今天在数据挖掘导论上看到了用熵对连续数据进行离散化的方法，基本思想是利用熵的大小来表示划分后数据集的纯度，熵越小，数据纯度越大，得到的离散数据可用性就更高

具体做法是：先把数据集划分为两部分，计算两部分的熵的和，在熵最小的地方划分，然后对熵最大的那部分重复此步骤，直到满足用户需要的数据集个数

附熵的计算公式：

E = Σ-Pi·log2Pi

Pi表示第i类在数据区间中出现的概率，计算多个区间的这个公式求和求最小值

关注

专栏目录