三十九、【人工智能】【机器学习】【监督学习】- 多项式朴素贝叶斯分类器（Multinomial Naive Bayes）

暴躁的大熊

已于 2024-08-16 09:46:01 修改

阅读量379

点赞数 12

分类专栏：人工智能文章标签：人工智能机器学习学习

于 2024-08-16 08:09:14 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/141228286

版权

人工智能专栏收录该内容

40 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means)

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)

（三）、监督学习分类算法（Classification）

二、多项式朴素贝叶斯分类器（Multinomial Naive Bayes）

一、基本定义

（一）、监督学习

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
        模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
        训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
        验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
        测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、多项式朴素贝叶斯分类器（Multinomial Naive Bayes）

（一）、定义

Multinomial Naive Bayes（多项式朴素贝叶斯分类器）是一种基于贝叶斯定理的分类方法，特别适合处理特征可以被看作是事件出现次数的情况，例如文档分类中词频的计数。在Multinomial Naive Bayes模型中，每个类别下的特征频率独立于其他特征，这是“朴素”假设的由来，尽管这种假设在现实世界中很少成立，但它在很多情况下依然能给出有效的分类结果。

（二）、基本概念

贝叶斯定理：Multinomial Naive Bayes的基础是贝叶斯定理，它描述了在给定某些证据的情况下，某个假设的概率。公式为：，其中P(A∣B)是在观测到B的情况下A发生的概率。
多项式分布：在Multinomial Naive Bayes中，特征（如单词出现的次数）遵循多项式分布。这意味着，对于给定的文档，每个单词的出现次数被建模为来自一个多项式分布。
朴素假设：假定特征之间相互独立，即使在现实中它们可能不是。这个假设简化了模型，使得计算变得可行。

（三）、训练过程

Multinomial Naive Bayes的训练过程主要包括两个关键步骤：计算先验概率和计算条件概率。下面是对这两个步骤的详细解析，以及如何应用拉普拉斯平滑来避免概率估计中的零值问题。

1. 计算先验概率

先验概率是指在看到任何特征之前，每个类别的基础概率。这通常基于训练数据集中各个类别的频率来计算。具体步骤如下：

对于每个类别 c，计算该类别样本在训练集中的比例：

这个概率提供了对类别分布的基本了解，是朴素贝叶斯分类器分类决策的重要组成部分。

2. 计算条件概率

条件概率 P(fi∣c) 指的是在给定类别 c 下特征 fi 出现的概率。对于Multinomial Naive Bayes，我们关心的是特征的计数，所以计算条件概率通常涉及以下几个步骤：

对于每个类别 c，统计特征 fi 在该类别样本中出现的总次数。
同时，记录该类别下所有特征的总出现次数nc。
最后，计算条件概率：

其中，V 是词汇表大小（特征空间的维度），α 是拉普拉斯平滑系数，通常设置为1。

3. 应用拉普拉斯平滑

在计算条件概率时，拉普拉斯平滑（或称为加一平滑）是非常重要的，尤其是当训练数据集较小，某些特征在某些类别中未出现时。如果不使用平滑，那么 P(fi∣c) 将会是0，这会导致在乘法过程中整个条件概率变为0，即使其他特征给出了非零的概率。

通过在分子和分母上添加一个小的正值 α，我们可以避免这种情况。这样即使某个特征在训练数据中未出现，我们也能得到一个非零的概率估计，从而不会使整个分类器失效。