机器学习 --- 朴素贝叶斯分类器 python

最新推荐文章于 2021-12-06 22:18:36 发布

川师_King

最新推荐文章于 2021-12-06 22:18:36 发布

阅读量9.4k

点赞数 69

分类专栏： Educoder机器学习编程题解析文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_44196785/article/details/109230591

版权

本文介绍了朴素贝叶斯分类算法的基本原理和实现过程，包括如何基于Python搭建朴素贝叶斯分类器，以及如何使用sklearn库对新闻文本进行主题分类。通过拉普拉斯平滑处理数据，提高了模型的鲁棒性。最后，展示了如何利用CountVectorizer和MultinomialNB进行文本预测。

摘要由CSDN通过智能技术生成

简介
朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法。对于给定的训练集，首先基于特征条件独立假设学习数据的概率分布。然后基于此模型，对于给定的特征数据x，利用贝叶斯定理计算出标签y。朴素贝叶斯分类算法实现简单，预测效率很高，是一种常用的分类算法。
本实训项目的主要内容是基于 Python 语言搭建朴素贝叶斯分类器，并使用sklearn 实现新闻文本进行主题分类的功能。

朴素贝叶斯分类算法流程

import numpy as np


class NaiveBayesClassifier(object):
    def __init__(self):
        '''
        self.label_prob表示每种类别在数据中出现的概率
        例如，{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333，类别1的概率为0.667
        '''
        self.label_prob = {
   }
        '''
        self.condition_prob表示每种类别确定的条件下各个特征出现的概率
        例如训练数据集中的特征为 [[2, 1, 1],
                              [1, 2, 2],
                              [2, 2, 2],
                              [2, 1, 2],
                              [1, 2, 3]]
        标签为[1, 0, 1, 0, 1]
        那么当标签为0时第0列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第1列的值为1的概率为0.5，值为2的概率为0.5;
        当标签为0时第2列的值为1的概率为0，值为2的概率为1，值为3的概率为0;
        当标签为1时第0列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第1列的值为1的概率为0.333，值为2的概率为0.666;
        当标签为1时第2列的值为1的概率为0.333，值为2的概率为0.333,值为3的概率为0.333;
        因此self.label_prob的值如下：     
        {
            0:{
                0:{
                    1:0.5
                    2:0.5
                }
                1:{
                    1:0.5
                    2:0.5
                }
                2:{
                    1:0
                    2:1
                    3:0
                }
            }
            1:
            {
                0:{
                    1:0.333
                    2:0.666
                }
                1:{
                    1:0.333
                    2:0.666
                }
                2:{
                    1:0.333
                    2:0.333
                    3:0.333
                }
            }
        }
        '''
        self.condition_prob = {
   }
    def fit(self, feature, label):
        '''
        对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中
        :param feature: 训练数据集所有特征组成的ndarray
        :param label:训练数据集中所有标签组成的ndarray
        :return: 无返回
        '''


        #********* Begin *********#
        row_num = len(feature)
        col_num = len(feature[0])
        for c in label:
            if c in self.label_prob:
                self.label_prob[c] += 1
            else:
                self.label_prob[c] = 1

        for key in self.label_prob.keys():
            # 计算每种类别在数据集中出现的概率
            self.label_prob[key] /= row_num
            # 构建self.condition_prob中的key
            self.condition_prob[key] = {
   }
            for i in range(col_num):
                self.condition_prob[key][i] = {
   }
                for k in np.unique(feature[:, i], axis=0):
                    self.condition_prob[key][i][k] = 0