朴素贝叶斯python复现（基于数据集iris）

最新推荐文章于 2024-05-14 22:40:59 发布

朱比特

最新推荐文章于 2024-05-14 22:40:59 发布

阅读量4k

点赞数 8

文章标签： python 机器学习深度学习算法

本文链接：https://blog.csdn.net/weixin_52328678/article/details/115628248

版权

@朴素贝叶斯算法Python复现（基于iris数据集）TOC

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、朴素贝叶斯分类器
三、朴素贝叶斯分类器python代码
总结

前言

本节主要讲的是朴素贝叶斯算法以及相应的Python复现（基于iris的数据集）。本段代码没有进行K折交叉验证，希望有需要的读者可以自行添加，如果对其他数据集有分类情况偏低，可以考虑添加一下拉普拉斯修正，或者对数据进行归一化处理。

接下来，对朴素贝叶斯定理做一个简单的介绍，如果需要了解详细内容可以找相关资料进行学习

一、朴素贝叶斯分类器

1.贝叶斯分类：是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。
2.朴素贝叶斯定理：

在这里插入图片描述
表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率

3.拉普拉斯修正：

拉普拉斯修正：为了避免其他属性携带的信息被训练集中未出现的属性抹去，在估计概率值时通常要进行smoothing,常使用拉普拉斯修正。具体来说，令N表示训练集D中可能的类别数，Ni表示第i个属性可能的取值数。

接下来是我的一些学习笔记，提供参考：
在这里插入图片描述

三、朴素贝叶斯分类器python代码

1.引入库

pandas：exce表数据集的读取
shuffle：数据集打乱顺序
exp：自然指数e

import pandas as pd
import numpy as np
from math import pi
from numpy import exp
from sklearn.utils import shuffle

2.读取数据集并根据标签值分类

此处主要是将不同属性的三个标签用字典进行分类
返回的每一个dict都是3个标签的同一个属性的数据

fpath = r'd:iris.xls'
    object = pd.read_excel(fpath)
    object = shuffle(object)
    list = []
    dict1 = {
   }
    dict2 = {
   }
    dict3 = {
   }
    dict4 = {
   }
    i1 = object.iloc[100:150,0:5]
    test_set = i1.values.tolist()#测试集
#.....................................................................................
    m1 = object.iloc[0:100, [0, 4]]
    m2 = m1.values.tolist()
    for j in m2:
        if j[1] not in dict1:
            dict1[j[1]] = [j[0]]
        else:
            dict1[j[1]].append(j[0])
    print(dict1)
    m1 = object.iloc[0:100, [1, 4]]
    m2 = m1.values.tolist()
    for j in m2:
        if j[1] not in dict2:
            dict2[j[1]] = [j[0]]
        else:
            dict2[j[1]].append(j[0])
    m1 = object.iloc[0:100, [2, 4]]
    m2 = m1.values.tolist()
    for j in m2:
        if j[1] not in dict3:
            dict3[j[1]] = [j[0]]
        else:
            dict3[j[1]].append(j[0])
            m1 = object.iloc[0:100, [3, 4]]
            m2 = m1.values.tolist()
            for j in m2:
                if j[1] not in dict4:
                    dict4[j[1]] = [j[0]]
                else:
                    dict4[j[1]].append(j[0])

    return dict1,dict2,dict3,dict4,test_set

这个是第一个属性分类后dict1相应的返回值，test_set是测试集的数据集合。

3.定义均值和方差

输入的per_dataset是每一个数据的数据

def average_variance

最低0.47元/天解锁文章

朱比特

关注

8
点赞
踩
57

收藏

觉得还不错? 一键收藏
打赏
8
评论
朴素贝叶斯python复现（基于数据集iris）

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar
复制链接

扫一扫