朴素贝叶斯简单实现

我叫陈叉叉叉叉

已于 2022-09-05 10:55:51 修改

阅读量132

点赞数

分类专栏：机器学习鸭文章标签： python 机器学习朴素贝叶斯

于 2022-08-26 12:44:38 首次发布

本文链接：https://blog.csdn.net/wwqnmdhmp/article/details/126541224

版权

机器学习鸭专栏收录该内容

12 篇文章 4 订阅

订阅专栏

import pandas as pd 
import numpy as np
import math

训练数据和测试数据准备

本次练习是利用简单的训练数据集，按照朴素贝叶斯原理，结合拉普拉斯修正和连续值概率公式，判断样本数据的类型。

w = '''1	181	80	M	中
2	179	50	W	瘦
3	155	70	M	胖
4	168	50	M	中
5	160	40	W	瘦'''
w = pd.DataFrame([i.split('\t') for i in w.split('\n')])
train = w[[1,4,3]]  # 训练集 
train.columns = ['身高','胖瘦','性别']
train  # 训练数据

	身高	胖瘦	性别
0	181	中	M
1	179	瘦	W
2	155	胖	M
3	168	中	M
4	160	瘦	W

test = [175,'中']  # 测试样本

贝叶斯算法核心

在这里插入图片描述

根据朴素贝叶斯的算法的核心，
本次案例中，如果要判断test(身高：175，体型：中)是男是女，根本问题就是比较p（男|175，中）和p（女|175，中）的概率大小；
首先有：
p（男|175，中） = p（175，中|男）* p(男) / p（175，中）
因为朴素贝叶斯假设相互独立，则有;
p（男|175，中） = p（175|男）*  p（中|男）* p(男) / p（175)* p(中）
在计算概率过程中，需要使用到拉普拉斯修正和最大似然。
如果p（男|175，中）大于0.5，则这个测试样本判断为男性。

拉普拉斯修正（避免概率为0）

在这里插入图片描述

最大似然估计计算连续概率

在这里插入图片描述

贝叶斯计算过程

要求解  p（男|175，中）
根据 p（男|175，中） = p（175|男）*  p（中|男）* p(男) / p（175)* p(中）
则要分别求 p（175|男）、  p（中|男）、 p(男) 、p（175) 、 p(中） 的数值

# 求 p(男) 和 p(中）得值
def p_cate(cate_,all_,cate_num):  # 定义边缘概率拉普拉斯修正
    return (cate_ + 1)/(all_ + cate_num)
train[['胖瘦','性别']]

p_m = p_cate(3,5,2)  #  求p(男)的概率 3为男生数量，5为所有样本数量，2为分类数量（男女两类）
p_z = p_cate(2,5,3)  #  求p(中)的概率 2为中的数量，5为所有样本数量，3为分类数量（中，瘦，胖）

	胖瘦	性别
0	中	M
1	瘦	W
2	胖	M
3	中	M
4	瘦	W

# 求p（中|男）的值
def p_cate_c(cate_c,all_c,cate_num):  # 定义条件拉普拉斯修正
    return (cate_c + 1)/(all_c + cate_num)
p_z_m = p_cate_c(2,3,3)  # 求p（中|男）：参数分别含义： 2为性别为男，胖瘦为中的数量，3为性别为男的数量，3为胖瘦中分类数量
train[['身高','性别']]

	身高	性别
0	181	M
1	179	W
2	155	M
3	168	M
4	160	W

# 求（175|男）和p（175）的值 
train['身高'] = train['身高'].astype('int')

def p_num(x,std,mean):  #最大似然连续变量概率计算函数 
    y = np.exp(-(x - mean) ** 2 / (2 * std** 2)) / (math.sqrt(2 * math.pi) * std) 
    return y
std,mean = train['身高'].std(),train['身高'].mean()
p_175=p_num(175,std,mean)  # p（175） 概率计算 
std,mean = train[train['性别'] == 'M']['身高'].std(),train[train['性别'] == 'M']['身高'].mean()
p_175_m =p_num(175,std,mean) # p（175|男）概率计算

C:\Users\Administrator\AppData\Local\Temp\ipykernel_10428\1286987125.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train['身高'] = train['身高'].astype('int')

p = (p_175_m*p_z_m*p_m)/(p_175*p_z) # 这个样本为男性的概率 =  p（175|男）*  p（中|男）* p(男) / p（175)* p(中）
print(f'这个样本为男性的概率{p}')  # 因此最后朴素贝叶斯判定为男性

这个样本为男性的概率0.6772207442508325

我叫陈叉叉叉叉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯简单实现

朴素贝叶斯
复制链接

扫一扫

专栏目录