朴素贝叶斯简单实现

import pandas as pd 
import numpy as np
import math 

训练数据和测试数据准备

本次练习是利用简单的训练数据集,按照朴素贝叶斯原理,结合拉普拉斯修正和连续值概率公式,判断样本数据的类型。
w = '''1	181	80	M	中
2	179	50	W	瘦
3	155	70	M	胖
4	168	50	M	中
5	160	40	W	瘦'''
w = pd.DataFrame([i.split('\t') for i in w.split('\n')])
train = w[[1,4,3]]  # 训练集 
train.columns = ['身高','胖瘦','性别']
train  # 训练数据 
身高胖瘦性别
0181M
1179W
2155M
3168M
4160W
test = [175,'中']  # 测试样本

贝叶斯算法核心

在这里插入图片描述

根据朴素贝叶斯的算法的核心,
本次案例中,如果要判断test(身高:175,体型:中)是男是女,根本问题就是比较p(男|175,中)和p(女|175,中)的概率大小;
首先有:
p(男|175,中) = p(175,中|男)* p(男) / p(175,中)
因为朴素贝叶斯假设相互独立,则有;
p(男|175,中) = p(175|男)*  p(中|男)* p(男) / p(175)* p(中)
在计算概率过程中,需要使用到拉普拉斯修正和最大似然。
如果p(男|175,中)大于0.5,则这个测试样本判断为男性。

拉普拉斯修正(避免概率为0)

在这里插入图片描述

最大似然估计计算连续概率

在这里插入图片描述

贝叶斯计算过程

要求解  p(男|175,中)
根据 p(男|175,中) = p(175|男)*  p(中|男)* p(男) / p(175)* p(中)
则要分别求 p(175|男)、  p(中|男)、 p(男) 、p(175) 、 p(中) 的数值 
# 求 p(男) 和 p(中)得值
def p_cate(cate_,all_,cate_num):  # 定义边缘概率拉普拉斯修正
    return (cate_ + 1)/(all_ + cate_num)
train[['胖瘦','性别']]

p_m = p_cate(3,5,2)  #  求p(男)的概率 3为男生数量,5为所有样本数量,2为分类数量(男女两类)
p_z = p_cate(2,5,3)  #  求p(中)的概率 2为中的数量,5为所有样本数量,3为分类数量(中,瘦,胖)
胖瘦性别
0M
1W
2M
3M
4W
# 求p(中|男)的值
def p_cate_c(cate_c,all_c,cate_num):  # 定义条件拉普拉斯修正
    return (cate_c + 1)/(all_c + cate_num)
p_z_m = p_cate_c(2,3,3)  # 求p(中|男):参数分别含义: 2为性别为男,胖瘦为中的数量,3为性别为男的数量,3为胖瘦中分类数量
train[['身高','性别']]
身高性别
0181M
1179W
2155M
3168M
4160W
# 求(175|男)和p(175)的值 
train['身高'] = train['身高'].astype('int')

def p_num(x,std,mean):  #最大似然连续变量概率计算函数 
    y = np.exp(-(x - mean) ** 2 / (2 * std** 2)) / (math.sqrt(2 * math.pi) * std) 
    return y
std,mean = train['身高'].std(),train['身高'].mean()
p_175=p_num(175,std,mean)  # p(175) 概率计算 
std,mean = train[train['性别'] == 'M']['身高'].std(),train[train['性别'] == 'M']['身高'].mean()
p_175_m =p_num(175,std,mean) # p(175|男)概率计算 
C:\Users\Administrator\AppData\Local\Temp\ipykernel_10428\1286987125.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train['身高'] = train['身高'].astype('int')
p = (p_175_m*p_z_m*p_m)/(p_175*p_z) # 这个样本为男性的概率 =  p(175|男)*  p(中|男)* p(男) / p(175)* p(中)
print(f'这个样本为男性的概率{p}')  # 因此最后朴素贝叶斯判定为男性
这个样本为男性的概率0.6772207442508325


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值