朴素贝叶斯--(高斯朴素贝叶斯)

 

import numpy as np
import pandas as pd
import random
import os
import scipy.stats

os.chdir(r'D:\Python 练习')
dataSet = pd.read_csv('iris.csv')

def randSplit(dataSet,rate):
    l=list(dataSet.index)
    random.seed( 2 )
    random.shuffle(l)
    dataSet.index=l
    n=dataSet.shape[0]
    m=int(n*rate)
    train=dataSet.loc[range(m),:]
    test=dataSet.loc[range(m,n),:]
    dataSet.index=range(dataSet.shape[0])
    test.index=range(test.shape[0])
    return train,test

train,test=randSplit(dataSet,0.8)

def gnb_classify(train,test):
    labels = train.iloc[:,-1].value_counts().index
    mean=[]
    std=[]
    result=[]
    for i in labels:
        item=train.loc[train.iloc[:,-1]==i,:]
        #print('item',item)
        m=item.iloc[:,:-1].mean() #均值
        s=np.sum((item.iloc[:,:-1]-m)**2)/(item.shape[0]) #方差
        mean.append(m)
        std.append(s)
    means=pd.DataFrame(mean,index=labels)
    stds=pd.DataFrame(std,index=labels)
    print('means',means)
    print('stds',stds)
    for j in range(test.shape[0]):
        iset=test.iloc[j,:-1].tolist()
        #print('iset',iset)
        #iprob=scipy.stats.norm(means,np.sqrt(stds)).pdf(iset)
        #iprob=pd.DataFrame(iprob,index=labels)
        iprob=np.exp(-1*(iset-means)**2/(stds*2))/(np.sqrt(2*np.pi*stds)) #正态分布
        #print('iprob',iprob)
        prob=1
        for k in dataSet.columns[:-1]: #dataSet.columns[:-1]
            #print('iprob[k]',iprob[k])
            prob *=iprob[k]
            #print('prob',prob)
        cla=prob.index[np.argmax(prob.values)]
        #print('cla',cla)
        result.append(cla)
    test['predict']=result
    acc =(test.iloc[:,-1]==test.iloc[:,-2]).mean()
    print(f'模型预测准确率为{acc}')
    return test

gnb_classify(train,test)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值