朴素贝叶斯的Python实现并用于手写数字识别

置顶黄桃罐头_hhh

已于 2023-01-04 16:54:20 修改

阅读量1.2k

点赞数 2

文章标签： python 数据挖掘分类算法 Powered by 金山文档

于 2023-01-04 16:51:51 首次发布

本文链接：https://blog.csdn.net/weixin_51329675/article/details/128550369

版权

原理与算法

朴素贝叶斯分类器是以贝叶斯定理为基础并且假设特征条件之间相互独立的简单概率分类器。朴素贝叶斯分类器是基于独立假设的，即假设样本每个特征与其他特征都不相关。

导入相关库

import numpy as np
import scipy.io as scio
from scipy import stats
from sklearn import preprocessing
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits # 导入数据

朴素贝叶斯的实现

def NaiveBayes_train(train_x, train_y):
    Y_class = np.unique(train_y)   #类别
    nfeature = train_x.shape[1]   #属性个数
    count = train_y.size  #训练集样本的个数  
    P_c = np.zeros(Y_class.size) 
    mu_ci = np.zeros((Y_class.size,nfeature))
    var_ci = np.zeros((Y_class.size,nfeature))
    for i in range(Y_class.size):
        ci_count = train_y[train_y==Y_class[i]].size #第i类别的样本个数
        P_c[i]=ci_count/count
        for j in range(nfeature):
            mu_ci[i,j] = np.mean(train_x[train_y==Y_class[i],j])
            var_ci[i,j] = np.var(train_x[train_y==Y_class[i],j])
    return P_c, mu_ci, var_ci, Y_class

def NaiveBayes_test(test_x, P_c, mu_ci, var_ci, Y_class):
    pre_y = np.zeros(test_x.shape[0])
    h = np.zeros(Y_class.size) 
    for t in range(pre_y.size):
        for i in range(Y_class.size):
            h[i]=P_c[i]
            for j in range(test_x.shape[1]):
                h[i]=h[i]*stats.norm.pdf(test_x[t,j],loc=mu_ci[i,j],scale=np.sqrt(var_ci[i,j]))
        pre_y[t]=Y_class[np.argmax(h)]
    return pre_y

用于手写数字识别

# Load data
digits = load_digits()
data = digits.data
target = digits.target

#choose train sample:0--999
train_x=data[0:1000]
train_y=target[0:1000]

#choose test sample 1000--end
test_x=data[1000:]
test_y=target[1000:]

# Data normalize
scaler = preprocessing.StandardScaler().fit(train_x)
train_x = scaler.transform(train_x)
test_x = scaler.transform(test_x)

#PCA 
pca = PCA(n_components=15)
train_x = pca.fit_transform(train_x)
test_x = pca.transform(test_x)

# Train
P_c, mu_ci, var_ci, Y_class = NaiveBayes_train(train_x, train_y)

# Test
pre_y = NaiveBayes_test(test_x, P_c, mu_ci, var_ci, Y_class)

# Calculate the correct rate of test data
correct = np.sum(pre_y == test_y)
correct_rate = correct / test_y.size
print('Correct rate is: %.2f%%' % (correct_rate*100))