python作业之sklearn

最新推荐文章于 2022-04-17 16:33:38 发布

慕容抗天

最新推荐文章于 2022-04-17 16:33:38 发布

阅读量358

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zzzzzzzhc/article/details/80720947

版权

python 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

题目：

1
Create a classification dataset (n samples 1000, n features 10)
2
Split the dataset using 10-fold cross validation
3
Train the algorithms
GaussianNB
SVC (possible C values [1e-02, 1e-01, 1e00, 1e01, 1e02], RBF kernel)
RandomForestClassifier (possible n estimators values [10, 100, 1000])
4
Evaluate the cross-validated performance
Accuracy
F1-score
AUC ROC
5
Write a short report summarizing the methodology and the results

from sklearn import datasets,cross_validation
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

X, Y = datasets.make_classification(n_samples = 1000, n_features = 10)  
kf = cross_validation.KFold(1000, n_folds = 10, shuffle = True)  


acc_for_NB = []             #使用accuracy评估三个算法  
acc_for_SVC = []  
acc_for_RFC = []  

f1_for_NB = []              # 使用F1-score评估三个算法  
f1_for_SVC = []  
f1_for_RFC = []  

auc_for_NB = []             # 使用AUC ROC评估三个算法  
auc_for_SVC = []  
auc_for_RFC = []  

for train_index, test_index in kf:  
    X_train, y_train = X[train_index], Y[train_index]
    X_test, y_test = X[test_index], Y[test_index]

    clf = GaussianNB()
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    acc_for_NB.append(metrics.accuracy_score(y_test, pred))
    f1_for_NB.append(metrics.f1_score(y_test, pred))
    auc_for_NB.append(metrics.roc_auc_score(y_test, pred))

    clf = SVC(C=1e00, kernel='rbf', gamma=0.1)
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    acc_for_SVC.append(metrics.accuracy_score(y_test, pred))
    f1_for_SVC.append(metrics.f1_score(y_test, pred))
    auc_for_SVC.append(metrics.roc_auc_score(y_test, pred))

    clf = RandomForestClassifier(n_estimators=100)
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    acc_for_RFC.append(metrics.accuracy_score(y_test, pred))
    f1_for_RFC.append(metrics.f1_score(y_test, pred))
    auc_for_RFC.append(metrics.roc_auc_score(y_test, pred))

print("Naive Bayes:")  

print("Evaluated by accuracy score:")  
print(acc_for_NB)  
print("Average:", sum(acc_for_NB) / len(acc_for_NB))  
print()  

print("Evaluated by f1 score:")  
print(f1_for_NB)  
print("Average:", sum(f1_for_NB) / len(f1_for_NB))  
print()  

print("Evaluated by roc auc score:")  
print(auc_for_NB)  
print("Average:", sum(auc_for_NB) / len(auc_for_NB))  
print()  

print("SVC:")  

print("Evaluated by accuracy score:")  
print(acc_for_SVC)  
print("Average:", sum(acc_for_SVC) / len(acc_for_SVC))  
print()  

print("Evaluated by f1 score:")  
print(f1_for_SVC)  
print("Average:", sum(f1_for_SVC) / len(f1_for_SVC))  
print()  

print("Evaluated by roc auc score:")  
print(auc_for_SVC)  
print("Average:", sum(auc_for_SVC) / len(auc_for_SVC))  
print()  

print("Random Forest:")  

print("Evaluated by accuracy score:")  
print(acc_for_RFC)  
print("Average:", sum(acc_for_RFC) / len(acc_for_RFC))  
print()  

print("Evaluated by f1 score:")  
print(f1_for_RFC)  
print("Average:", sum(f1_for_RFC) / len(f1_for_RFC))  
print()  

print("Evaluated by roc auc score:")  
print(auc_for_RFC)  
print("Average:", sum(auc_for_RFC) / len(auc_for_RFC))  
print()

结果：

Naive Bayes:
Evaluated by accuracy score:
[0.94, 0.92, 0.88, 0.86, 0.91, 0.91, 0.89, 0.9, 0.83, 0.94]
Average: 0.8979999999999999

Evaluated by f1 score:
[0.9491525423728813, 0.9245283018867925, 0.8604651162790697, 0.8653846153846154, 0.8988764044943819, 0.9108910891089109, 0.8952380952380952, 0.8913043478260869, 0.8089887640449439, 0.9387755102040817]
Average: 0.8943604786839858

Evaluated by roc auc score:
[0.9461958806221101, 0.9190705128205129, 0.8747474747474747, 0.8606985146527499, 0.9099025974025975, 0.91, 0.8917069243156199, 0.8993558776167472, 0.8263749498193497, 0.9407051282051283]
Average: 0.897875786020229

SVC:
Evaluated by accuracy score:
[0.96, 0.9, 0.88, 0.88, 0.89, 0.9, 0.89, 0.9, 0.83, 0.93]
Average: 0.8959999999999999

Evaluated by f1 score:
[0.9661016949152543, 0.9038461538461539, 0.8604651162790697, 0.8823529411764707, 0.8735632183908046, 0.9, 0.8932038834951458, 0.8913043478260869, 0.8045977011494252, 0.9278350515463918]
Average: 0.8903270108624802

Evaluated by roc auc score:
[0.9672131147540983, 0.8998397435897435, 0.8747474747474747, 0.8819751103974307, 0.8871753246753247, 0.9, 0.8933172302737521, 0.8993558776167472, 0.8251706142111602, 0.9302884615384616]
Average: 0.8959082951804194

Random Forest:
Evaluated by accuracy score:
[0.96, 0.93, 0.93, 0.92, 0.94, 0.9, 0.92, 0.94, 0.94, 0.95]
Average: 0.9329999999999998

Evaluated by f1 score:
[0.9661016949152543, 0.9345794392523366, 0.9195402298850575, 0.923076923076923, 0.9333333333333332, 0.9, 0.9259259259259259, 0.9333333333333332, 0.9318181818181819, 0.9484536082474228]
Average: 0.9316162669787769

Evaluated by roc auc score:
[0.9672131147540983, 0.9286858974358975, 0.9262626262626262, 0.920915295062224, 0.9415584415584416, 0.9, 0.9194847020933978, 0.9380032206119163, 0.9361702127659575, 0.9503205128205129]
Average: 0.9328614023365072

显然可见RFC评估结果最好，NB和SVC差不多
而ACC评估方法分数最高，可见AUC和F1评估更严格

慕容抗天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python作业之sklearn

题目：1 Create a classification dataset (n samples 1000, n features 10) 2 Split the dataset using 10-fold cross validation 3 Train the algorithms GaussianNB SVC (possible C values [1e-02, 1e-01,...
复制链接

扫一扫