分类4：机器学习处理乳腺癌数据集代码

王小葱鸭

已于 2024-01-17 10:30:10 修改

阅读量2.3k

点赞数 5

分类专栏：数据分析文章标签：机器学习 python 人工智能

于 2023-02-22 11:54:12 首次发布

本文链接：https://blog.csdn.net/ww596520206/article/details/129158711

版权

数据分析专栏收录该内容

13 篇文章 6 订阅

订阅专栏

1 介绍

乳腺癌数据属于二分类问题，包含569条样本，31个特征，1个标签维度。
如果有需要，可以联系：https://docs.qq.com/doc/DWEtRempVZ1NSZHdQ

2 导入常用的工具箱

import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.preprocessing import LabelEncoder
import seaborn as sns
np.random.seed(123)

3 导入数据集

data = pd.read_csv("data.csv")

4 数据探索

4.1 打印数据信息

print(data.shape)
print(data.head())
print(data.describe())
print(data.info)

在这里插入图片描述

4.2 可视化显示

4.2.1 显示相关系数，并可视化

co = data.corr()
plt.subplots(figsize=(8, 8))
sns.heatmap(co.corr().round(2),annot=True)
plt.show()

在这里插入图片描述

4.2.2 显示每个类别的数量

sns.countplot(data['diagnosis'])
plt.show()

在这里插入图片描述

5 数据预处理

5.1 类别标签编码LabelEncoder

data["diagnosis"] = LabelEncoder().fit_transform(data["diagnosis"])
print(data["diagnosis"].head(5))

5.2 剔除id列drop

data.drop(["id"],axis=1, inplace=True)
print(data.columns)

5.3 查看是否有空值isnull

print(data.isnull().sum())

没有空值，不用对空值进行处理

5.4 划分训练集和测试集 train_test_split

from sklearn.utils import shuffle
data = shuffle(data,random_state=123) #打乱样本
x = data.drop(["diagnosis"], axis=1)
y = data["diagnosis"]
X_train, X_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=123)

数据集整体数量：569
训练集集整体数量：398
测试集整体数量：171

5.5 数据归一化MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

6 使用多个模型训练和预测

model_list = [KNeighborsClassifier(),SVC(),DecisionTreeClassifier(),RandomForestClassifier()]
for model in model_list:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    svm_acc = round(accuracy_score(y_test, y_pred), 2)
    print("{}模型精度：{}".format(model, svm_acc))

KNeighborsClassifier()模型精度：0.96
SVC()模型精度：0.98
DecisionTreeClassifier()模型精度：0.94
RandomForestClassifier()模型精度：0.95

7 超参数调优GridSearchCV

SCORERS查找评分指标
verbose=3才能显示出每次的迭代过程
scoring评分标准不一样，得到的结果就会不一样

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import SCORERS

param_grid = {"C": [0.01, 0.1, 1, 10, 100],
              "gamma": [0.0001, 0.001, 0.01, 0.1, 1, 10, 20]}

grid_search = GridSearchCV(SVC(), param_grid, cv=2, verbose=3, scoring="accuracy")
grid_search.fit(X_train, y_train)
print(grid_search.best_score_)
print(grid_search.best_params_)
print(grid_search.score(X_test, y_test))