封装自己的数据集为Sklearn数据集标准格式

最新推荐文章于 2024-10-07 06:31:57 发布

fh小聪

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量154

点赞数 3

文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/weixin_45577767/article/details/137560754

版权

import numpy as np
import pandas as pd
from sklearn.utils import Bunch
def load_rbb():
    """
    获取骨关节病数据集
    :return:
    """
    data_csv = pd.read_csv("C:\\Users\Administrator\\PycharmProjects\\pythonProject1\\CNN\\files\column_3C_weka.csv")
    rbb = Bunch()
    rbb.data = _get_rbbdata(data_csv)
    rbb.target = _get_rbbtarget(data_csv)
    rbb.DESCR = _get_rbbdescr(data_csv)
    rbb.feature_names = _get_feature_names()
    rbb.target_names = _get_target_names()
    return rbb
def _get_rbbdata(data):
    """
    获取双色球特征值
    :return:
    """
    data_r = data.iloc[:, 0:7]
    return data_r
def _get_rbbtarget(data):
    """
    获取病的类别
    :return:
    """
    data_b = data.iloc[:, 6].values
    data_np = np.array(data_b)
    return data_np
def _get_rbbdescr(data):
    """
    获取数据集描述
    :return:
    """
    text = "本数据集为病例数据，样本数量：{}；" \
           "特征数量：{}；目标值数量：{}；无缺失数据" \
           "".format(data.index.size, data.columns.size - 1, 1)
    return text
def _get_feature_names():
    """
    获取病症特征名
    :return:
    """
    fnames = ["pelvic_incidence", "pelvic_tilt", "lumbar_lordosis_angle", "sacral_slope", "pelvic_radius", "degree_2"]
    return fnames
def _get_target_names():
    """
    获取目标值名称
    :return:
    """
    tnames = ["Normal","Hernia","Spondylolisthesis"]
    return tnames
Medicaldata = load_rbb()

print(Medicaldata)
from sklearn.ensemble import GradientBoostingClassifier
X = Medicaldata.data #特征
Y = Medicaldata.target #类别


import pandas as pd
df_Medicaldata=pd.DataFrame(Medicaldata.data, columns=Medicaldata.feature_names)#将data加入到数据框中
df_Medicaldata['target']=Medicaldata.target#将target加入到数据框中
df_Medicaldata.head()#展示数据框前五行

class_mapping = {0:'Normal',1:'Hernia',2:'Spondylolisthesis'}
df_Medicaldata['target'] = df_Medicaldata['target'].map(class_mapping)
print(df_Medicaldata)