一、问题背景
利用机器学习算法实现糖尿病数据集的二分类问题。
二、数据集分析
- 糖尿病数据集中一共有768个样本,每个样本有8个特征和1个对应的标签
属性 | 含义 |
---|---|
Pregnancies | 怀孕次数 |
Glucose | 葡萄糖测试值 |
BloodPressure | 血压 |
SkinThickness | 皮肤厚度 |
Insulin | 胰岛素 |
BMI | 身体质量指数 |
DiabetesPedigreeFunction | 糖尿病遗传函数 |
Age | 年龄 |
Outcome | 糖尿病标签,1表示有糖尿病,0表示没有糖尿病 |
-
数据集下载地址为:https://www.kaggle.com/saurabh00007/diabetescsv
-
打开diabetes.csv,数据格式如下: