一、问题背景
利用机器学习算法实现乳腺癌数据集的二分类问题,良恶性乳腺癌肿瘤预测。
二、数据集分析
- 乳腺癌数据集下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
- 乳腺癌数据集中一共有699个样本,共11列数据,每个样本有10个特征和1个对应的标签
- 包含16个缺失值,用”?“标出
属性 | 含义 |
---|---|
Sample code number | 索引ID |
Clump Thickness | 肿瘤厚度 |
Uniformity of Cell Size | 细胞大小均匀性 |
Uniformity of Cell Shape | 细胞形状均匀性 |
Marginal Adhesion | 边缘粘附力 |
Single Epithelial Cell Size | 单上皮细胞大小 |
Bare Nuclei | 裸核 |
Bland Chromatin | 染色质的颜色 |
Normal Nucleoli | 核仁正常情况 |
Mitoses | 有丝分裂情况 |