基于病理数据集使用Logistic算法构建模型进行乳腺癌预测(良性2/恶性4)—杜凯杰
数据来源:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29
实验采用 UCI 数据集中的 Wisconsin 医学院的 William H.Wolberg 博士提供的乳腺 癌 的 数
据 样 本 。所有数据来自真实临床案例,每个案例有 10 个属性。其中前九个属性是检 测指标(X值),每个属性值用 1 到 10 的整数表示, 1 表示检测指标最正常, 10 表示最不正常。 第十个属性是分类属性(Y值), 指示该肿瘤是否为恶性。
Attribute Information:
- Sample code number: id number
- Clump Thickness: 1 - 10
- Uniformity of Cell Size: 1 - 10
- Uniformity of Cell Shape: 1 - 10
- Marginal Adhesion: 1 - 10
- Single Epithelial Cell Size: 1 - 10
- Bare Nuclei: 1 - 10
- Bland Chromatin: 1 - 10
- Normal Nucleoli: 1 - 10
- Mitoses: 1 - 10
- Class: (2 for benign, 4 for malignant)
如果懂医疗数据的可以很方便理解这些属性代表的意义,像我这样的外行,只能通过数据来说话了………数据集数据量较少,只有569条病患的记录,我们今天就根据这些数据来建模。
加载包
import numpy as np import pandas as pd