1.文章说明
本系列文章都是自己学习《python机器学习及实战》这本书时所做的一些笔记而已,仅为学习作参考。
2.数据集地址:
数据地址是书中给出的数据下载地址:
https://pan.baidu.com/s/1dENAUTr#list/path=%2F&parentPath=%2FPython%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%8F%8A%E5%AE%9E%E8%B7%B5
3.良/恶性乳腺癌肿瘤预测学习
3.1获取数据
import pandas as pd #获取数据 #获取训练数据 df_train = pd.read_csv(r"../Datasets/Breast-Cancer/breast-cancer-train.csv") # print(df_train.head(5))#查看训练数据前5行 """ Unnamed: 0 Clump Thickness Cell Size Type 0 163 1 1 0 1 286 10 10 1 2 612 10 10 1 3 517 1 1 0 4 464 1 1 0 """ #获取测试数据 df_test = pd.read_csv(r"../Datasets/Breast-Cancer/breast-cancer-test.csv") # print(df_test.head(5)) #查看测试数据前5行 """ Unnamed: 0 Clump Thickness Cell Size Type 0 158 1 2 0 1 499 1 1 0 2 396 1 1 0 3 155 5 5 1 4 321 1 1 0 """3.2选取特征,构建测试集中的正负分类样本
#选取‘Clump Thickness’和‘Cell Size’作为特征,构建测试集的正负分类样本 df_test_negative = df_test.loc[df_test['Type'] == 0][['Clump Thickness','Cell Size']] # print(df_test_negative.head(5)) """ Clump Thickness Cell Size 0 1 2 1 1 1 2 1 1 4 1 1 5 1 1 """ df_test_positive = df_test.loc[df_test['Type']