作业内容
不实用sklearnAPI的情况下,对乳腺癌数据进行一系列操作
- 使用pandas读取乳腺癌肿瘤数据的csv文件
- 使用pandas对csv数据中的标签进行转换(就是把csv中的“M”变成1,把“B”变成0)
- 计算csv数据的每个特征的平均值、方差、中位数
- 画出每一个特征的直方图
- 对数据进行数据清洗(具体使用哪种方法,自己进行选择)
- 使用python把csv数据划分为训练集和测试集
- 使用python实现数据标准化处理,使用pandas实现数据标准化处理
- 使用python实现交叉验证
- 使用python实现分层交叉验证
代码与解析
import pandas as pd
import numpy as np
//1
data = pd.read_csv('/cancer.csv')
data.head(2)
//2
data.columns
pd.value_counts(data["1"])#第“1”列是label
data["1"] = data["1"].map(["B":1,"M":0])
//3
data[data.columns.difference(["1"])].describe()
看各特征的describe结果是为数据清洗做准备:
- 关注count(有无缺失值)
- meanÿ