机器学习第二课

该博客详细介绍了在不使用sklearn API的情况下,如何对乳腺癌数据进行预处理,包括读取CSV文件,转换标签,计算特征统计量,绘制直方图,数据清洗,数据集划分,标准化处理,以及实施交叉验证。特别强调了数据清洗中的异常值检测和数据均衡性检查,并讲解了分层交叉验证的实现方法。
摘要由CSDN通过智能技术生成

机器学习第二课

作业内容

不实用sklearnAPI的情况下,对乳腺癌数据进行一系列操作

  1. 使用pandas读取乳腺癌肿瘤数据的csv文件
  2. 使用pandas对csv数据中的标签进行转换(就是把csv中的“M”变成1,把“B”变成0)
  3. 计算csv数据的每个特征的平均值、方差、中位数
  4. 画出每一个特征的直方图
  5. 对数据进行数据清洗(具体使用哪种方法,自己进行选择)
  6. 使用python把csv数据划分为训练集和测试集
  7. 使用python实现数据标准化处理,使用pandas实现数据标准化处理
  8. 使用python实现交叉验证
  9. 使用python实现分层交叉验证

代码与解析

import pandas as pd
import numpy as np
//1
data = pd.read_csv('/cancer.csv')
data.head(2)
//2
data.columns
pd.value_counts(data["1"])#第“1”列是label
data["1"] = data["1"].map(["B":1,"M":0])
//3
data[data.columns.difference(["1"])].describe()

看各特征的describe结果是为数据清洗做准备:

  • 关注count(有无缺失值)
  • meanÿ
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值