机器学习第二课

最新推荐文章于 2021-09-14 14:52:53 发布

町君

最新推荐文章于 2021-09-14 14:52:53 发布

阅读量238

点赞数

文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_45631510/article/details/105026706

版权

该博客详细介绍了在不使用sklearn API的情况下，如何对乳腺癌数据进行预处理，包括读取CSV文件，转换标签，计算特征统计量，绘制直方图，数据清洗，数据集划分，标准化处理，以及实施交叉验证。特别强调了数据清洗中的异常值检测和数据均衡性检查，并讲解了分层交叉验证的实现方法。

摘要由CSDN通过智能技术生成

机器学习第二课

- 作业内容
- 代码与解析

作业内容

不实用sklearnAPI的情况下，对乳腺癌数据进行一系列操作

使用pandas读取乳腺癌肿瘤数据的csv文件
使用pandas对csv数据中的标签进行转换（就是把csv中的“M”变成1，把“B”变成0）
计算csv数据的每个特征的平均值、方差、中位数
画出每一个特征的直方图
对数据进行数据清洗（具体使用哪种方法，自己进行选择）
使用python把csv数据划分为训练集和测试集
使用python实现数据标准化处理，使用pandas实现数据标准化处理
使用python实现交叉验证
使用python实现分层交叉验证

代码与解析

import pandas as pd
import numpy as np
//1
data = pd.read_csv('/cancer.csv')
data.head(2)
//2
data.columns
pd.value_counts(data["1"])#第“1”列是label
data["1"] = data["1"].map(["B":1,"M":0])
//3
data[data.columns.difference(["1"])].describe()

看各特征的describe结果是为数据清洗做准备：

关注count（有无缺失值）
meanÿ

最低0.47元/天解锁文章

町君

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习第二课

机器学习第二课作业内容代码与解析作业内容不实用sklearnAPI的情况下，对乳腺癌数据进行一系列操作使用pandas读取乳腺癌肿瘤数据的csv文件使用pandas对csv数据中的标签进行转换（就是把csv中的“M”变成1，把“B”变成0）计算csv数据的每个特征的平均值、方差、中位数画出每一个特征的直方图对数据进行数据清洗（具体使用哪种方法，自己进行选择）使用python把cs...
复制链接

扫一扫