数据科学导论——数据预处理进阶

最新推荐文章于 2023-01-02 00:56:47 发布

小浪浪、

最新推荐文章于 2023-01-02 00:56:47 发布

阅读量3.1k

点赞数 3

分类专栏：算法竞赛 educoder 文章标签： python

本文链接：https://blog.csdn.net/xiaolanglang_/article/details/123693938

版权

算法竞赛同时被 2 个专栏收录

70 篇文章 6 订阅

订阅专栏

educoder

27 篇文章 19 订阅

订阅专栏

第1关：数据归约

请仔细阅读右侧代码，结合相关知识，在 Begin-End 区域内进行代码补充，使用数值规约的无参方法中的直方图展示不同年龄的发病次数。

图片生产要求如下：

设置图片大小 figsize=(10,10)；
图形保存到 Task1/img/T1.png。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
def student():
    train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])
    train['Insulin'] = train['Insulin'].fillna(100)
    train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())
    train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())
    train['BMI'] = train['BMI'].fillna(train['BMI'].mean())
    train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())
    #********* Begin *********#
    plt.figure(figsize=(10,10))
    x=pd.Series(train['Age'])
    count=x.value_counts()
    count.plot(kind='bar')
    plt.savefig("Task1/img/T1.png")
    plt.show()
    #********* End *********#

第2关：数据离散化

请仔细阅读右侧代码，结合相关知识，在 Begin-End 区域内进行代码补充，将 Age 字段分 3 个区间 [0,30,50,90] ，并对各区间计数。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
def student():
    train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?']).dropna()
    #********* Begin *********#
    bin=[0,30,50,90]
    a=pd.cut(train["Age"],bin)
    print(pd.value_counts(a))
    #********* End *********#

小浪浪、

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据科学导论——数据预处理进阶

第1关：引言-根深之树不怯风折，泉深之水不会涸竭 1、数据质量的多维度量不包含以下那个选项？ A、精确度B、完整度C、不一致性D、可信度 2、数据预处理的方法不包含以下那个选项？ A、数据清理 B、数据集成 C、数据变换 D、数据保留 ...
复制链接

扫一扫