python实现简单的数据预处理

最新推荐文章于 2024-04-18 15:39:18 发布

weixin_51992731

最新推荐文章于 2024-04-18 15:39:18 发布

阅读量1.4k

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_51992731/article/details/122323913

版权

import pandas as pd
import numpy as np

def pre_1():
    # 读取数据
    df = pd.read_csv("/home/hadoop/下载/cs-training.csv")

    # 去除重复值
    df.duplicated()
    df.drop_duplicates()

    # 查看各字段缺失率
    df.info()
    # 缺失值按均值填充
    for col in list(df.columns[df.isnull().sum() > 0]):
        mean_val = df[col].mean()
        df[col].fillna(mean_val, inplace=True)

    # 删除不分析的列
    columns = ["RevolvingUtilizationOfUnsecuredLines"]
    df.drop(columns, axis=1, inplace=True)

    # 保存到本地
    df.to_csv("/home/hadoop/下载/data.csv")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_51992731

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python实现简单的数据预处理

import pandas as pdimport numpy as npdef pre_1(): # 读取数据 df = pd.read_csv("/home/hadoop/下载/cs-training.csv") # 去除重复值 df.duplicated() df.drop_duplicates() # 查看各字段缺失率 df.info() # 缺失值按均值填充 for col in list(df.columns[d.
复制链接

扫一扫