python常用函数(1):数据预处理常用到的


第一步 :分析数据,对数据进行处理(合并训练集和测试集一起处理)

  • 1.去除重复值 data.drop_duplicates(inplace=True)
  • 2.缺失值处理(平均数等、随机森林填补、删掉缺失值(一般不怎用,除非数很少))
  • 3.把字符串转变成数值型
  • (可选可不选)4.二值化,分段(分箱,连续型变量)

二、数据预处理常用到的

# 查看数据详情
test=pd.read_csv('test.csv')
train=pd.read_csv('train.csv')
train = pd.read_csv("train.csv", index_col=0,encoding='utf-8')
train.info()
train.shape
train.head()
#描述
train.describe()

# 去重复值
train.drop_duplicates(inplace=True) #inplace=True是直接对原dataFrame进行操作
# s = t.drop_duplicates(inplace=False) 则,t的内容不发生改变,s的内容是去除重复后的内容
#恢复索引
train.index=range(train.shape[0])

# 合并训练集和测试集
data = pd.concat([train, test])

#提取特征(或者选取某一列)
y=df.iloc[:,-1]

#这一列中没有nan的所有行都提取出来
data[data['loan_default'].notnull()]
#这一列中是nan的所有行都提取出来
data[data['loan_default'].isnull()

1.查看某一数占总数的比例 和 某一列最大数

在这里插入图片描述
某一列最大数
在这里插入图片描述

2.查看里面的类别

在这里插入图片描述

3.删除两列

在这里插入图片描述

5.提取两行

在这里插入图片描述

在这里插入图片描述

4.pd.cut()和pd.qcut() 分箱

pd.cut() 将指定序列 x,按指定数量等间距的划分(根据值本身而不是这些值的频率选择均匀分布的bins),或按照指定间距划分
pd.qcut() 将指定序列 x,划分为 q 个区间,使落在每个区间的记录数一致

[In] ll = [1,2,3,5,3,4,1,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值