建模常用的pandas语句

pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的**pandas**语句。

额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

1.导入pandas和numpy模块

import pandas as pd

import numpy as np

import os

2.查看并更改工作路径

pwd

os.chdir(‘更改的路径’)

3.读入数据集

df=pd.read_csv(r’文件路径’)

4.查看列数、行数

print(df1.columns.size,df.iloc[:,0].size)

5.查看列名

df.columns.tolist()

6.查看每个特征的类型

for col in fk_df.columns:print(col,fk_df[col].dtype)

7.计算坏账率

badRate=df[‘target’].sum()/df[‘target’].count()

8.计算特征空值率

null_rate=1-df.count()/df.shape[0]

9.保留空值率小于0.2的特征

cols=null_rate[null_rate<0.2].index.tolist()

10.查找数据集数值中型特征小于0的值并置为nan

def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

11.设置新的索引

df=df.reindex()

12.检查常量特征

df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

13.查看是否有重复特征

len(set(list(df1.columns)))==df1.shape[1]

14.查看特征类别数

df1[‘education’].value_counts()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值