1、读取文件:data = pd.read_csv()
data.shape查看文件的行和列
data_train.columns查看数据列名
data_train.info()查看每列的基本信息,数据类型
data_train.describe()查看类别的统计特征
(data_train.isnull().sum()/len(data_train)).to_dict()查看数据的缺失值
查看训练集测试集中特征属性只有一值的特征 one_value_fea = [col for col in data_train.columns if data_train[col].nunique() <= 1]
- 类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
- 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定
pfr = pandas_profiling.ProfileReport(data_train) pfr.to_file("./example.html")保存分析结果