pandas
wnloverforever
这个作者很懒,什么都没留下…
展开
-
连续特征相关性筛选
def screen_con_feature(corr_data,threshold): ''' corr_data : 要计算相关行的数据集,最好不要有label threshold : 相关性阈值 return : res : 排除掉的特征 result :留下的特征 ''' res = [] result = [] for col_name in corr_data.columns: if col_name in res: continue else: te原创 2021-03-03 14:48:36 · 298 阅读 · 1 评论 -
筛选相关特征
def calcute_corr(data,aim): ''' data : 包含所有需要计算corr相关性的特征数据集 aim : 相关性删除的阈值 return : result : 留下待使用的特征 the_same_feature : 要删除的相关性大于阈值的特征 ''' the_same_feature = [] result = [] for col_name in data.columns: .原创 2021-02-22 17:41:20 · 235 阅读 · 0 评论 -
iv计算code
import numpy as np import pandas as pd data={"feature1":[1,1,2,1,3,2,3],"feature2":[1,3,2,1,2,2,3],"label":[0,0,0,1,1,0,1]} df=pd.DataFrame(data) def calcute_iv(df,aim,res): ''' data : 只包含feature,和label aim :关心的相应变量值,(流失为1) ''' iv = 0原创 2021-02-20 15:33:06 · 220 阅读 · 0 评论 -
data_pd.value_counts()和data_pd.groupby(by='类别').goups
data = [['青年', '否', '否', '一般', '否'] , ['青年', '否', '否', '好', '否'] , ['青年', '是', '否', '好', '是'] , ['青年', '是', '是', '一般', '是'] , ['青年', '否', '否', '一般', '否'] , ['中年...原创 2020-03-30 17:24:47 · 273 阅读 · 0 评论