有时我们需要对数据集中的特征进行筛选,依据特征名或特征中的关键字选择或删除一些特征。下文主要介绍这两种不同的基于特征名的特征筛选方式。
1.依据特征名选择特征
首先创建说明用数据集:
d = {'逻辑回归': [1, 2], '随机森林-集成模型': [3, 4], 'XGBoost-集成模型': [5, 6]}
df = pd.DataFrame(data=d)
(1)筛选需要的特征
设想我们只想保留“逻辑回归”和“随机森林-集成模型”这两列数据(两个特征),可以直接用名字进行筛选。
#若需要保留的特征不多,可以直接进行筛选
df = df['逻辑回归','随机森林-集成模型']
但这样一个一个写毕竟很麻烦,而且也不方便更改。当需要筛选的特征很多而特征名又是以列表的方式呈现时,可以进行如下操作:
#若需要保留的特征较多,可将特征名字存储在一个list中
feature_delete_list = list(['逻辑回归','随机森林-集成模型'])
df = df[feature_delete_list]
这样当list的内容更改后也能方便地进行筛选。
筛选后得到全新的数据集:
(2)删除不需要的特征
当删除的特征不多时,和上文一样,可以直接使用drop()函数进行删除:
#若需要删除的特征不多,可以直接进行删除
df.drop(list(['逻辑回归','随机森林-集成模型']), axis=1, inplace=True)
和上文相同,若需要删除的特征较多,也最好先保存为一个list再进行删除:
#若需要保留的特征较多,可将特征名字存储在一个list中再进行删除
feature_delete_list = list(['逻辑回归','随机森林-集成模型'])
df.drop(feature_delete_list, axis=1, inplace=True)
删除后得到数据集:
2.根据特征中的部分内容选择或删除特征
如果需要选择或删除含有固定内容(固定字符串)的特征时,可以使用lambda表达式。如下代码可以保留特征名中含有“集成模型”字样的特征:
#保留特征名中含有“集成模型“的特征
feature = list(filter(lambda x: "集成模型" in x , list(df.columns)))
df = df[feature]
如果有多重条件,可以使用“not” “or” “and” 逻辑联结符丰富筛选条件:
#保留特征名中含有“集成模型”、不含“森林” 或含有“回归” 的特征
feature = list(filter(lambda x: "集成模型" in x and "森林" not in x or "回归" in x, list(df.columns)))
df = df[feature]
这样就可以筛选出特征名中含有“集成模型”、不含“森林” 或含有“回归” 的特征并得到相应子数据集。