依据特征名或特征中的关键字筛选特征

有时我们需要对数据集中的特征进行筛选,依据特征名或特征中的关键字选择或删除一些特征。下文主要介绍这两种不同的基于特征名的特征筛选方式。

1.依据特征名选择特征

首先创建说明用数据集:

d = {'逻辑回归': [1, 2], '随机森林-集成模型': [3, 4], 'XGBoost-集成模型': [5, 6]}
df = pd.DataFrame(data=d)

在这里插入图片描述

(1)筛选需要的特征

设想我们只想保留“逻辑回归”和“随机森林-集成模型”这两列数据(两个特征),可以直接用名字进行筛选。

#若需要保留的特征不多,可以直接进行筛选
df = df['逻辑回归','随机森林-集成模型']

但这样一个一个写毕竟很麻烦,而且也不方便更改。当需要筛选的特征很多而特征名又是以列表的方式呈现时,可以进行如下操作:

#若需要保留的特征较多,可将特征名字存储在一个list中
feature_delete_list = list(['逻辑回归','随机森林-集成模型'])
df = df[feature_delete_list]

这样当list的内容更改后也能方便地进行筛选。

筛选后得到全新的数据集:
在这里插入图片描述

(2)删除不需要的特征

当删除的特征不多时,和上文一样,可以直接使用drop()函数进行删除:

#若需要删除的特征不多,可以直接进行删除
df.drop(list(['逻辑回归','随机森林-集成模型']), axis=1, inplace=True)

和上文相同,若需要删除的特征较多,也最好先保存为一个list再进行删除:

#若需要保留的特征较多,可将特征名字存储在一个list中再进行删除
feature_delete_list = list(['逻辑回归','随机森林-集成模型'])
df.drop(feature_delete_list, axis=1, inplace=True)

删除后得到数据集:
在这里插入图片描述

2.根据特征中的部分内容选择或删除特征

如果需要选择或删除含有固定内容(固定字符串)的特征时,可以使用lambda表达式。如下代码可以保留特征名中含有“集成模型”字样的特征:

#保留特征名中含有“集成模型“的特征
feature = list(filter(lambda x:  "集成模型" in x , list(df.columns)))
df = df[feature]

在这里插入图片描述

如果有多重条件,可以使用“not” “or” “and” 逻辑联结符丰富筛选条件:

#保留特征名中含有“集成模型”、不含“森林” 或含有“回归” 的特征
feature = list(filter(lambda x:  "集成模型" in x and "森林" not in x or "回归" in x, list(df.columns)))
df = df[feature]

这样就可以筛选出特征名中含有“集成模型”、不含“森林” 或含有“回归” 的特征并得到相应子数据集。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值