训练模型时,是否应删除用于计算新特征的特征取决于几个因素。以下是需要考虑的一些因素:
1.**多重共线性**:如果导出的特征是其他两个的线性组合,则如果所有特征都包含在模型中,则可以引入多重共线性。多重共线会增加系数估计的方差,使模型解释更加困难。在线性模型中,这是特别有问题的,但基于树的模型(如LightGBM)通常对多重共线性更具鲁棒性。
2.**冗余**:如果新功能捕获了来自原始两个功能的所有信息(例如,如果是简单的和、差或比),则原始功能可能会变得冗余。包含冗余特征可能会导致不必要的复杂性,并可能影响模型的性能和可解释性。
3.**信息丢失**:有时,每个原始功能可能包含新功能无法完全捕获的唯一信息。删除原始特征可能会导致这种独特信息的丢失,这可能对模型的预测有用。
4.**绩效影响**:应对绩效的影响进行实证评估。您可以训练和评估具有不同特征组合的模型(仅限原始特征、仅衍生特征和所有特征),并比较它们的性能以做出明智的决定。
5.**模型可解释性**:如果模型的可解释性很重要,您可能更喜欢保留利益相关者更容易理解的特性,即使这些特性是从其他特性派生的。有时,原始特征可能比派生特征提供更清晰的见解。
6.**计算效率**:包括更多的特征会使模型训练过程更慢,计算成本更高。如果派生的特征导致类似的模型性能,则可以选择删除原始特征以简化训练过程。
决定是保留还是删除原始特征的一种实用方法是在训练模型后使用特征重要性方法或排列重要性,以查看每个特征对预测的贡献有多大。如果原始特征在包含派生特征后贡献很小,则它们可能是要删除的候选者。
总之,保留或删除特征的决定应基于问题的具体背景、数据的性质、您使用的模型类型以及模型可解释性与性能的重要性。执行特征选择和模型验证通常很有用,可以根据经验确定模型的最佳特征集。