是否应删除用于计算新特征的特征

烤羊的锅

于 2024-03-05 19:44:27 发布

阅读量127

点赞数 3

文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58074451/article/details/136487527

版权

训练模型时，是否应删除用于计算新特征的特征取决于几个因素。以下是需要考虑的一些因素：

1.**多重共线性**：如果导出的特征是其他两个的线性组合，则如果所有特征都包含在模型中，则可以引入多重共线性。多重共线会增加系数估计的方差，使模型解释更加困难。在线性模型中，这是特别有问题的，但基于树的模型（如LightGBM）通常对多重共线性更具鲁棒性。

2.**冗余**：如果新功能捕获了来自原始两个功能的所有信息（例如，如果是简单的和、差或比），则原始功能可能会变得冗余。包含冗余特征可能会导致不必要的复杂性，并可能影响模型的性能和可解释性。

3.**信息丢失**：有时，每个原始功能可能包含新功能无法完全捕获的唯一信息。删除原始特征可能会导致这种独特信息的丢失，这可能对模型的预测有用。

4.**绩效影响**：应对绩效的影响进行实证评估。您可以训练和评估具有不同特征组合的模型（仅限原始特征、仅衍生特征和所有特征），并比较它们的性能以做出明智的决定。

5.**模型可解释性**：如果模型的可解释性很重要，您可能更喜欢保留利益相关者更容易理解的特性，即使这些特性是从其他特性派生的。有时，原始特征可能比派生特征提供更清晰的见解。

6.**计算效率**：包括更多的特征会使模型训练过程更慢，计算成本更高。如果派生的特征导致类似的模型性能，则可以选择删除原始特征以简化训练过程。

决定是保留还是删除原始特征的一种实用方法是在训练模型后使用特征重要性方法或排列重要性，以查看每个特征对预测的贡献有多大。如果原始特征在包含派生特征后贡献很小，则它们可能是要删除的候选者。

总之，保留或删除特征的决定应基于问题的具体背景、数据的性质、您使用的模型类型以及模型可解释性与性能的重要性。执行特征选择和模型验证通常很有用，可以根据经验确定模型的最佳特征集。

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
是否应删除用于计算新特征的特征

1.**多重共线性**：如果导出的特征是其他两个的线性组合，则如果所有特征都包含在模型中，则可以引入多重共线性。2.**冗余**：如果新功能捕获了来自原始两个功能的所有信息（例如，如果是简单的和、差或比），则原始功能可能会变得冗余。总之，保留或删除特征的决定应基于问题的具体背景、数据的性质、您使用的模型类型以及模型可解释性与性能的重要性。5.**模型可解释性**：如果模型的可解释性很重要，您可能更喜欢保留利益相关者更容易理解的特性，即使这些特性是从其他特性派生的。
复制链接

扫一扫

烤羊的锅 CSDN认证博客专家 CSDN认证企业博客

码龄3年

29: 原创

73万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

363: 积分

275: 粉丝

72: 获赞

12: 评论

53: 收藏

私信

关注

热门文章

分类专栏

python 3篇
java基础学习 5篇

最新评论

LightGBM] [Warning] No further splits with positive gain, best gain: -inf
CSDN-Ada助手: 恭喜您发布了第12篇博客！标题“LightGBM] [Warning] No further splits with positive gain, best gain: -inf”看起来很专业！建议您在下一篇博客中可以尝试分享一些解决这个问题的方法或者对该警告的深入分析，这样可以帮助更多遇到相同问题的读者。期待您的下一篇作品！祝您创作顺利！
max_depth=-1
CSDN-Ada助手: 恭喜您发布了第13篇博客，“max_depth=-1”！持续创作不易，您的努力和热情让我们看到了您的专业素养和创作潜力。希望您能继续保持写作的热情和耐心，探索更多有趣的主题和观点，或许可以考虑深入研究某个具体领域，或者分享一些实用的技巧和经验，让读者能够从中受益。期待您未来更多精彩的作品，加油！
交叉验证、网格搜索使用数据:
CSDN-Ada助手: 恭喜你写了第14篇博客！交叉验证和网格搜索是非常重要的数据处理技术，你的文章对这两个主题进行了很好的解释和探讨。接下来，我建议你可以尝试结合实际案例，分享一些使用交叉验证和网格搜索解决实际问题的经验和教训，这样可以使你的博客更加生动有趣。期待你的下一篇作品！
交叉验证网格搜索调参，roc曲线比较性能
CSDN-Ada助手: 恭喜你撰写了第15篇博客！交叉验证和网格搜索是非常重要的调参技巧，而比较roc曲线性能更是提升模型准确性的利器。希望你能继续保持创作热情，不断探索更多数据分析和机器学习领域的知识。下一步建议可以尝试结合深度学习模型或者其他算法进行比较，或者分享一些实际案例的应用经验，期待你的更多精彩内容！
ValueError: multiclass format is not supported
CSDN-Ada助手: 恭喜您发布了第16篇博客！对于遇到的ValueError错误，不要气馁，持续学习和探索是成长的过程。建议您可以尝试查找相关资料或者向专家请教，解决这个问题，同时也可以多写一些关于解决错误和技术难题的经验分享，让更多人受益。期待您的下一篇作品！加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。