记录篇：【百面机器学习】第一章.特征工程---组合特征

W_Yeee

于 2021-11-25 21:57:47 发布

阅读量645

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48592695/article/details/121548551

版权

本节探讨如何使用决策树来有效地选择高维特征的组合，以避免参数过多和过拟合问题。在点击预测问题的示例中，通过决策树构造了4种特征组合方式，如年龄、性别、用户类型和物品类型的组合。每个样本可以被编码为这些特征组合的二进制表示。这种方法有助于找出有意义的特征交互，提高模型的解释性和性能。

摘要由CSDN通过智能技术生成

场景描述

上一节介绍了如何利用降维方法来减少两个高维特征组合后需要学习的参数。但是在很多实际问题中，我们常常需要面对多种高维特征。如果简单地两两组合，依然容易存在参数过多、过拟合等问题，而且并不是所有的特征组合都是有意义的。因此，需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。

本节介绍一种基于决策树的特征组合寻找方法

以点击预测问题为例，假设原始输入特征包含年龄、性别、用户类型（试用期、付费）、物品类型（护肤、食品等）4 个方面的信息，并且根据原始输入和标签（点击/ 未点击）构造出了决策树，

于是，每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具体来说，就有以下4种特征组合的方式。

（1）“年龄<=35”且“性别=女”。

（2）“年龄<=35”且“物品类别=护肤”。

（ 3 ） “ 用户类型 = 付费 ” 且 “ 物品类型 = 食品 ” 。

（ 4 ） “ 用户类型 = 付费 ” 且 “ 年龄 <=40” 。

下表是两个样本信息，那么第 1 个样本按照上述 4 个特征组合就可以编码为（1, 1, 0, 0 ），因为同时满足（ 1 ）（ 2 ），但不满足（ 3 ）（ 4 ）。同理，第 2 个样本可以编码为（0, 0, 1, 1 ），因为它同时满足（ 3 ）（ 4 ），但不满足（ 1 ）（ 2 ）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。