1.4怎样有效地找到组合特征?(机器学习面试)

04 组合特征

场景描述

上一节介绍了如何利用降维方法来减少两个高维特征组合后需要学习的参 数。但是在很多实际问题中,我们常常需要面对多种高维特征。如果简单地两两 组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是 有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组 合。

知识点:组合特征

问题 :怎样有效地找到组合特征?

分析与解答

本节介绍一种基于决策树的特征组合寻找方法[1](关于决策树的详细内容可见 第3章第3节)。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户 类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原 始输入和标签(点击/未点击)构造出了决策树,如图1.2所示。

于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具 体来说,就有以下4种特征组合的方式。

  • (1)“年龄<=35”且“性别=女”。
  • (2)“年龄<=35”且“物品类别=护肤”。
  • (3)“用户类型=付费”且“物品类型=食品”。
  • (4)“用户类型=付费”且“年龄<=40”。

在这里插入图片描述
表1.6是两个样本信息,那么第1个样本按照上述4个特征组合就可以编码为 (1, 1, 0, 0),因为同时满足(1)(2),但不满足(3)(4)。同理,第2个样 本可以编码为(0, 0, 1, 1),因为它同时满足(3)(4),但不满足(1)(2)。
在这里插入图片描述

给定原始输入该如何有效地构造决策树呢?可以采用梯度提升决策树,该方 法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。对梯度提升 决策树感兴趣的读者可以参考第12章的具体内容。

另外博主收藏这些年来看过或者听过的一些不错的常用的上千本书籍,没准你想找的书就在这里呢,包含了互联网行业大多数书籍和面试经验题目等等。有人工智能系列(常用深度学习框架TensorFlow、pytorch、keras。NLP、机器学习,深度学习等等),大数据系列(Spark,Hadoop,Scala,kafka等),程序员必修系列(C、C++、java、数据结构、linux,设计模式、数据库等等)以下是部分截图

更多文章见本原创微信公众号「五角钱的程序员」,我们一起成长,一起学习。一直纯真着,善良着,温情地热爱生活。关注回复【电子书】即可领取哦

在这里插入图片描述

在这里插入图片描述
给大家推荐一个Github,上面非常非常多的干货:https://github.com/XiangLinPro/IT_book

Time will tell you the love for the simple things lasts long and the people loving you are the warmest. ​​​

时光会告诉我们简单的喜欢最长远 ,懂你的人最温暖 。

2020.6.16于城口

评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值