三、高维组合特征的处理
什么是组合特征?如何处理高维组合特征?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。
比如性别(取值男女),城市(取值上海北京),组合后特征为:上海男,上海女,北京男,北京女。
假设数据的特征向量为X = (x1, x2, x3, x4, x5 ……xk)。比如xi和xj两个特征组合,组合之后特征的维度 = xi取值个数 * xj取值个数。但是当引入特征 ID进行组合后,会存在参数规模过大的问题。比如用户数量为m,物品数量为n,那么需要学习的参数规模为mn。用户数、物品数都很多的时候,几乎无法学习mn规模的参数。这个时候,需要将用户和物品分别用k维的低维向量表示(k<<m,k<<n),即降维。这时,学习参数的规模变为了mk+nk(其实是矩阵分解的思路)。
四、组合特征
很多实际问题中,我们常常需要面对多种高维特征。如果简单的两两组合,依然容易存在参数过多、过拟合等问题,而且不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对那些特征进行组合。
怎样有效地找到组合特征?
基于决策树的特征组合方法。根据原始输入特征和标签构造出决策树。构造的决策树中每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。
比如:输入原始特征为年龄,性别,用户类型(试用期,付费),物品类型(食品,护肤等),标签