特征工程之高维组合特征的处理、组合特征、文本表示模型

本文探讨了在机器学习中如何处理高维组合特征,包括降维方法,并介绍了寻找有效组合特征的决策树策略。同时,文章详细讲解了文本表示模型,如词袋模型、N-gram、主题模型和词嵌入,及其在深度学习中的应用。
摘要由CSDN通过智能技术生成

三、高维组合特征的处理

什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。

比如性别(取值男女),城市(取值上海北京),组合后特征为:上海男,上海女,北京男,北京女。

假设数据的特征向量为X = (x1, x2, x3, x4, x5 ……xk)。比如xi和xj两个特征组合,组合之后特征的维度 = xi取值个数 * xj取值个数。但是当引入特征 ID进行组合后,会存在参数规模过大的问题。比如用户数量为m,物品数量为n,那么需要学习的参数规模为mn。用户数、物品数都很多的时候,几乎无法学习mn规模的参数。这个时候,需要将用户和物品分别用k维的低维向量表示(k<<m,k<<n),即降维。这时,学习参数的规模变为了mk+nk(其实是矩阵分解的思路)。

四、组合特征

很多实际问题中,我们常常需要面对多种高维特征。如果简单的两两组合,依然容易存在参数过多、过拟合等问题,而且不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对那些特征进行组合。

怎样有效地找到组合特征?

基于决策树的特征组合方法。根据原始输入特征和标签构造出决策树。构造的决策树中每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。
比如:输入原始特征为年龄,性别,用户类型(试用期,付费),物品类型(食品,护肤等),标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值