数据挖掘笔记

数据挖掘 笔记

标签(空格分隔): 特征提取


实习期间参加了CCF大数据比赛,总结期间用到的一些数据提取想法

数据提取方法

One-hot Encoding

Alter变更有11种类型,将变更类型进行One-hot Encoding编码,再统计每个类型的总量。

时间窗口特征

统计时间区间内行为累积, 比如统计某个企业 [2, 5, 8, 13, 21, 35]个月内的变更Alter记录数目

Binning

也称为 Bucketization:对连续的特征做离散化。(以 age 这样的特征为例,你可以把所有年龄拆分成 n 段, 0-18 岁、18-40 岁、40-70 岁等,然后把个别的年龄,对应到某⼀段,假设 26 岁是对应到第⼆个 bucket,那新特征的值就是 2。) 比赛应用:对某个企业所投资机构的存活时间做Binning,然后再统计不同的存活时间里的机构数目,对应的就是统计了某企业所投资的机构中存活时间0~1年的有多少。

统计特征:

对一些特征求和, 求最大最小值等

参考文章:
京东算法大赛
数据挖掘调研报告

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值