数据与特征处理

数据类型处理技巧

最新推荐文章于 2024-01-09 14:05:05 发布

原创最新推荐文章于 2024-01-09 14:05:05 发布 · 774 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

特征工程专栏收录该内容

5 篇文章

订阅专栏

本文介绍如何处理不同数据类型，包括数值型数据的统计值、离散化及幅度调整；类别型数据的一热编码与哈希处理；时间型数据的连续与离散值应用；文本型数据的词袋模型及TF-IDF计算；以及统计型、次序型、比例类和组合型数据的处理方法。

不同数据类型处理

数值型

统计值：max，min，mean，std(方差)
离散化
比如将价格分成不同的段（可以等宽也可以不等宽），每一段表示一个向量，不同的价格可能会是同一个向量。
Hash分桶
每个类别下对应的变量统计值histogram（分布状况）
可将数值型 => 类别型
幅度调整/归一化

类别型

one-hot编码/哑变量
比如红、黄、蓝分别对应一个向量， one-hot编码每一个值对应一个向量。
hash与聚类处理
小技巧：统计每个类别变量下的各个target比例，转化成数值型。

时间型

既可以看做连续值，也可以看做离散值。
1.连续值

持续时间（单页浏览时长）
间隔时间（上次购买/点击距离现在的时间）

2.离散值
列一天中的哪个时间段
一周中星期几
一年中哪个星期
一年中哪个季度
工作日/周末

文本型

词袋
文本数据预处理后，去掉停用词，剩下的词组成list，在词库中映射成稀疏向量。
把词袋中的词扩充到n-gram。
TF-IDF：
TF(Term-Frequency),TF(t)=(词t在当前文中出现的次数)/(t在全部文档中出现的次数)
IDF(t)=ln(总文档数/含t的文档数)
TF-IDF权重=TF(t)*IDF(t)
词袋=>word2vec

统计型

加减平均
分位线
次序型：排在第几位
比例类：比如电商中好/中/差评的比例

组合型
简单组合特征：拼接型
模型特征组合
用GBDT产出组合特征，并将组合特征与原始特征一起放入LR训练。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。