美团机器学习——特征工程

取个程序猿的名字

于 2019-11-21 20:16:15 发布

阅读量532

点赞数

分类专栏： kaggle 文章标签：美团机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45680007/article/details/103190031

版权

和几位同学交流了一下，也结合我这半个月学习机器学习原理的体会，我感觉我确实学不了机器学习，真的是太TM难！！！！痛定思痛，我决定舍弃机器学习了，转做开发去了。所以这应该是kaggle系列最后一篇博文了！

特征工程

更多的数据胜于聪明的算法，而好的数据胜于多的数据
在机器学习应用中，我们大多数时间都在进行特征工程和数据清洗，而算法和模型的优化仅仅占了一小部分

数值特征

1：截断。对于连续型数值特征，有时候太多的精度可能只是噪声。因此，可以在保留重要信息的前提下对特征进行截断

2：二值化。数值特征的一种常用类型是计数特征，如网站每天的访问量、餐厅的评论数、用户对一首歌的播放次数等。在大数据时代，计数可以非常快地累加。处理计数特征时，首先要考虑的是，保留为原始计数还是转换为二值变量来标识是否存在或者进行分桶操作。

3：分桶。在购物网站上，每件商品都会显示用户的评论次数。如果商品的评论次数跨越不同的数量级，则它不是一个好的特征。分桶是将数值变量分到一个桶里并分配一个桶编号
对于固定宽度的分桶，每个桶的值域是固定，如果每个桶的大小一样，它也称为均匀分桶，例如将人的年龄分为0_9岁、1019岁等。除此之外，桶的宽度也可以自定义。如果数值跨越不同数量级，可以根据10（或者其他任何适当的常数）的幂来分桶，如0_9、1099、100_999、10009999等，另一种分桶方式是分位数分桶，虽然固定宽度的分桶易于实现，但如果数值变量的取值存在

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。