和几位同学交流了一下,也结合我这半个月学习机器学习原理的体会,我感觉我确实学不了机器学习,真的是太TM难!!!!痛定思痛,我决定舍弃机器学习了,转做开发去了。所以这应该是kaggle系列最后一篇博文了!
特征工程
更多的数据胜于聪明的算法,而好的数据胜于多的数据
在机器学习应用中,我们大多数时间都在进行特征工程和数据清洗,而算法和模型的优化仅仅占了一小部分
数值特征
1:截断。对于连续型数值特征,有时候太多的精度可能只是噪声。因此,可以在保留重要信息的前提下对特征进行截断
2:二值化。数值特征的一种常用类型是计数特征,如网站每天的访问量、餐厅的评论数、用户对一首歌的播放次数等。在大数据时代,计数可以非常快地累加。处理计数特征时,首先要考虑的是,保留为原始计数还是转换为二值变量来标识是否存在或者进行分桶操作。
3:分桶。在购物网站上,每件商品都会显示用户的评论次数。如果商品的评论次数跨越不同的数量级,则它不是一个好的特征。分桶是将数值变量分到一个桶里并分配一个桶编号
对于固定宽度的分桶,每个桶的值域是固定,如果每个桶的大小一样,它也称为均匀分桶,例如将人的年龄分为09岁、1019岁等。除此之外,桶的宽度也可以自定义。如果数值跨越不同数量级,可以根据10(或者其他任何适当的常数)的幂来分桶,如09、1099、100999、10009999等,另一种分桶方式是分位数分桶,虽然固定宽度的分桶易于实现,但如果数值变量的取值存在