数据集
AmorFatiall
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
——from Internet
展开
-
分箱计数--减少数据稀疏度
分箱逻辑:1.类别型特征:1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate)2)类别数在5个以上,建议做降基处理,再根据降基后的类别做分箱2.数值型特征:1)离散型数值特征(特征value的变动幅度较小):若特征value的非重复计数在5个以下,可以直接根据非重复计数值来分箱(binning_cate)若特征value的非重复计数在5个以上,建议根据业务...原创 2019-10-15 15:34:11 · 1599 阅读 · 0 评论 -
数据集资源整理
数据集资源整理城市计算数据UCI标准数据库Google AI数据集(测试),需翻墙Movielens数据集(电影数据库)亚马逊的公开数据集Yelp(美国的美食数据)歌曲数据集英国伦敦公开数据加拿大开放数据ICWSM-2009年的数据集安然邮件数据集纳斯达克Data Store数据存储系统Airbnb 开放的民宿信息和住客评论数据Amazon 食品评论数据【Kaggle数...原创 2020-08-26 17:00:26 · 1422 阅读 · 0 评论