competition
一路前行1
这个作者很懒,什么都没留下…
展开
-
kaggle Titanic泰坦尼克
作者: 寒小阳 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完前两篇逻辑回归的介绍和各个角度理解之后,我们讨论群(戳我入群)的小伙伴们纷纷表示『好像很高级的转载 2017-09-20 10:58:03 · 2499 阅读 · 1 评论 -
kaggle比赛模型融合指南
介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成平均排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包括它们的结果以及代码以供你自己去尝转载 2017-10-13 16:29:32 · 11199 阅读 · 0 评论 -
kaggle Santander Customer Transaction Prediction总结
记一次失败的竞赛经历数据分析1.样本不均衡。在20万训练数据集中,正样本(y=1)为2万,负样本(y=0)为18万。2.所有原始特征之间相关性很小。这一点很奇怪,很少有数据集所有特征之间相关性都很小的。3.所有特征的分布都类似。这一点也是挺奇怪,应该是主办方对数据做了某种变换。特征工程1.由于这个赛题所有特征均为匿名特征且特征之间没有什么关联,所以可以考虑对数据进行重新洗牌...原创 2019-04-27 21:24:02 · 2192 阅读 · 1 评论