- 博客(7)
- 收藏
- 关注
原创 kaggle房价预测代码一:很好的stacking模版
今天开始做kaggle的房价预测比赛,这是一个回归问题的比赛,我找到了一份非常好的代码。原文链接:https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard说一下在特征处理中的一些操作:1.删除价格异常值2.对标签做log转换,平滑化3.对缺失值采取不同的填充方式4.对类别特征按情况采取la...
2018-12-08 22:03:43 4036 1
原创 泰坦尼克号比赛预测5:能上0.83的代码
今天找到了一份可以上0.83的代码,真是令人震惊,作者只是用了knn的单模型就做到了这个成绩。其中他构建了一个很新奇的特征:家庭中是否有人存活,我不知道是不是这个意思。最后也没有交叉验证,甚至划分出验证集,只是使用了网格搜索,当然,这并不意味着作者做了很少的工作,实际上在他的Kernels中它提到了自己尝试了很多模型,最后发现knn表现非常好,原文链接如下:https://www.kaggle.c...
2018-12-08 10:57:51 648
原创 泰坦尼克号比赛预测四:使用keras基于深度学习预测
找到了一篇基于深度学习进行泰坦尼克比赛预测的代码。写得非常好,我做了一点点修改,准确了准确率在0.794代码是基于keras写的,以后再做此类问题时可以模仿着进行迁移。原文链接:https://www.kaggle.com/rafaelvleite/titanic-artificial-neural-network-80-score/code代码如下:# -*- coding: ...
2018-12-07 22:13:31 1255
原创 泰坦尼克号预测三:投票法
今天找到一篇新的关于泰坦尼克号比赛的分析文章,作者号称可以上0.8,但是我竟然跑了0.76,而线下是0.83,过拟合了。不过我觉得这里面的对于网格搜索和voting_classifier类的使用以及一些多变量联系的可视化操作是值得学习的,因此我把代码记录在下面,原文连接:https://www.kaggle.com/masumrumi/a-statistical-analysis-ml-workf...
2018-12-07 16:56:13 305
原创 泰坦尼克号比赛分层预测
上一篇最终提交了一下,结果是77。然后那一篇主要在于前面的特征工程,后面的模型部分没有很详细处理,今天找到一篇在模型建立上很好的文章,第一层作者用了5个模型分别进行预测,并且是交叉验证实现,然后作者把第一层的结果作为输出,又利用一个xgb模型作为第二层的训练,特征提取上与第一篇文章没有大的区别,那么结果我也提交了,分数是0.799,我也是醉了,差一点到0.8.代码贴出来如下,重点就是如何做的分层预...
2018-12-06 21:08:51 308
原创 泰坦尼克号比赛大神级分析
最近在学习如何打数据挖掘比赛,感觉以前自己根本没有分析的去做比赛,因此我在重温之前的一些比赛,想看一下大神的思路是怎样的,今天这个比赛就是kaggle的入门比赛:泰坦尼克号比赛。虽然是入门的,但是有太多的大神对这份数据提出了自己的见解,今天我看的这份报告是一个完全版的分析,英文版的,我想把它翻译过来,也记录一下大神的思路。(如果这是侵权,我就删除了。。。)先附上原文链接:https://www.k...
2018-12-05 20:26:27 767
原创 pandas 的describe函数的参数详解
基本上pandas的describe函数大家都会使用,我之前也是,直接data.describe(),就把数据的统计信息给打印出来了。但是今天因某些原因研究了一下describe的参数,才知道其实describe还有很多其他的作用。这是官方文档:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.desc...
2018-12-04 21:54:59 64914 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人