天池大赛
xutiantian1412
考虑到历史的行程,我就从地质专业润了去做风控算法。
展开
-
数据挖掘实战之天池精准医疗大赛(6)——特征工程2
Part 4-2:特征工程2)特征工程示例如何构造和选取不再赘述,下面列出我和一些大佬的特征,只看结果,如何实现出这些特征还需多下功夫亲自尝试。引用一位大佬的一句话,“在看别人代码的时候,最终成果可能只有几百行,但是推理和尝试的代码量比成果多得多,这部分最终并没呈现出来,看似简单的答案只是冰山一角。因此,有时看了人家的答案,觉得每句都能理解,到了自己做的时候,还是照猫画虎,只能微调。data['天...原创 2018-03-12 23:01:42 · 2257 阅读 · 6 评论 -
数据挖掘实战之天池精准医疗大赛(4)——数据分析与数据预处理
Part 3: 数据分析与数据预处理在介绍了sklearn包之后,我们正式开始大赛的流程,但是这部分不太用得到sklearn包,而是接着part1中我们对数据的分析和认识应用pandas等工具对数据进行分析和预处理。这一部分我们直接贴上我实际的代码(略作修改),展示出在这一部分应该做的工作:import pandas as pdprint("___________________________...原创 2018-02-28 11:15:38 · 4229 阅读 · 0 评论 -
数据挖掘实战之天池精准医疗大赛(5)——特征工程1
Part 4-1 : 特征工程现在开始数据挖掘中最玄妙也是最重要的部分:特征工程(Feature Engineering)。初学机器学习,一般只是对此概念及相关内涵有所了解,此处试图以实践性的角度,详细阐述特征工程。引用一句老掉牙的话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。好特征即使使用一般的模型,也能得到很好的效果!好特征的灵活性在于它允许你可以选择不复杂的模型,同时...原创 2018-03-10 23:09:46 · 4074 阅读 · 2 评论 -
数据挖掘实战之天池精准医疗大赛(1)——赛题与数据
首先介绍题目与数据:特别提供一下数据,供后来看到的盆友下载研究(现在官网上剩下的数据是复赛的了),测试数据分AB榜,不了解的去看天池平台的介绍:链接:https://pan.baidu.com/s/1SGZi_o1UVobHfy275onoOw 密码:rf6s竞赛题目中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。每年用于糖尿病的医疗费用占中国公共医疗卫...原创 2018-02-05 15:35:44 · 11074 阅读 · 11 评论 -
数据挖掘实战之天池精准医疗大赛(3)——sklearn工具包简介
Part 2 sklearn工具包简介:前面介绍了一大堆的思路,要展开这一系列的流程,还要从sklearn包的使用开始,现对此作一些介绍。先分如下几个方面介绍:2-0.学习文档2-1.转换器,估计器及流水线 2-2.数据预处理2-3.特征抽取、选择2-4.模型调用2-5.模型评估2-6.交叉验证/参数优化2-0 学习文档工具包学习的最好教材就是其文档,请看这里。这可是英文的哟,但是现在没必要啃英文...原创 2018-02-20 22:12:00 · 2098 阅读 · 0 评论 -
数据挖掘实战之天池精准医疗大赛(2)——算法思路
Part 1-2 算法思路:下面我们根据前文对数据集的认识,分析问题和解题思路。其实讲述算法思路是一件十分复杂和困难的事儿,按照自上向下的顺序结合一位大佬的文章,谈一谈:一,说到思路,其实就是数据、特征、模型三个部分,数据预处理服务于特征工程,特征服务于模型,又决定了模型的上限。这三部分密不可分,而且在后续的流程中还会返回来完善、改进前面的工作;二,开始我们仍未对特征作用于模型的效果有所尝试,故首...原创 2018-02-09 16:13:36 · 4420 阅读 · 0 评论 -
数据挖掘实战之天池精准医疗大赛(7)——模型构建与总结
Part 5:模型构建与总结终于到了模型,前面折腾了这么多东西,其实模型已经不是什么障碍了。上一部分拿出了一个大佬的作品介绍特征工程,此处可以结合模型学习一个:糖尿病预测方案简介模型构建这一块的流程想必筒子们在算法学习中学了不少,只是缺少的是数据预处理和特征工程的经验,这里对于建立模型的流程不啰嗦。经过前面的步骤我们得到了用于训练和预测的、具有大量有效的特征的数据集,各种模型的接口都很统一,在模型...原创 2018-03-15 17:29:50 · 2699 阅读 · 0 评论