2020泰迪杯数据挖掘挑战赛总结(A题)

写在开始:转眼间,泰迪杯数据挖掘挑战赛已经过去了10多天,趁着结果还没出来,还有这股热乎劲,写篇文章总结下。

最初

  • 最初的参赛原因简单粗暴。
    在这里插入图片描述
  • 后来也渐渐发现,白嫖也的确学到不少。
  • 刚开始组队,选好队友很重要,和我组队的两个队员是两个数学学院的大佬。他们每个人都对比赛特别上心。组长也及其负责,这对我们后来的讨论,学习,解题有了很大的鼓励。

学习阶段

  • 在学习阶段是比赛整个阶段中对自我提升最大的阶段。那段时间真的是我整个学期学习最认真的时间,除去上课时间,每天从早学到晚,学习数据分析和机器学习。你只有学的足够深才能在解题的时候有更多的思路,更好的思考。
  • 一个组三个人,一个负责写论文,一个负责算法设计,一个负责编程,身为一个准程序员,我理所应当的成了负责编程的那个人。每天跟着教学视频敲代码成了我的日常工作,有道云笔记记了很多,这些都会成为往后的知识财富。正好我也是大数据专业,数据分析也是一项基本技能。
  • 偶尔会开语音讨论近期进度和对题目的理解,我们组选的是看起来较难的A题。虽然A题看起来较难,但是A题最起码全是数据,没有对文字型或其他类型数据的处理,也会好做一些。
  • 在学习阶段就要多学习,认真学。需要学的不仅是教程视频。还要尽量多的百度一些论文阅读,学习别人的思路。

解题阶段

  • 比赛的数据量基本上都特别大,所以运行起来就会特别慢,一般一个程序运行一个多小时都是有可能的。所以我专门为前段时间白嫖的阿里云服务器配置了Python3运行环境,用XShell远程管理,写好程序后rz上传到服务器,然后让服务器在后台运行程序,自己继续写下一部分。事实证明,这个方法很有效果,大大节省了我们运行程序的时间。
  • 解题阶段要多讨论,多讨论,多讨论!不同的人对题目的理解可能不太一样。我在一开始的理解就偏离了团队的路线,后来在一次讨论中才发现并及时调整。
  • 在解题中要实验多个模型,不能死追着一个模型不放,可能下一个模型就比这个模型要更好。
  • 介绍一个比较好用的库pandas-profiling,可以一键生成漂亮的数据总体预览,也可以生成HTML文件。如果加在论文中,会比较好看。具体使用方法见点击直达
  • 另外,代码记得写注释,文件名记得备注清楚,不然到最后整理代码的时候你能疯,别问我咋知道的。。。

最终

  • 比赛结束,不论结果怎样,最起码在这个过程中我们学到了很多,这就足够了。借用我在比赛中说的一句话:参赛本来的目的就是学习,放平心态就好,得奖也好,得不了奖也罢,只要我们尽力了,在这个过程中学到东西了,那这个比赛参加的就有价值。坚持到底,就是胜利者!
  • 最后祝那些参加了的和将要参加比赛的童鞋们取得好成绩,也希望我们组能够取得优异的成绩吧。
  • 时间——2020年5月21日。
  • 41
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 35
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 35
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值