本文是《机器学习算法竞赛实战》(人民邮电出版社)的笔记的第一篇,希望可以通过这样的方式督促自己学习。
第1章.初见竞赛
1.竞赛平台简介
1.1Kaggle
大名鼎鼎的国际竞赛平台kaggle,地位无需多言。提一句,kaggle在国内注册时可能出现显示不出验证码的问题,网上很多解决方法。
1.1.1概况Overview
简要介绍竞赛,包括Description(描述)、Evaluation(评分)、Prizes(奖项)、Timeline(时间轴)四部分
- Description:竞赛背景介绍及主办方信息
- Evaluation:给出该次竞赛的评价标准以及提交文件格式
- Prizes:展示奖金
- Timeline:介绍时间线(!合理安排时间
1.1.2数据Data
通常是CSV宽表格式。data部分有个单独的data description,通常会给出所有表格数据信息(采集来源、任务说明、详细字段含义……)
1.1.3代码笔记Code
该次竞赛的开源社区。融合、学习的好地方。
1.1.4论坛Discussion
参赛者交流处,有很多赛事相关讨论。大佬互动的地方/doge
1.1.5排行榜Leaderboard
展示排行榜。有的会分A榜B榜
1.1.6规则Rules
该次竞赛的相关规则,比概览部分更加详细。需注意,以免违规导致功亏一篑
1.2天池
中文平台,对英语不太好的朋友很友好。
天池分初赛和复赛,初赛(离线赛阶段)是固定时间点评测;复赛(平台赛阶段),选手在本地调试算法并完成模型训练,提交推断过程的Docker镜像,由镜像产生预测结果,进行实时评测。
1.3DataFountain(DF)
CCF指定的专业大数据及人工智能竞赛平台,与学术界紧密联系。特色:对行业的细分以及落地场景的多样化
1.4DataCastle(DC)
数据城堡
1.5Kesci
和鲸社区,提供在线的notebook训练环境(收费)
1.6JDATA
京东旗下。主要涉及电商及物流,质量难度都高
2.竞赛流程
2.1问题建模
分析数据进而抽象出建模目标和方案。自行利用主办方提供的数据构造训练集与测试集
2.2数据探索
Exploratory Data Analysis,探索性数据分析,简称EDA。在大致了解问题建模方式后,需结合对赛题背景业务的理解去看数据长什么样子、数据是否和描述相符、包含哪些信息等。首先需要对数据有清晰认知,主要是宽表中各个字段的取值含义、范围和数据结构等。然后更深层次地结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等
2.3特征工程
Feature Engineering。特征决定机器学习预测效果上限,算法不断逼近这个上限。最费时模块
2.4模型训练
选模型、调参数
2.5模型融合
找找队友,看看Code