《机器学习算法竞赛实战》学习笔记1.竞赛简介

本文是《机器学习算法竞赛实战》(人民邮电出版社)的笔记的第一篇,希望可以通过这样的方式督促自己学习。

1.竞赛平台简介

1.1Kaggle

大名鼎鼎的国际竞赛平台kaggle,地位无需多言。提一句,kaggle在国内注册时可能出现显示不出验证码的问题,网上很多解决方法。
请添加图片描述

1.1.1概况Overview

简要介绍竞赛,包括Description(描述)、Evaluation(评分)、Prizes(奖项)、Timeline(时间轴)四部分

  1. Description:竞赛背景介绍及主办方信息
  2. Evaluation:给出该次竞赛的评价标准以及提交文件格式
  3. Prizes:展示奖金
  4. Timeline:介绍时间线(!合理安排时间

1.1.2数据Data

通常是CSV宽表格式。data部分有个单独的data description,通常会给出所有表格数据信息(采集来源、任务说明、详细字段含义……)

1.1.3代码笔记Code

该次竞赛的开源社区。融合、学习的好地方。

1.1.4论坛Discussion

参赛者交流处,有很多赛事相关讨论。大佬互动的地方/doge

1.1.5排行榜Leaderboard

展示排行榜。有的会分A榜B榜

1.1.6规则Rules

该次竞赛的相关规则,比概览部分更加详细。需注意,以免违规导致功亏一篑

1.2天池

中文平台,对英语不太好的朋友很友好。
天池分初赛和复赛,初赛(离线赛阶段)是固定时间点评测;复赛(平台赛阶段),选手在本地调试算法并完成模型训练,提交推断过程的Docker镜像,由镜像产生预测结果,进行实时评测。

1.3DataFountain(DF)

CCF指定的专业大数据及人工智能竞赛平台,与学术界紧密联系。特色:对行业的细分以及落地场景的多样化

1.4DataCastle(DC)

数据城堡

1.5Kesci

和鲸社区,提供在线的notebook训练环境(收费)

1.6JDATA

京东旗下。主要涉及电商及物流,质量难度都高

2.竞赛流程

问题建模
数据探索
特征工程
模型训练
模型融合

2.1问题建模

分析数据进而抽象出建模目标和方案。自行利用主办方提供的数据构造训练集与测试集

2.2数据探索

Exploratory Data Analysis,探索性数据分析,简称EDA。在大致了解问题建模方式后,需结合对赛题背景业务的理解去看数据长什么样子、数据是否和描述相符、包含哪些信息等。首先需要对数据有清晰认知,主要是宽表中各个字段的取值含义、范围和数据结构等。然后更深层次地结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等

2.3特征工程

Feature Engineering。特征决定机器学习预测效果上限,算法不断逼近这个上限。最费时模块

2.4模型训练

选模型、调参数

2.5模型融合

找找队友,看看Code

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值