大赛背景
数据爆发时代,数据科学的力量犹如洪水猛兽,在各行业攻城略地,不仅改变着人们的行为和消费习惯,也在重塑商业模式,挑战各行业的商业规则,数据战略已成为企业甚至国家面对未来竞争的重要布局。2019年,大数据挑战赛(以下简称“大赛”)被列入全国普通高校学科竞赛排行榜,凸显社会各界对数据智能的高度关注。
大赛简介
本次大赛是在中国高校计算机大赛主办单位的指导下,由清华大学、南开大学与字节跳动公司联合主办,亚马逊AWS提供资源支持以及科赛提供竞赛平台支持,并以企业真实场景和实际数据为基础的高端算法竞赛。
大赛面向全球高校在校生开放,旨在提升高校学生对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。
参赛对象
本次大赛面向中国及境外在校学生(包括高职高专、本科、研究生),并且为了产出更好的成果,本次大赛非常鼓励高校教师参与指导,赶快邀请自己的导师一起上阵吧。参赛队伍的具体要求如下:
比赛形式
由于大赛异常火爆,本次大赛分为报名&预选赛、初赛、复赛和决赛四个阶段,只有通过了预选赛才可以接着进行比赛哦,不同阶段的比赛形式要求如下:
奖项设置
本次大赛奖项设置非常多样,除了大赛的巨额奖金,还有每周根据排行榜发放的精美礼品,找工作的同学也不用分心,复赛排名前50的队伍可直接获得字节跳动校招面试直通卡哦!
赛题描述
告别平时练习的小打小闹,来参加大赛感受下大场面吧。
本次大赛所用数据全部来自于企业的真实场景,产出的成果即可用于解决企业的真实问题。并且在不同阶段数据处理的数量呈几何级增长,预选赛阶段为1万样本,初赛阶段训练集为1亿,到了复赛阶段,训练集达到了恐怖的10亿级别。赛题描述如下:
1、预选赛题——文本情感分类模型
本预选赛要求选手建立文本情感分类模型,选手用训练好的模型对测试集中的文本情感进行预测,判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测,达到或超过规定的分数线即通过预选赛。
2、正式赛题——文本点击率预估
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
报名方式
登录大赛官网,完成个人信息注册并提交在校学籍证明;
报名信息经审核通过后以个人形式参加预选赛,大赛不收取任何报名费用。
大赛官网:www.kesci.com/landing/bdc2019
大赛官方交流QQ群:753413531