数据挖掘赛题理解 Datawhale 零基础入门数据挖掘-Task1 赛题理解

最新推荐文章于 2023-03-29 09:57:15 发布

A half moon

最新推荐文章于 2023-03-29 09:57:15 发布

阅读量233

点赞数

分类专栏：数据科学

本文链接：https://blog.csdn.net/weixin_44064434/article/details/105057896

版权

数据科学专栏收录该内容

28 篇文章 0 订阅

订阅专栏

Datawhale 零基础入门数据挖掘-Task1 赛题理解

在这里插入图片描述

一、赛题理解

Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解部分，为大家入门数据挖掘比赛提供一个基本的赛题入门讲
解，欢迎后续大家多多交流。
赛题：零基础入门数据挖掘 - 二手车交易价格预测
地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?
spm=5176.12281957.1004.1.38b02448ausjSX
(https://tianchi.aliyun.com/competition/entrance/231784/introduction?
spm=5176.12281957.1004.1.38b02448ausjSX)

1.1 学习目标

理解赛题数据和目标，清楚评分体系。
完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程

1.2 了解赛题

赛题概况

数据概况
预测指标
分析赛题

1.2.1 赛题概况

比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。
赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，
总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作
为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱
敏。
通过这道赛题来引导大家走进 AI 数据竞赛的世界，主要针对于于竞赛新人进行自我练习、自我提高。

1.2.2 数据概况

一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质
会有助于我们对于数据的理解和后续分析。 Tip:匿名特征，就是未告知数据列所属的性质的特征列。
train.csv
name - 汽车编码
regDate - 汽车注册时间
g 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’（根据汽车的评
论、标签等大量信息得到的embedding向量）【人工构造匿名特征】
数字全都脱敏处理，都为label encoding形式，即数字形式
]
在这里插入图片描述

在这里插入图片描述

1.4 经验总结

1）如何理解：该赛题符合的问题是什么问题，大概要去用哪些指标，哪些指标是否会做到线上线下的一致性，是否有效的利于我们进一步的探索更高线上分数的线下验证方法，在业务上，你是否对很多原始特征有
很深刻的了解，并且可以通过EDA来寻求他们直接的关系，最后构造出满意的特征。（EDA 后边会介绍
2）有了赛题理解后能做什么： 我们至少要有一些相应的理解分析，比如这题的难点可能在哪里，关键点可能在哪里，哪些地方可以挖掘更好的特征，用什么样得线下验证方式更为稳定，出现了过拟合或者其他问题，估摸可以用什么方法去解决这些问题，哪些数据是可靠的，哪些数据是需要精密的处理的，哪部分数据应该是关键数据（背景的业务逻辑下，比如CTR的题，一个寻常顾客大体会有怎么样的购买行为逻辑规律，或者风电那种题，如果机组比较邻近，相关一些风速，转速特征是否会很近似）。这时是在一个宏观的大体下分析的，有助于摸清整个题的思路脉络，以及后续的分析方向。
3）赛题理解的-评价指标：为什么要把这部分单独拿出来呢，因为这部分会涉及后续模型预测中两个很重要的问题： 1．本地模型的验证方式，很多情况下，线上验证是有一定的时间和次数限制的，所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤，能有效的节省很多时间。 2．不同的指标对于同样的预测结果是具有误差敏感的差异性的，比如AUC，logloss, MAE，RSME，或者一些特定的评价函数。是会有很大可能会影响后续一些预测的侧重点。
4）赛题背景中可能潜在隐藏的条件： 其实赛题中有些说明是很有利益-都可以在后续答辩中以及问题思考中所体现出来的，比如高效性要求，比如对于数据异常的识别处理，比如工序流程的差异性，比如模型运行的时间，比模型的鲁棒性，有些的意识是可以贯穿问题思考，特征，模型以及后续处理的，也有些会对于特征构建或者选择模型上有很大益处，反过来如果在模型预测效果不好，其实有时也要反过来思考，是不是赛题背景有没有哪方面理解不清晰或者什么其中的问题没考虑到。

初次全阶段地了解了数据挖掘的大致流程，很多地方没有接触过，一些评价函数也是第一次接触，希望渐渐能越来越进一步了解，本篇文章全参考了一篇介绍地很清楚的笔记。希望自己以后也能写出这样思路清晰又能广泛让人接受的笔记。
参考：
Datawhale 零基础入门数据挖掘-Task1 赛题理解
PS: 本次数据挖掘路径学习，专题知识将在天池分享，详情可关注公众号Datawhale