菜鸟的数据挖掘实战（一）赛题理解“捏泥人”

最新推荐文章于 2025-06-03 17:33:41 发布

阿叶_

最新推荐文章于 2025-06-03 17:33:41 发布

阅读量561

点赞数 1

分类专栏：零基础入门数据挖掘文章标签：数据挖掘机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43902320/article/details/105420828

版权

学习框架：零基础入门数据挖掘-菜鸟的学习路径

这是一个菜鸟的数据挖掘实战记录，目的是快速入门数据挖掘，少走弯路。内容上，由于自己的确是菜得不行，所以在跟随入门级比赛：二手车价格预测进行实战中，会重点叙述学习方法和思路，并补充其他学习资料。

内容预计分为六篇正文，本篇是第一篇正文，介绍赛题与具体学习方法。

目录

1. 学习重点
2.赛题理解
3. 评价指标
- 3.1 评价指标介绍
- 3.2 其他评价指标
4. 总结
5. 参考资料

1. 学习重点

了解一个数据挖掘项目的基本流程
赛题理解的目的与方法
各评价指标的适用范围

2.赛题理解

2.1赛题概况

要求通过给定的二手车数据集，预测二手车交易价格。
数据集来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

2.2数据概况

了解数据的性质有利于对数据的理解和后续分析。这一步看数据有哪些、表示什么意思，由于包括类型数据在内的所有数据都脱敏成了数字形式（即label encoding），还需要了解数字含义。
Tip:匿名特征，就是未告知数据列所属的性质的特征列。

数据预览

比赛一般提供两个数据集：

used_car_train.csv：这是训练集部分，包含变量信息与价格。
used_car_test.csv: 这是测试集部分，与训练集类似，但没有价格信息（需要建模预测），一般样本数较少。

我们看一下训练集（train）的数据：

Field	Description
SaleID

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。