20200321零基础入门数据挖掘 - 二手车交易价格预测笔记(1)

一、赛题理解

由于第一次接触数据挖掘和建模类型的比赛,故而我主要是依照官方提供的内容进行学习,按照赛题概况、数据概况、预测指标、分析赛题四个步骤进行,记录每个环节产生的思考和寻找到的解答,内容较为基础:

1.1 赛题概况

根据官方提供的信息,该赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。from 天池网站

不过就我下载到的数据来看,只有训练集和测试集A。 而网站中提到里面的数字全都做了脱敏处理,都为label encoding形式,即数字形式。于是产生了以下疑问:

  1. 什么是数据脱敏
    -通过脱敏规则进行数据的变形,对敏感隐私数据实现保护,如身份证号、手机号、卡号等个人信息都需要进行数据脱敏。
  2. 什么是label encoding形式
    -由于类别变量本身不带数值属性,所以需要进行一层转换。常用的方法一般有两种:label encoding和one hot encoding。label encoding是将类别变量中每一类别赋一数值,从而转换成数值型。比如有一列[dog,cat,mouse,cat],可以把其转换为[1,2,3,2]。这里就产生了一个奇怪的现象:dog和mouse的平均值是cat,所以label encoding最直观的缺点就是赋值难以解释,适用场景更窄。
    -one hot encoding的优点就是它的值只有0/1,不同的类型存储在垂直的空间。缺点就是,当类别的数量很多时,特征空间会变得非常大。from 机器学习-Label Encoding与One Hot的区别
    3.什么是训练集、验证集、测试集
    -机器学习中,会将样本分成独立的三部分。训练集(train set),验证集(validation set)和测试集(test set)。其中,训练集用于建立模型,也就在确定模型后进行求参数的步骤,训练的是普通参数(每多加入一个数据对模型进行训练,模型中就会受到影响的参数,通过多次迭代不断更新,是一个梯度下降的过程)而不是超参数
    -超参数是指训练开始之前设置的参数,超参数的选择与训练过程实际上是独立的,训练过程不会影响超参数超参数可以控制模型的结构,如正则项系数、k值等等。因为前期模型参数是用训练集(train set)训练出来的,所以这里不能再用训练集,要用验证集(validation set)来进行训练超参数。训练结束后可以根据训练结果考虑超参数是否可优化,可优化的话就调整超参数的值开始下一次训练。这个过程可以称为调参
    -最后一步就是用之前没用过的数据测试集(test set)进行模型的测试,看该模型是否能有效应用在该数据集中。
    from 训练集,验证集,测试集数据挖掘学习问题汇总

1.2数据概况

通过官方提供的以下说明瞭解每列的性质特征,帮助后续分析。
知识点:统计学中的变量主要分为两种,一种是数值变量,包括离散型数值变量和连续型数值变量。另一种是类别变量,包括有序类别变量和无序类别变量。

数值变量:+,-,平均等操作有意义
类别变量:+,-,平均等操作无意义
1.连续型数值变量:乘、除操作有意义
2.离散型数值变量:乘、除操作无意义
3.有序类别变量:排序有意义
4.无序类别变量:排序无意义
Tip:匿名特征,就是未告知数据列所属的性质的特征列。

字段表

Field Description 数据类型
SaleID 交易ID,唯一编码 3
name 汽车交易名称,已脱敏 4
regDate 汽车注册日期,例如20160101,2016年01月01日 4
model 车型编码,已脱敏 4
brand 汽车品牌,已脱敏 4
bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7 4
fuelType 燃油类型:汽油:0,柴油:1,液化石油气࿱
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值