数据挖掘训练营赛题理解学习笔记

最新推荐文章于 2024-07-24 16:19:34 发布

cskcejkbrejjk

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量153

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_51344301/article/details/127697930

版权

本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampdm

一、学习知识点概要

这一节主要讲解了在面对一道新赛题时所需要注意的问题，如赛题概况、数据概况、预测指标以及比赛的评分体系等。

二、学习内容

1.赛题理解

该数据集来自 Ebay Kleinanzeigen 报废的二手车，数量超过 370,000，包含 20 列变量信息，为了保证比赛的公平性，将会从中抽取 10 万条作为训练集，5 万条作为测试集 A，5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行脱敏。比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。

2.数据概况

一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。

3.预测指标

什么是评估指标：

评估指标即是我们对于一个模型效果的数值型量化。

分类算法常见的评估指标如下：

对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。
对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。

对于回归预测类常见的评估指标如下:

平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）

平均绝对误差（Mean Absolute Error，MAE）:其能更好地反映预测值与真实值误差的实际情况，其计算公式如下：

$MAE = \frac{1}{N}\sum _{i=1}^{N}|y_{i}-\widehat{y_{i}}|$

均方误差（Mean Squared Error，MSE）:

$MSE = \frac{1}{N}\sum _{i=1}^{N}(y_{i}-\widehat{y_{i}})^{2}$

R2（R-Square）的公式为：

残差平方和：

$SS_{res}=\sum (y_{i}-\widehat{y_{i}})^{2}$

总平均值:

$SS_{tot}=\sum (y_{i}-\overline{y_{i}})^{2}$

其中 $\overline{y}$ 表示的平均值，得到 $R^{2}$ 表达式为：

$R^{2} = 1-\frac{SS_{res}}{SS_{tot}}=1-\frac{\sum (y_{i}-\widehat{y})^{2}}{\sum (y_{i}-\overline{y})^{2}}$

$R^{2}$ 用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围是 0~1， $R^{2}$ 越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近，用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以 $R^{2}$ 也称为拟合优度（Goodness of Fit）的统计量。

$y_{i}$ 表示真实值， $\widehat{y_i}$ 表示预测值， $\overline{y_{i}}$ 表示样本均值。得分越高拟合效果越好。

代码示例

首先下载数据

# 下载数据
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/DM/data.zip
# 解压下载好的数据
!unzip data.zip

数据读取pandas

import pandas as pd
import numpy as np

path = './data/'
## 1) 载入训练集和测试集；
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')
print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)

分类指标评价计算示例

## accuracy
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print('ACC:',accuracy_score(y_true, y_pred))

## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))

## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))

回归指标评价计算示例

import numpy as np
from sklearn import metrics

# MAPE需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))

## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))

三、学习问题与解答

在csv文件导入时遇到了路径错误的提示，导致后面无法进行，经过自己的多次尝试，最后成功实现数据成功导入。

四、学习思考与总结

在本节中学习了分类评价和回归评价指标的方法，并在对赛题理解角度有了更多的心得。

cskcejkbrejjk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘训练营赛题理解学习笔记

本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampdm
复制链接

扫一扫