零基础入门数据挖掘-Task4建模调参

最新推荐文章于 2024-09-12 20:06:16 发布

Ziqi_

最新推荐文章于 2024-09-12 20:06:16 发布

阅读量497

点赞数

文章标签：数据挖掘 python 机器学习

本文链接：https://blog.csdn.net/ziqi_/article/details/105254357

版权

这篇博客介绍了零基础入门数据挖掘的实战任务——二手车交易价格预测，目标是掌握机器学习模型的建模和调参流程。内容包括线性回归模型的特性、模型性能验证方法、嵌入式特征选择策略、不同模型对比以及调参技巧。推荐了相关的机器学习模型和书籍。

摘要由CSDN通过智能技术生成

赛题

零基础入门数据挖掘 - 二手车交易价格预测。
链接：零基础入门数据挖掘 - 二手车交易价格预测

学习目标

了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程。

内容介绍

线性回归模型：
（1）线性回归对于特征的要求；
（2）处理长尾分布；
（3）理解线性回归模型。
模型性能验证：
(1) 评价函数与目标函数；
(2) 交叉验证方法；
(3) 留一验证方法；
(4) 针对时间序列问题的验证；
(5) 绘制学习率曲线；
(6) 绘制验证曲线。
嵌入式特征选择：
(1) Lasso回归；
(2) Ridge回归；
(3) 决策树。
模型对比：
(1) 常用线性模型；
(2) 常用非线性模型。
模型调参：
(1) 贪心调参方法；
(2) 网格调参方法；
(3) 贝叶斯调参方法。

代码

读取数据

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

#reduce_mem_usage函数通过调整数据类型，减少数据在内存中占用的空间。
def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.        
    """
    start_mem = df.memory_usage().sum() 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() 
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    return df

线性回归&五折交叉验证&模拟真实业务情况

sample_feature = sample_feature.dropna().replace('-', 0).reset_index(drop=True)
sample_feature['notRepairedDamage'] = sample_feature['notRepairedDamage'].astype(np.float32)
train = sample_feature[continuous_feature_names + ['price']]

train_X = train[continuous_feature_names]
train_y = train['price']

#简单建模
from sklearn.linear_model import LinearRegression
model = LinearRegression(normalize=True)
model = model.fit(train_X, train_y)

#五折交叉验证
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error,  make_scorer
def log_transfer(func):
    def wrapper(y, yhat):
        result = func(np.log(y), np.nan_to_num(np.log(yhat)))
        return result
    return wrapper

scores = cross_val_score(model, X=train_X, y=train_y, verbose=1, cv = 5, scoring=make_scorer(log_transfer(mean_absolute_error)))

#模拟真实业务情况
import datetime
sample_feature = sample_feature.reset_index(drop=True)
split_point = len(sample_feature) // 5 * 4
train = sample_feature.loc[:split_point].dropna()
val = sample_feature.loc[split_point:].dropna()

train_X = train[continuous_feature_names]
train_y_ln = np.log(train['price'] + 1)
val_X = val[continuous_feature_names]
val_y_ln = np.log(val['price'] + 1)
model = model.fit(train_X, train_y_ln)

#绘制学习率曲线与验证曲线
from sklearn.model_selection import learning_curve, validation_curve
? learning_curve
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,n_jobs=1, train_size=np.linspace(.1, 1.0, 5 )):  
    plt.figure()  
    plt.title(title)  
    if ylim is not None:  
        plt.ylim(*ylim)  
    plt.xlabel('Training example')  
    plt.ylabel('score')  
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_size, scoring = make_scorer(mean_absolute_error))  
    train_scores_mean = np.mean(train_scores, axis=1)  
    train_scores_std = np.std(train_scores, axis=1)  
    test_scores_mean = np.mean(test_scores, axis=1)  
    test_scores_std = np.std(test_scores, axis=1)  
    plt.grid()#区域  
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,  
                     train_scores_mean + train_scores_std, alpha=0.1,  
                     color="r")  
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,  
                     test_scores_mean + test_scores_std, alpha=0.1,  
                     color="g")  
    plt.plot(train_sizes, train_scores_mean, 'o-', color='r',  
             label="Training score")  
    plt.plot(train_sizes, test_scores_mean,'o-',color="g",  
             label="Cross-validation score")  
    plt.legend(loc="best")  
    return plt  
plot_learning_curve(LinearRegression(), 'Liner_model', train_X[:1000], train_y_ln[:1000], ylim=(0.0, 0.5), cv=5, n_jobs=1)

Ziqi_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门数据挖掘-Task4建模调参

本文目录赛题学习目标内容介绍相关原理介绍与推荐代码读取数据线性回归&五折交叉验证&模拟真实业务情况赛题零基础入门数据挖掘 - 二手车交易价格预测。链接：零基础入门数据挖掘 - 二手车交易价格预测学习目标了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程。内容介绍线性回归模型：（1）线性回归对于特征的要求；（2）处理长尾分布；（3）理解线性回归模型。模...
复制链接

扫一扫