数据竞赛—二手车价格预测-—建模调参

reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间
因为训练数据集往往比较大,而内存会出现不够用的情况,可以通过修改特征的数据类型,从而达到优化压缩的目的

DataFrame.memory_usage(index=True, deep=False)

返回每列的内存使用情况
在这里插入图片描述
pandas 中.dropna()的用法:
该函数主要用于滤除缺失数据。如果是Series,则返回一个仅含非空数据和索引值的Series,默认丢弃含有缺失值的行

set_index和rest_index的用法
rest_index:原行索引作为一列保留,列名为index

drop=true:删除原行索引
在这里插入图片描述

回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型。以便通过观察特定变量(自变量),来预测研究者感兴趣的变量(因变量)

总的来说,回归分析是一种参数化方法,即为了达到分析目的,需要设定一些“自然的”假设。如果目标数据集不满足这些假设,回归分析的结果就会出现偏差。因此想要进行成功的回归分析,我们就必须先证实这些假设。

1、线性性 & 可加性

2、误差项(εε)之间应相互独立。

3、自变量(X1,X2X1,X2)之间应相互独立。

4、误差项(εε)的方差应为常数。

5、误差项(εε)应呈正态分布。

l1,l2正则化
在这里插入图片描述

sklearn中的LinearRegression

sklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

在这里插入图片描述
在这里插入图片描述
求解思想:sklearn.linear_model.LinearRegression求解线性回归方程参数时,首先判断训练集X是否是稀疏矩阵,如果是,就用Golub&Kanlan双对角线化过程方法来求解;否则调用C库中LAPACK中的用基于分治法的奇异值分解来求解。在sklearn中并不是使用梯度下降法求解线性回归,而是使用最小二乘法求解。

在这里插入图片描述

在这里插入图片描述
归一化,标准化,正则化的概念和区别

总结:归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理,比如在神经网络中,归一化可以加快训练网络的收敛性;标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是一个基于Python和Scikit-learn库的多属性价格预测建模调参的示例代码。这里使用了随机森林回归模型,你可以根据自己的需求选择其他的模型。 首先,我们需要导入必要的库和数据集: ```python import pandas as pd import numpy as np from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import train_test_split, RandomizedSearchCV # 读取数据集 df = pd.read_csv('data.csv') ``` 然后,我们需要对数据集进行预处理,包括处理缺失值、转换数据类型、划分训练集和测试集等: ```python # 处理缺失值 df = df.dropna() # 转换数据类型 df['age'] = pd.to_numeric(df['age'], errors='coerce') df['mileage'] = pd.to_numeric(df['mileage'], errors='coerce') df['price'] = pd.to_numeric(df['price'], errors='coerce') # 划分训练集和测试集 X = df.drop(['price'], axis=1) y = df['price'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 接着,我们需要对模型进行调参。这里我们使用了随机搜索(RandomizedSearchCV)方法来搜索最优的超参数,包括n_estimators(决策树个数)、max_depth(决策树深度)、min_samples_split(内部节点再划分所需最小样本数)等: ```python # 定义模型和超参数搜索空间 rf = RandomForestRegressor() params = { 'n_estimators': [100, 200, 300, 400, 500], 'max_depth': [10, 20, 30, 40, 50], 'min_samples_split': [2, 5, 10, 20, 30] } # 随机搜索最优超参数 random_search = RandomizedSearchCV(rf, param_distributions=params, n_iter=10, cv=5, n_jobs=-1, random_state=42) random_search.fit(X_train, y_train) # 输出最优超参数和训练集上的得分 print('Best Params:', random_search.best_params_) print('Training Score:', random_search.best_score_) ``` 最后,我们使用得到的最优超参数来训练模型,并在测试集上进行评估: ```python # 训练模型 rf = RandomForestRegressor(n_estimators=300, max_depth=30, min_samples_split=2) rf.fit(X_train, y_train) # 在测试集上进行评估 y_pred = rf.predict(X_test) score = rf.score(X_test, y_test) print('Test Score:', score) ``` 至此,我们完成了多属性价格预测建模调参的代码。当然,这只是一个简单的示例,实际应用中需要根据具体情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值