数据竞赛—二手车价格预测-—建模调参

最新推荐文章于 2024-05-11 16:54:24 发布

你会弹琴吗

最新推荐文章于 2024-05-11 16:54:24 发布

阅读量669

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45568353/article/details/105125394

版权

reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间
因为训练数据集往往比较大，而内存会出现不够用的情况，可以通过修改特征的数据类型，从而达到优化压缩的目的

DataFrame.memory_usage(index=True, deep=False)

返回每列的内存使用情况
在这里插入图片描述
pandas 中.dropna()的用法：
该函数主要用于滤除缺失数据。如果是Series,则返回一个仅含非空数据和索引值的Series，默认丢弃含有缺失值的行

set_index和rest_index的用法
rest_index：原行索引作为一列保留，列名为index

drop=true:删除原行索引
在这里插入图片描述

回归分析是一种统计学上分析数据的方法，目的在于了解两个或多个变量间是否相关、相关方向与强度，并建立数学模型。以便通过观察特定变量（自变量），来预测研究者感兴趣的变量（因变量）

总的来说，回归分析是一种参数化方法，即为了达到分析目的，需要设定一些“自然的”假设。如果目标数据集不满足这些假设，回归分析的结果就会出现偏差。因此想要进行成功的回归分析，我们就必须先证实这些假设。

1、线性性 & 可加性

2、误差项（εε）之间应相互独立。

3、自变量（X1，X2X1，X2）之间应相互独立。

4、误差项（εε）的方差应为常数。

5、误差项（εε）应呈正态分布。

l1,l2正则化
在这里插入图片描述

sklearn中的LinearRegression

sklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

在这里插入图片描述

求解思想：sklearn.linear_model.LinearRegression求解线性回归方程参数时，首先判断训练集X是否是稀疏矩阵，如果是，就用Golub&Kanlan双对角线化过程方法来求解；否则调用C库中LAPACK中的用基于分治法的奇异值分解来求解。在sklearn中并不是使用梯度下降法求解线性回归，而是使用最小二乘法求解。

在这里插入图片描述

在这里插入图片描述
归一化，标准化，正则化的概念和区别

总结：归一化是为了消除不同数据之间的量纲，方便数据比较和共同处理，比如在神经网络中，归一化可以加快训练网络的收敛性；标准化是为了方便数据的下一步处理，而进行的数据缩放等变换，并不是为了方便与其他数据一同处理或比较，比如数据经过零-均值标准化后，

最低0.47元/天解锁文章

你会弹琴吗

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛—二手车价格预测-—建模调参

reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间因为训练数据集往往比较大，而内存会出现不够用的情况，可以通过修改特征的数据类型，从而达到优化压缩的目的DataFrame.memory_usage(index=True, deep=False)返回每列的内存使用情况pandas 中.dropna()的用法：该函数主要用于滤除缺失数据。如果是Se...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。