python数据处理(tianchi)

最新推荐文章于 2020-11-21 07:51:05 发布

weixin_45477892

最新推荐文章于 2020-11-21 07:51:05 发布

阅读量171

点赞数

分类专栏： tianchi 文章标签： pytorch 数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_45477892/article/details/108732802

版权

tianchi 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据处理流程：

参考：天池论坛

0.EDA：尽可能多的作图，目的是发现变量间关系以及变量与预测值之间的关系
1.缺失值处理（去除噪声）
（1）对一般特征，缺失值太多直接丢弃(drop函数)。不多则可以进行填充
（2）如果选用树模型，则可以不处理缺失值，让模型自己优化
（3）一般int/float数据缺失值为nan，可以用isnull()判断
（4）对于object的缺失值，其可能形式会不一样，比如可以是’ ‘或者’-’，但可以用.value_counts()函数将object特征的所有可能的值显示出来，再将其替换为nan

2.数据类型转换（给模型的数据必须为数值/布尔型，不能是object）
（1）astype函数：对object型数据，如果存在空数据，转换会报错
（2）to_datetime函数
（3）特征一般分为类别特征和数字特征，对类别特征一般需要查看unique分布
3.编码
（1）one-hot
one-hot编码不要求输入一定要是int/float型，但是其输出一定是int/float型
（2）factorize
4.数据处理
数据的标签若为长尾分布，则不利于建模预测，因为很多模型的前提假设都是数据误差项符合正态分布，而长尾分布违背了该假设，需处理为正态分布（通过log变换等）
在这里插入图片描述上面左边为长尾分布，右边为处理后的结果（注意看x轴），处理后再训练能提高准确率

5.特征工程
（1）构建新特征时，要将训练集和测试集放到一起
（2）要会删除不需要的特征(比如某一个特征取值倾斜太过严重，几乎都是取某一个值，这可用value_counts判断)，以及从特征中寻找先验信息（比如从regioncode中寻找地区信息）
（3）可以结合多个特征计算统计量，比如单独一个brand特征无法判断，但结合其它特征，可以计算某一个brand有多少商品，某一个brand的平均价格等等
（4）数据分桶（离散化可以加快计算，增加模型鲁棒性等等）
（5）针对不同模型进行不同的特征工程
（6）特征相关性分析：相关性特别高的两个特征可以只选一个喂给模型（特征筛选）
（7）匿名特征处理：不能组合，只能单纯的对数据处理，比如装箱/groupby等等
（8）特征选择方法：过滤式/包裹式/嵌入式
其中嵌入式在训练过程中完成了特征选择，嵌入式选择最常用的是L1正则化和L2正则化，若对线性模型加入这两者正则化方法后，线性回归变成了岭回归和Lasso回归（这两种回归方法也是需要额外导入库的）
除此之外，决策树选择分裂结点时也会进行特征选择
（9）数据处理完后，放进模型之前，有必要对数据进行标准化和中心化处理（一般进行归一化就好，主要使不同特征的尺度保持一致，否则尺度大的特征因其数值大从而对模型会产生较大的影响）
6.划分数据
（1）数据划分方法：train_test_split(简单交叉验证)，KFold等方法，有时候在与时间相关的数据集上，还需要按照时间顺序进行划分（不能用20年的数据预测19年的），用靠前的作为训练集，靠后的时间作为验证集
7.建模
（1）分类模型：线性回归，决策树（分类树）
（2）回归模型：逻辑回归，决策树（回归树），GBDT(包括XGboost，LightGBM，一般用于回归，调整后也可分类)
（3）绘制曲线（观察是否过拟合/欠拟合）
（4）调参
（4）参数优化：网格搜索/贝叶斯调参AutoML自动贝叶斯调参
（5）模型融合
主要包括如下方式：
在这里插入图片描述 stacking：使用另外一个机器学习算法来将个体机器学习器的结果结合在一起
stacking要注意防止过拟合
Blending融合方式：
实际做模型融合时，要创建多个模型，并且用这些模型分别训练，由各自训练的结果来决定用哪种融合方式
一般比赛中最为显著的两种方法：
1.加权融合
2.stacking融合
融合也可分为以下几类：
结果层面的融合：要求模型得分要近似，但结果差异比较大
特征层面的融合：用同种模型训练，但将特征进行切分分别训练，后面再进行结果融合
模型层面的融合：部分模型的结果作为特征输入等

other:
（1）.df.columns返回一个index，df.columns.values返回一个narray
（2）.对一列所有数据处理：

df[A]=df[B].apply(lambda x:x + 1)  #apply可以换成map

（3）过拟合和欠拟合的判断，可以通过判断误差（画图的方式），如果误差难以下降，则说明是欠拟合，如果训练误差小而泛化误差大，则说明是过拟合
（4）正则化的理解：损失函数后面一般会添加一个额外项，即为惩罚项（惩罚：对损失函数中的某些参数做一些限制）。这个额外项就叫做正则化/范数。根据额外项形式的不同可以分为L1正则化以及L2正则化
正则化的作用：L1正则化产生稀疏模型（稀疏矩阵指很多项都是为0的矩阵）可用于特征选择，L2正则化用来防止过拟合（L2正则化倾向于减小各项权值）。
如下：