数据处理
文章平均质量分 65
小屋*
这个作者很懒,什么都没留下…
展开
-
os,shutil操作——批量修改文件名,移动文件,读取文件
有一批混乱的标签数据:内容为:(最后一列为标签)按标签将这批数据重命名并另存到对应标签下的目录。'''将存放所有数据标签的txt文本,按照标签类别存放至新的文件夹路径。并以新的格式命名。例如:原始数据tree txt/000001.txt-001000.txt 改为 tree data/[class1]/class1_000001.txt-class1_000002.txt data/[class2]/class2_000001.txt原创 2021-08-25 22:59:48 · 664 阅读 · 0 评论 -
python对数据集进行清洗与可视化
在制作数据集的过程中难免会发生一些文件的缺失及标签的错误,下面代码可以对数据进行清洗,并生成报告,可视化查看我们的数据集。直接上代码:import osimport easygui as gimport globimport pandas as pdimport xml.etree.ElementTree as ETfrom tqdm import tqdmimport pandas_profilingimage_path = g.diropenbox( title= "请选择图像文件夹路原创 2021-03-23 11:32:48 · 2492 阅读 · 4 评论 -
天池学习赛:工业蒸汽量预测6——模型融合
上一篇《天池学习赛:工业蒸汽量预测5——特征优化》本篇为总结篇,包含赛题全部的处理代码。目录1 模型优化1.1 模型融合技术1.2 预测结果融合策略2 赛题模型融合2.1 单一模型预测效果2.2 模型融合Boosting方法2.3 多模型预测Bagging方法2.4 多模型融合Stacking方法1 模型优化1.1 模型融合技术模型融合即先产生一组个体学习器,再用某种策略将他们结合起来,以加强模型效果。随着集成中分类器数目的增加,集成学期器的错误率也会呈指数级下降,最终趋于零。综合个体学习器的优原创 2021-03-20 17:41:11 · 952 阅读 · 0 评论 -
天池学习赛:工业蒸汽量预测5——特征优化
上一篇《天池学习赛:工业蒸汽量预测4——模型验证》目录1 特征优化的方法1.1 合成特征1.2 特征变换1.3 用决策树创造新特征1.4 特征组合2 赛题特征优化代码1 特征优化的方法1.1 合成特征从一个或者多个输入特征衍生来的特征(标准化和缩放法创建的特征不算),主要包含以下几个类型:(1)将一个特征与其本身或者其他特征相乘(特征组合)(2)两个特征相除(3)对连续特征进行分箱,以分为多个去加分箱1.2 特征变换1 数值特征的变换和组合常用的数值特征的变换和组合如下:(1)多项式特原创 2021-03-19 22:19:00 · 778 阅读 · 2 评论 -
天池学习赛:工业蒸汽量预测4——模型验证
上一篇《天池学习赛:工业蒸汽量预测3——模型训练》中已经是使用了几种机器学习的模型,接下来将介绍一些模型的评价方法。目录1 模型评估的方法2 模型调参3 赛题模型验证与调参1 模型评估的方法1 欠拟合与过拟合2 泛化与正则化3 回归模型评价指标与调用方法(1)平均绝对误差from sklearn.metrics import mean_absolute_errormean_absolute_error(y_test,y_pred)(2)均方误差from sklearn.metrics i原创 2021-03-19 20:20:20 · 754 阅读 · 0 评论 -
天池学习赛:工业蒸汽量预测3——模型训练
接上一篇《天池学习赛:工业蒸汽量预测2——特征工程》数据划分:from sklearn.model_selection import train_test_split #切分数据new_train_pca_16=new_train_pca_16.fillna(0)#采用PCA保留的16维特征的数据train=new_train_pca_16[new_train_pca_16.columns]target=new_train_pca_16['target']#划分数据集 训练集80%验证机原创 2021-03-18 17:02:57 · 560 阅读 · 0 评论 -
天池学习赛:工业蒸汽量预测2——特征工程
目录1.特征工程1.1 预处理1.2 特征处理1.3 特征降维2.赛题代码1.特征工程一般流程:1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换(数值化、类别转换、归一化)5.特征处理(异常值、最大值、最小值、缺失值)1.1 预处理数据采集,清洗,采样。正样本>负样本,若样本量特别大,采用下采样;正样本>负样本,若样本量不大,采用上采样(图像上的旋转镜像操作)1.2 特征处理采用sklearn自带数据库进行学习:原创 2021-03-18 16:49:45 · 935 阅读 · 5 评论 -
天池学习赛:工业蒸汽量预测1——数据探索
目录0.赛题介绍1.数据分析知识2.代码实现0.赛题介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。赛题描述经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测原创 2021-03-17 19:48:13 · 1174 阅读 · 0 评论 -
kaggle—HousePrice房价预测项目实战
房价预测是kaggle官网的一个竞赛项目,算是机器学习的一个入门项目。kaggle官网链接: link.关于kaggle竞赛项目的操作流程可以参看这篇博客: link.一、kaggle介绍kaggle主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,kaggle已经吸引了80万名数据科学家的关注。是学习数据挖掘和数据分析一个不可多得的实战学习平台,上面还有许多的项目有巨额的奖金,有许多的获奖选手都会分享他们的代码并分析和挖掘数据的经验。二、房价预测房价竞赛的链接链接:原创 2020-11-14 21:05:22 · 2369 阅读 · 0 评论