数据分析竞赛总结
记录完整的关于数据分析竞赛的思路、流程、代码等
不停下脚步的乌龟
这个作者很懒,什么都没留下…
展开
-
【Kaggle-House Price Prediction】代码参考
import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)%matplotlib inlineimport matplotlib.pyplot as plt # Matlab-style plottingimport seaborn as...原创 2020-04-30 11:16:57 · 1021 阅读 · 0 评论 -
【Kaggle-House Price Prediction】-项目总结
项目对比(与之前工业蒸汽量预测项目相比):相同点:二者都属于回归问题,预测一个数值型的目标变量;在数据预处理方面,两个项目均涉及到对于数据偏态的处理(为了更符合回归问题的正态性要求);在模型选择上,两个项目几乎一样,都是先训练多个回归相关模型(核函数岭回归、Lasso、ElasticNet、Gradient Boosting Regression、XGBoost Regressor、L...原创 2020-04-30 11:00:07 · 980 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】8.支持向量回归机SVR、LGBM
支持向量回归机SVRSVM目标是找到一个最佳超平面,将数据尽可能地分开。SVR目标是找到一个最佳超平面,尽可能拟合更多的样本点(就是回归的思想)。LGBMLGBM是对XGboost的改进,也属于boosting集成算法。...原创 2020-04-30 08:58:07 · 428 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】7.核岭回归KernelRidge
有了岭回归,为什么还要引入使用核函数的岭回归呢?原因在于,岭回归只适用于线性数据。但是数据可能是非线性的,单纯地假设真实数据服从线性关系,并用线性模型来回归真实的非线性数据,效果想必不会好。引入kernel还能有一个好处,就是:引入kernel的RR(Ridge Regression),也就是KRR(Kernel Ridge Regression),能够处理非线性数据,即,将数据映射到某一...原创 2020-04-11 10:05:25 · 615 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】6.岭回归、Lasso、ElasticNet
1. 三个模型主要解决的问题:回归的过拟合(Overfitting)问题当用于训练的特征和数据较少时,可能会导致上图左侧的欠拟合情况。我们希望达到的模型效果是上图中间所示。当用于训练的特征和数据较多时,可能会导致上图右侧的过拟合情况。2. 岭回归(L2正则化)在上图中,为了防止过拟合(上图右侧变为上图中间),就需要对一些变量的系数进行惩罚,使其越小越好。岭回归(也叫L2正则化),就...原创 2020-04-11 09:45:52 · 381 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】4.项目改进想法总结
删除与目标变量低相关的特征。对该项目(全部为数值型数据)可以计算各特征与目标变量之间的spearman相关系数,指定一个阈值,删除低于该阈值的特征。# 相关系数矩阵可视化模版# 找出相关程度plt.figure(figsize=(20, 16)) # 指定绘图对象宽度和高度colnm = data_train1.columns.tolist() # 列表头mcorr = dat...原创 2020-04-10 17:00:38 · 454 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】5.另一份值得学习的代码参考
import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltplt.rcParams.update({'figure.max_open_warning': 0})import seaborn as sns# modellingimport pandas as pdimport nump...原创 2020-04-10 17:17:11 · 716 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】3.项目思路
项目问题定义:预测工业锅炉蒸汽量,所以项目问题属于回归问题,采用的各种算法应该都属于回归算法。数据预处理:异常值处理:给定数据经过脱敏,无法了解每个特征的具体含义,所以异常值的界定较为模糊,所以在项目实践中没有进行异常值处理。缺失值处理:经过观察,该脱敏数据数据完整,不存在缺失值。数据标准化:对数据进行Min-Max Scaler标准化数据偏态处理:通过观察每个特征的数据分布,对右偏...原创 2020-04-10 12:16:15 · 639 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】2.项目描述
项目背景:影响火力发电效率的核心是锅炉的燃烧效率。影响锅炉燃烧效率的因素众多,如燃料供给量、供水量、锅炉的床温、锅炉的压力等。项目要求:利用锅炉传感器采集到的锅炉工况数据,预测锅炉产生的蒸汽量。项目数据:锅炉传感器采集的关于锅炉工况的脱敏数据。数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为...原创 2020-04-10 11:32:02 · 325 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】1.代码参考
import matplotlibimport matplotlib.pyplot as plt%matplotlib inlineimport warningswarnings.filterwarnings("ignore")import pandas as pdimport numpy as npimport kerasimport mathimport osimport ...原创 2020-04-10 11:17:51 · 651 阅读 · 0 评论