对于机器学习的从业者或者兴趣爱好者而言,kaggle提供了一个机器学习相关的竞技和交流平台.通过比赛和讨论分享,可以知道自己的水平并找到提高的方向.
EDA(Exploratory Data Analysis)
通常我们会用 pandas 来载入数据,并做一些简单的可视化来理解数据。
Visualization,通常来说 matplotlib 和 seaborn 提供的绘图功能就可以满足需求了。
比较常用的图表有:
查看目标变量的分布。当分布不平衡时,根据评分标准和具体模型的使用不同,可能会严重影响性能。
对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布。
对于坐标类数据,可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。
对于分类问题,将数据根据 Label 的不同着不同的颜色绘制出来,这对 Feature 的构造很有帮助。
绘制变量之间两两的分布和相关度图表。
特征工程
Feature Engineering Techniques,这篇文章是kaggle上面的一位grandmaster分享的特征工程常用操作,摘录如下.
train and test 训练集和测试集组合在一起
df = pd.concat([train[col],test[col]],axis=0)
# PERFORM FEATURE ENGINEERING HERE