一般数据挖掘基本步骤 查看数据 填补缺失值 编码 特征选取 选取适当算法模型 查看数据 先查看基本的行列数目 然后查看年报信息中违法和不违法的比例 填补缺失值 查看缺失值后发现很多表的数据都有较多缺失,而且不好填补,所以对于缺失比例大于0.5的列直接删除。 编码 对于object类型编码