一、原始数据采集
检查原始数据提取过程(数据仓库、数据集市、外部数据等),注意查看是否按要求进行数据脱敏,以及是否进行数据质量检查。
1)使用提供的数据提取方法,重新进行数据提取;
2)抽样检查字段正确性和完整性;
3)抽样查看字段中是否有敏感信息;
4)统计数据总量及缺失量。
二、数据整合逻辑
检查数据处理及整合的基本思路,数据处理方法和流程(数据关联、链接)的正确性和完整性及处理结果的正确性。
1)检查数据预处理思路和处理方法是否正确;
2)检查数据处理流程(数据关联、链接)和整合过程是否正确且完整;
3)抽样检查数据处理结果,并与原数据进行对比,或设置检查点进行中间步骤的检查;
4)结合模型训练及预测结果,对数据处理逻辑进行完善。
三、特征工程处理
检查数据特征加工处理结果的正确性和稳定性。
1)检查特征提取方法是否正确且可以表达业务含义;
2)结合模型训练及测试结果,确认特征提取逻辑的完备性和稳定性。
四、算法参数选择
根据业务需求分析算法合理性,对比不同参数下的模型运行结果,确定算法及参数选择的合理性。
1)根据业务需求及数据特点选择合适算法,使用多种算法进行对比,得到适合建模场景的算法;
2)参数选择同理,对比多种参数选择结果,选最佳结果对应的参数。
五、数据分配策略
检查采用交叉验证方式建立模型过程中的数据集拆分策略及模型结果,对比不同分配策