目录:问题二的分析和结果
一、问题二分析
针对问题二,要求建立基于相关影响因素的客户打分模型。
考虑到直接利用问题一筛选的20个主要影响因素,可能会造成训练集准确率降低,直接建模效果较差,所以考虑分别选取100%的影响因素,80%的影响因素,50%的影响因素以及20%的影响因素进行建模,比较模型的准确率以及算法的时间复杂度。
将数据集进行OneHot编码,将非数值型变量转化为数值型变量,进一步将数据集分为训练集和测试集,在训练集上训练出模型后,用测试集来评估其测试误差,作为对泛化误差的估计。
由于本文处理的是多标签多分类数据,故先选取分类器链算法进行模型预测。为了验证上述分析并便于比较,本文也同时建立了单标签多分类模型,如随机森林、GBDT算法、LightGBM、XGBoost、OvR模型以及OvO模型,通过多种模型的比较以验证基于相关影响因素的客户打分模型的准确率,并将模型结果进行可视化,作为本文选择最终模型的一个重要参考。
通过问题一的量化分析可以看出,数据标签分布不平衡,为了对模型进行进一步改进,本文选用SMOTE过采样平衡数据集,同时建立投票分类器,尝试模型融合来提高准确率。在上述的模型中,选择一个准确率较高的模型,进行模型优化,最终对附件3语音业务用户满意度打分以及附件4上网