【2022年MathorCup大数据竞赛】B题:北京移动用户体验影响因素研究(三)(问题二的分析和结果)

本文详细介绍了在2022年MathorCup大数据竞赛中,针对北京移动用户体验影响因素的研究。作者探讨了多标签多分类模型和单标签多分类模型,包括分类器链算法、随机森林、GBDT、LightGBM和XGBoost等。通过模型建立、改进,如过采样、投票分类器和模型融合,提升了预测准确率。最终,选择OvR模型与XGBoost融合模型对语音和上网业务用户满意度进行预测。
摘要由CSDN通过智能技术生成

一、问题二分析

针对问题二,要求建立基于相关影响因素的客户打分模型。

考虑到直接利用问题一筛选的20个主要影响因素,可能会造成训练集准确率降低,直接建模效果较差,所以考虑分别选取100%的影响因素,80%的影响因素,50%的影响因素以及20%的影响因素进行建模,比较模型的准确率以及算法的时间复杂度。

将数据集进行OneHot编码,将非数值型变量转化为数值型变量,进一步将数据集分为训练集和测试集,在训练集上训练出模型后,用测试集来评估其测试误差,作为对泛化误差的估计。

由于本文处理的是多标签多分类数据,故先选取分类器链算法进行模型预测。为了验证上述分析并便于比较,本文也同时建立了单标签多分类模型,如随机森林、GBDT算法、LightGBM、XGBoost、OvR模型以及OvO模型,通过多种模型的比较以验证基于相关影响因素的客户打分模型的准确率,并将模型结果进行可视化,作为本文选择最终模型的一个重要参考。

通过问题一的量化分析可以看出,数据标签分布不平衡,为了对模型进行进一步改进,本文选用SMOTE过采样平衡数据集,同时建立投票分类器,尝试模型融合来提高准确率。在上述的模型中,选择一个准确率较高的模型,进行模型优化,最终对附件3语音业务用户满意度打分以及附件4上网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值