【2022年MathorCup大数据竞赛】B题：北京移动用户体验影响因素研究（三）（问题二的分析和结果）

旅途中的宽~

于 2023-01-20 23:08:30 发布

阅读量2.2k

点赞数 1

分类专栏： 2022年MathorCup大数据挑战赛文章标签：大数据 MathorCup 预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzk4869/article/details/128744000

版权

2022年MathorCup大数据挑战赛专栏收录该内容

6 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了在2022年MathorCup大数据竞赛中，针对北京移动用户体验影响因素的研究。作者探讨了多标签多分类模型和单标签多分类模型，包括分类器链算法、随机森林、GBDT、LightGBM和XGBoost等。通过模型建立、改进，如过采样、投票分类器和模型融合，提升了预测准确率。最终，选择OvR模型与XGBoost融合模型对语音和上网业务用户满意度进行预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录：问题二的分析和结果

一、问题二分析
二、模型准备

一、问题二分析

针对问题二，要求建立基于相关影响因素的客户打分模型。

考虑到直接利用问题一筛选的20个主要影响因素，可能会造成训练集准确率降低，直接建模效果较差，所以考虑分别选取100%的影响因素，80%的影响因素，50%的影响因素以及20%的影响因素进行建模，比较模型的准确率以及算法的时间复杂度。

将数据集进行OneHot编码，将非数值型变量转化为数值型变量，进一步将数据集分为训练集和测试集，在训练集上训练出模型后，用测试集来评估其测试误差，作为对泛化误差的估计。

由于本文处理的是多标签多分类数据，故先选取分类器链算法进行模型预测。为了验证上述分析并便于比较，本文也同时建立了单标签多分类模型，如随机森林、GBDT算法、LightGBM、XGBoost、OvR模型以及OvO模型，通过多种模型的比较以验证基于相关影响因素的客户打分模型的准确率，并将模型结果进行可视化，作为本文选择最终模型的一个重要参考。

通过问题一的量化分析可以看出，数据标签分布不平衡，为了对模型进行进一步改进，本文选用SMOTE过采样平衡数据集，同时建立投票分类器，尝试模型融合来提高准确率。在上述的模型中，选择一个准确率较高的模型，进行模型优化，最终对附件3语音业务用户满意度打分以及附件4上网

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

旅途中的宽~ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。