2024长三角B题全保姆教程

问题 1 请对题目所给数据进行预处理,明确你们处理数据必要性和所采用的 处理方法。研究y2 与分子id 之间是否有一定的函数关系,尝试直接通过id 预测y2;
将 predict.csv 预测结果填入在附件 submit.csv 文件中。


可以通过线性回归与非线性回归(机器学习树模型)研究之间是否存在线性关系,由于y2是连续变量,因此是回归模型,以MAPE或R2作为模型评价,并选择最优的模型,将结果填充到预测结果填入在附件 submit.csv 文件中。


问题 2 对附件 data.csv 中的y2 ~y3, x1 ~x100进行数据分析,选择不超过 10 个 特征指标,建立y1 的预测模型,将 predict.csv 预测结果填入在附件 submit.csv 文件中。
由于y1 ~y3 列数少,可以绘制频率分布直方图等方式进行描述性分析,x1 ~x100列数多,这里需要进行特征筛选,可以先构建VIF法、递归消除特征法进行特征筛选,筛选出前10的指标,然后构建建立y1 的预测模型,以MAPE或R2作为模型评价,并选择最优的模型,将结果填充到预测结果填入在附件 submit.csv 文件中。

方差膨胀系数(variance inflation factor,VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。一般大于10则代表具有多重共线性。这里相当于对自变量和因变量建立回归分析,然后按照各个自变量的VIF值对特征(变量)进行升序,保留前几个VIF较小的值。

递归特征消除的主要思想是反复的构建模型(如随机森林或者回归模型)然后选出最好的(或者最差的)的特征(可以根据系数来选),把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此,这是一种寻找最优特征子集的贪心算法
层次聚类分析

问题 3 请分析y3 与y1 ~y2, x1 ~x100之间的函数关系,建立数学模型预测y3 , 研究y1 ~y2, x1 ~x100 中,哪些特征指标对y3 预测结果的影响较大?并对所选择的指标进行灵敏度分析,将 predict.csv 预测结果填入在附件 submit.csv 文件中。
第一个问题同问题2,只不过这个时候不需要筛选出前10的指标,而是你认为比较重要的指标,然后构建建立y3 的预测模型,以MAPE或R2作为模型评价,并选择最优的模型,将结果填充到预测结果填入在附件 submit.csv 文件中。
第二个问题题目提到对所选择的指标进行灵敏度分析,正常灵敏度分析是针对设定的超参数的改变而导致模型结果的不一致,因此在这里需要进行分析的是对于选定的特征指标,可以分别改变其值(在合理范围内),并观察模型输出y3的变化。可以通过绘制灵敏度图(如特征值变化与模型输出变化的散点图或折线图)来直观地展示灵敏度。


问题 4 请分析 class 与y1 ~y3, x1 ~x100指标之间的关系,基于物理化学性质, 建立分子的类别预测模型,分析y1 ~y3, x1 ~x100 中哪些特征指标对分类的结果影响较大?将 predict.csv 预测结果填入在附件 submit.csv 文件中。
以 class为Y,构建分类模型,通过shap模型进行可解释分析。


问题 5 在不局限于特征选择的情况下,你们是否有更好的方法,提高模型的预测精度,请详细描述你们的方法,并重新对y1, y3 以及类别 class 进行预测,论证你们预测方法的优越性。

超参数寻优;
数据降维分析替代特征筛选

完整解题可看B站:不知名数学家小P

2024年长三角数学建模B题 C题全保姆思路讲解教程(附代码+建模文档)_哔哩哔哩_bilibili

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值