2024数学建模国赛冲刺(国赛杯)

建模全流程知识点梳理

随着国赛的脚步越来越近,一次建模,终身受益,参与国赛的同学们,是否已经准备好迎接这场智力与毅力的双重挑战了呢?

很多小伙伴反馈临近比赛时感到非常紧张与激动,在我们看来:国赛不仅是一场知识的较量,更是一次心理素质的考验,紧张可以转化为动力,激动可以激发潜能,参加竞赛不仅仅是获得荣誉这么简单,更重要的是能培养参赛选手自身的科研素养、理论联系实际能力、创新能力、协作精神及解决实际问题的能力,享受竞赛过程,并从中有所成长,这才是参与竞赛的意义。

为了帮助大家更好地准备,我们特别整理了建模全流程的知识要点,帮助同学们查漏补缺,确保在比赛前达到最佳状态,共享资源绿泡泡:H-vamm。直接点击下方链接:

建模资源共享
在这里插入图片描述

数学建模常用模型算法大致可分为:

1数据预处理:主要是数据的合并、缺失/异常值处理与特征工程等;

2数理统计:如基本描述、回归、分类、聚类以及计量统计等;

3综合评价:指标体系构建、权重制定、综合得分计算这3个方面;

4凸优化求解:包括偏微分方程建立与求解、目标规划求解与与最小路径设计寻优;

5可视化分析:统计图、流程图与过程分解图等;

1数据预处理

数据预处理的2个核心目的,一是通过各种方法,将数据的口径(可以理解为格式)转化为算法可以接收的输入;另一个则是通过提升数据的质量,使得构建的算法可以尽可能准确或表现优异。
在这里插入图片描述

数据预处理全览

1.1数据标准化
●min-max标准化:将数据缩放到给定的最小值和最大值(通常是0到1)之间,适用于需要数据在特定范围内的机器学习算法。

●z-score 标准化:通过减去平均值并除以标准差来调整数据,使得数据具有零均值和单位方差,常用于统计分析和机器学习。

●归一化:通常指将数据缩放到[0, 1]区间内,与min-max标准化类似,但更强调数据的相对大小。

●中心化(C):将数据减去其均值,使其均值为零,是许多机器学习算法预处理数据的第一步。

●均值化:将数据除以其均值,使其均值为一,常用于图像处理中的像素值调整。

●区间化:将数据映射到一个特定的数值区间,例如[0, 100],用于确保数据在特定应用中的有效性。

●初值化:在模型训练初期为参数赋予初始值,对模型的收敛速度和最终性能有重要影响。

●最小值化:将数据替换为其在数据集中的最小值,用于处理缺失值或异常值。

●最大值化:将数据替换为其在数据集中的最大值,用于处理缺失值或异常值。

●正向指标处理:对那些“越大越好”的指标进行处理,如销售额,通常通过最大化这些指标来优化。

●负向指标处理:对那些“越小越好”的指标进行处理,如成本,通常通过最小化这些指标来优化。

●中间型指标处理:对那些需要保持在特定范围内的指标进行处理,如库存水平,旨在优化而非单纯最大化或最小化。

●区间型指标处理:对那些在特定区间内表现最佳的指标进行处理,如温度控制,旨在维持在最优区间内。

SPSSPRO数据标准化

1.2缺失值处理
在这里插入图片描述

缺失值处理方法 全览

在数据处理中,缺失值填充是一个重要的步骤,它可以帮助我们提高数据集的完整性和可用性。以上的这些缺失值填充方法各有特点,适用于不同的场景和需求。下面我将简要介绍每种方法:

统计量填充

1均值:用所有非缺失值的平均值来填充缺失值。

2中位数:用所有非缺失值的中位数来填充缺失值,对异常值的鲁棒性较好。

3众数:用出现次数最多的值来填充缺失值,适用于分类数据。

4三倍标准差:用均值加上三倍标准差来填充缺失值,适用于数据分布接近正态分布的情况。

5负三倍标准差:用均值减去三倍标准差来填充缺失值。

规则填充

1纵向用缺失值上面的值替换缺失值:如果某行数据缺失,用该列上一行的非缺失值填充。

2纵向用缺失值下面的值替换缺失值:如果某行数据缺失,用该列下一行的非缺失值填充。

3若某行全为缺失值,剔除所在行:如果一行数据全部是缺失值,则删除该行。

4固定值M填充:用一个预先设定的固定值来填充所有缺失值。

插值填充

1Nearest最近点数值填充:用最接近的非缺失值来填充缺失值。

2Zero零阶插值填充:用0来填充缺失值,通常用于信号处理。

3Linear线性插值填充:通过线性插值来填充缺失值,适用于连续数据。

4Quadratic二次插值填充:通过二次多项式插值来填充缺失值,适用于更平滑的数据填充。

5Cubic三次插值填充:通过三次多项式插值来填充缺失值,适用于需要更高精度的场景。

模型填充

1最小二乘填充:使用最小二乘法建立模型,预测缺失值。

2贝叶斯填充:基于贝叶斯理论,通过概率模型来估计缺失值。

3决策树填充:使用决策树模型来预测缺失值,适用于分类和回归问题。

4K近邻填充:通过查找K个最近邻的非缺失值来预测缺失值,适用于分类和回归问题。

每种方法都有其适用的场景和限制,选择合适的填充方法需要根据数据的特性和分析的需求来决定。在实际应用中,可能需要尝试多种方法,以找到最适合当前数据集的填充策略。

在这里插入图片描述

SPSSPRO 缺失值处理

1.3异常值处理
异常值(Outliers)是指在数据集中显著偏离其他观测值的数据点。它们可能是由于测量错误、数据录入错误、或者是真实的变异性造成的。处理异常值是数据预处理中的一个重要步骤,因为异常值可能会对数据分析的结果产生不利影响。异常值处理通常分为两种方法:自动识别和自定义识别。

●自动识别: 通常依赖于统计学原理或机器学习算法来检测数据中的异常点。

●自定义识别:通常需要领域知识或先验知识来定义什么是异常。

SPSSPRO异常值处理-自定义识别

以下再介绍三种自动识别的方法:

(1)MAD异常值识别

假定数据服从正态分布,让异常点(outliers)落在两侧的 50% 的面积里,让正常值落在中间的 50% 的区域里。

(2)IQR异常值识别

四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。

(3)3sigma异常值识别

数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

1.4样本均衡

在机器学习中,处理不平衡数据集是一个常见问题,其中某些类别的样本数量远多于其他类别。这种不平衡可能会导致模型偏向于多数类,从而降低对少数类的预测准确性。为了解决这个问题,数据采样技术被广泛使用:

过采样技术

1随机过采样:这是一种简单的方法,通过随机复制少数类样本来增加其数量。这种方法简单易行,但可能会导致过拟合,因为重复的样本会增加模型学习到这些样本特征的风险。

2SMOTE(Synthetic Minority Over-sampling Technique):这是一种更复杂的过采样方法,它通过在少数类样本之间插值生成新的合成样本。这种方法可以有效地增加少数类的样本数量,同时减少过拟合的风险。

3ADASYN:这种方法类似于SMOTE,但它在生成新样本时考虑了类别分布的不均匀性。ADASYN通过分析少数类样本的邻域来生成新的样本,使得新生成的样本更加多样化。

下采样技术

1随机下采样:这是一种直接的方法,通过随机删除多数类中的一些样本来减少其数量。这种方法可能会导致信息的丢失,特别是如果删除的是重要信息。

2Cluster Centroids采样:这种方法首先对多数类样本进行聚类,然后只保留每个聚类的中心点。这样可以减少多数类的样本数量,同时尽量保留重要的信息。

组合采样技术(过采样+去噪)

1SMOTE ENN:这种方法结合了SMOTE和Edited Nearest Neighbors (ENN) 算法。ENN是一种去噪技术,它通过移除那些与多数类样本过于接近的少数类样本来提高模型的性能。

2Tomek Links:这是一种特殊的ENN方法,它通过识别并删除那些与多数类样本形成“Tomek链接”的少数类样本来减少噪声。Tomek链接是指一对最近邻样本,其中一个是多数类,另一个是少数类,且它们在特征空间中非常接近。

1.5特征筛选
特征筛选是机器学习中的一个重要步骤,它可以帮助提高模型的性能和解释性:

1方差选择法:通过选择方差最大的特征来简化模型,但可能忽略特征与目标变量之间的相关性。

2随机森林特征重要度:利用随机森林模型评估特征对预测的贡献,适用于处理非线性关系,但计算成本较高。

3XGBoost:通过梯度提升决策树算法评估特征重要度,适合处理大规模数据,但主要适用于树模型。

4相关系数法:通过计算特征与目标变量的相关系数来选择特征,简单直观,但可能无法捕捉复杂的非线性关系。

5互信息法:评估特征与目标变量之间的互信息量,能够捕捉非线性关系,但计算复杂度较高。

6卡方检验法:适用于类别变量,通过卡方检验评估特征与目标变量的独立性,但需要对连续变量进行离散化处理。

7VIF法(方差膨胀因子):通过评估特征之间的多重共线性来选择特征,有助于减少特征间的相关性,但不直接考虑特征与目标变量的关系。

8递归消除特征法(RFE):通过递归地移除最不重要的特征来选择特征,能够找到最优特征组合,但计算成本较高。

2数理统计
数理统计是一门通过数学方法研究统计现象、分析数据背后规律的学科,在数学建模领域,其大致可以分为基本描述、回归、分类、聚类以及计量统计这5个方向;这些算法通常应用于B、C、D、E题目,特别是C、E题。接下来,我们将深入探讨这些方向在数学建模中的具体应用及其在各类题目中的表现。

2.1基本描述
基本描述在数理统计中扮演着重要的角色,主要用于数据的初步分析和总结。通过对数据的中心趋势、离散程度、分布形态等特征进行描述,研究者能够快速了解数据的基本情况。这些描述性统计量是后续分析的基础,常用于B题目中的数据探索与整理阶段。例如,在对某一经济现象进行初步分析时,描述性统计能够帮助建模者发现潜在的模式或异常值,为进一步的回归或分类分析提供参考。

基本描述概览

数据概览

1频数分析:统计数据中各个类别或分组的频次,用于了解数据的分布情况。

2列联(交叉)分析:分析两个或多个分类变量之间的关系,常用于探索变量间的关联性。

3描述性统计:提供数据的中心趋势(如均值、中位数)、离散程度(如方差、标准差)和形状(如偏度、峰度)的度量。

4分类汇总:按类别对数据进行分组,并计算每组的统计量,如总和、平均值等。

5正态性检验:检验数据是否符合正态分布,这是许多统计测试的前提条件。

示例:对各个变量进行数据概述,为后续的分析、建模和决策提供基础:

(1)了解数据质量和完整性,可以初步检查数据中是否存在缺失值、异常值或不一致的情况。

(2)选择合适的分析方法,可以揭示数据的分布、范围和变化情况,从而帮助选择适合的分析方法。

差异性

参数检验

1单样本T检验:检验样本均值是否与已知的总体均值有显著差异。

2配对样本T检验:用于检验两个相关样本(如同一组对象在不同条件下的测量)的均值差异。

3独立样本T检验:用于比较两个独立样本组的均值差异。

4单因素方差分析:检验三个或更多独立样本组的均值是否存在显著差异。

5事后多重比较:在发现显著差异后,用于进一步比较各组间的具体差异。

6双因素方差分析:考虑两个独立变量对数据的影响及其交互作用。

7多因素方差分析:涉及三个或更多因素的方差分析。

8协方差分析:在控制一个或多个协变量的影响后,分析其他变量对结果的影响。

9摘要单因素方差分析:对单因素方差分析结果的总结。

10摘要T检验:对T检验结果的总结

非参数检验

1卡方检验:用于检验类别变量之间的独立性。

2单样本Wilcoxon符号秩检验:非参数方法,检验样本中位数是否等于已知值。

3配对样本Wilcoxon符号秩检验:非参数方法,用于检验两个配对样本的差异。

4独立样本Mann-Whitney检验:非参数方法,用于比较两个独立样本的分布。

5多配对样本Friedman检验:非参数方法,用于多个相关样本的比较。

6多独立样本Kruskal-Wallis检验:非参数方法,用于多个独立样本的比较。

7卡方拟合优度检验:检验观察频数与期望频数的一致性。

相关性

1Pearson相关性分析:度量两个连续变量之间的线性相关程度。

2Spearman相关性分析:基于等级的相关性分析,适用于非线性关系或非正态分布的数据。

3Kendall’s tau-b相关性分析:另一种基于等级的相关性度量,用于小样本数据。

4Cochran’s Q 检验:用于三个或更多分类变量的相关性分析。

5Kappa一致性检验:评估两个评价者对分类数据的一致性。

6Kendall一致性检验:评估多个评价者之间的一致性。

7组内相关系数:用于评估同一对象在不同条件下的相关性。

回归

回归分析是数学建模中最常用的工具之一,尤其在C题和E题中表现突出。在C题中,回归分析通常被用来预测某些变量的未来值,如通过回归模型预测未来的经济增长率或某产品的销量。在E题中,回归分析也常被用来揭示因果关系,如研究政策变化对某些社会现象的影响。通过回归模型,研究者可以建立自变量与因变量之间的数学关系,并利用该模型进行预测或解释。

面向预测(机器学习回归)

1决策树回归:通过构建树状模型来进行回归预测,易于理解和解释,但容易过拟合。

2随机森林回归:集成多个决策树以提高预测准确性和稳定性,适用于处理高维数据。

3AdaBoost回归:通过迭代地添加弱学习器(如决策树)来构建强学习器,增强模型的预测能力。

4梯度提升树(GBDT)回归:使用梯度提升方法来优化决策树,适用于复杂数据集,但计算成本高。

5ExtraTrees回归:类似于随机森林,但每个节点分裂时考虑所有特征,通常用于特征选择。

6CatBoost回归:特别优化处理分类变量的算法,适用于包含大量分类特征的数据集。

7K近邻(KNN)回归:基于最近邻点的均值进行预测,简单但计算量大,对异常值敏感。

8BP神经网络回归:使用反向传播算法训练的多层前馈神经网络,适用于非线性问题的预测。

9支持向量机(SVR)回归:通过最大化间隔来寻找最优超平面,适用于高维空间的回归问题。

10XGBoost回归:梯度提升树的优化实现,速度快,准确度高,广泛应用于各种回归任务。

11LightGBM回归:基于梯度提升框架的高效实现,特别适用于大规模数据集。

12线性回归(梯度下降法):通过最小化误差的平方和来找到最佳拟合直线,适用于线性关系的数据。

面向因子影响关系解释(线性回归)

1线性回归(最小二乘法):通过最小化误差的平方和来估计线性关系,是最基本的回归分析方法。

2岭回归(Ridge):通过添加L2正则化项来防止过拟合,适用于特征数量多于样本数量的情况。

3Lasso回归:通过添加L1正则化项来进行变量选择,可以自动进行特征选择。

4偏最小二乘回归 (PLSR):结合了主成分分析和多元线性回归,适用于变量高度相关的情况。

5Deming’s 回归:适用于两个变量都有测量误差的情况,通过调整斜率和截距来最小化误差。

6稳健回归模型:对异常值不敏感,能够提供更稳定的预测。

7逐步回归:通过逐步添加或删除变量来选择最佳模型。

8分层回归:在不同子集上分别进行回归分析,适用于数据具有分层结构的情况。

面向因子影响关系解释(广义线性模型,即逻辑回归)

1逻辑回归:用于二分类问题的概率预测,输出值在0和1之间。

2二分类概率单位回归 (Probit):与逻辑回归类似,但使用正态分布的累积分布函数作为链接函数。

3有序逻辑回归:适用于有序分类变量的预测。

4条件逻辑回归:在给定某些条件的情况下进行逻辑回归分析。

5概率单位回归(剂量分析):用于处理剂量-反应关系的数据。

其他回归

1VAR向量自回归模型(时间序列):用于分析多个时间序列之间的动态关系。

2稳健回归模型(剔除异常值):通过使用不同的损失函数来减少异常值的影响。

3COX回归(生存分析):用于分析生存时间数据,预测事件发生的时间。

4倾向得分匹配分组回归 (样本匹配):用于处理观察数据中的选择偏差,通过匹配相似的控制组和处理组来提高因果推断的准确性。

  • 17
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值