2024年长三角数学建模竞赛B题《人工智能范式的物理化学家》全文分析+代码

一、问题重述

1.1问题背景

在本次数学建模竞赛中,我们面对的挑战是开发模型以协助一个先进的机器化学家平台。这个平台使用大数据和机器学习技术来自动化化学合成、表征和测试的全过程。传统的化学研究方法如“穷举”、“试错”已无法有效地处理复杂和高维的化学问题。机器化学家通过智能化工作站和机器人系统,从大量的化学数据中提取信息,生成科学假说,并自动执行实验,显著提高了化学研究的效率和创新能力。

本竞赛要求参赛团队利用提供的化学分子数据集,建立模型预测分子的不同物理化学性质。具体任务包括:1)探索分子ID和某物理化学性质的关系并尝试预测;2)选择关键特征建立预测模型;3)分析和建模分子的分类;4)提出和实施提高模型预测精度的新方法。这些挑战将检验团队在数据处理、模型构建和算法优化等方面的能力。

1.2问题提出

根据以上背景,以及题目所给出的四个附件,需要解决以下问题:

1、针对提供的数据集进行必要的预处理步骤,明确处理数据的必要性和所采用的方法。同时,探索分子ID与其对应的物理化学性质 y2 之间是否存在一定的函数关系,并尝试直接通过分子ID预测 y2。

2、对附件中的 data.csv 文件中的物理化学性质进行数据分析,选择不超过10个关键特征指标,用于构建 y1 的预测模型。

3、分析 y3 与其它物理化学性质之间的函数关系,建立数学模型进行 y3 的预测。研究在这些特征中,哪些对 y3 预测结果有较大影响,并进行灵敏度分析。

4、分析物理化学性质与分子类别(class)之间的关系,基于这些性质建立分子类别的预测模型。进一步分析哪些特征指标对分类结果有较大的影响。

5、在不局限于特征选择的情况下,探索更好的方法以提高模型的预测精度,并详细描述这些方法。重新对数据进行预测,论证新预测方法的优越性。

二、问题分析

2.1问题一的分析

在问题一中,我们需要对分子ID与其物理化学性质 y2 之间的关系进行分析。首先,需要进行数据预处理,包括清洗数据(去除或填补缺失值、处理异常值等),以确保数据的质量。然后,探索分子ID和 y2 之间是否存在可识别的模式或趋势,这可能涉及到统计分析和可视化方法,例如散点图,来观察是否存在明显的关联或趋势。如果存在某种函数关系,我们可以尝试构建一个回归模型来预测 y2。这可能需要使用线性或非线性模型,具体取决于数据的分布和关系的复杂性。此问题的关键在于准确识别和利用分子ID中可能隐藏的信息来预测 y2。

2.2问题二的分析

问题二要求我们从数据中选择不超过10个特征来预测 y1。这要求我们执行一个彻底的特征选择过程,可能包括相关性分析、主成分分析(PCA)或其他特征重要性评估方法。通过这些方法,我们可以识别出对 y1 预测最具影响力的特征。确定了这些特征后,我们将利用适当的机器学习算法(如随机森林、支持向量机或神经网络)来构建预测模型。此外,还需对模型进行交叉验证以确保其泛化能力和准确性。问题的挑战在于如何在保留最重要信息的同时,从大量特征中筛选出最具代表性的少数特征。

2.3问题三的分析

问题三涉及到分析 y3 与其它物理化学性质之间的复杂关系,并基于这些关系建立预测模型。这需要对数据进行深入的探索性分析,包括计算各特征与 y3 的相关性以及可能的互动效应。选择与 y3 高度相关的特征后,我们可以使用多变量回归、决策树或深度学习方法来构建预测模型。此外,对所选特征进行灵敏度分析将帮助我们了解各特征变化对预测输出的影响,从而优化模型的稳健性和解释能力。

2.4问题四的分析

在问题四中,我们需要探索物理化学性质与分子类别之间的关系,并基于此建立分类模型。这需要我们首先使用统计测试和可视化方法来分析哪些特征与分子类别最为相关。随后,可以采用逻辑回归、支持向量机或神经网络等分类算法来构建模型。关键挑战是如何处理高维数据和潜在的多类问题,以及如何选择合适的特征和模型来最大化分类准确性。此外,我们还需要分析特征对分类结果的影响,这将涉及到特征重要性的评估和可能的特征工程。

三、模型假设

1、假设数据中不存在系统错误或偏差,任何测量误差都是随机且独立的

2、假设数据集中的样本是随机选取的,代表了整个化学分子的空间。

五、问题一的模型建立与求解

5.1 数据预处理

5.1.1 异常值发现与处理

在数据预处理中,异常值的识别和处理是至关重要的一步,它直接影响后续分析和模型的准确性与可靠性。本研究中使用的箱线图(Box Plot)是一种非常有效的图形化工具,用于识别数据中的异常值。箱线图通过四分位数来展示数据的分布,其中包括下四分位数(Q1)、上四分位数(Q3)、中位数,以及上下边缘(通常为Q1-1.5IQR和Q3+1.5IQR,其中IQR为四分位距)。

在本研究的数据预处理过程中,首先绘制了目标变量y2的箱线图。从图中可以观察到,数据主要集中在箱体内,而箱体外的点则被视为潜在的异常值。这些点存在于箱体的上下边缘之外,表明它们与大部分数据相比有显著差异。在统计分析中,这些异常值可能会导致数据分析结果的偏差,例如影响均值和标准差的计算,从而影响模型预测的准确性和泛化能力。识别后,我们采取了剔除这些异常值的措施,这通常包括删除这些数据点或将它们替换为中位数。

在数据预处理过程中,处理缺失值是确保数据质量和模型准确性的关键步骤。缺失值的存在可能会导致数据分析或机器学习模型训练时出现偏差,影响模型的性能和结果的可靠性。在本研究中,选择用中位数来填补缺失值,这是一种常见且有效的方法,尤其适用于数据中存在异常值或分布不均的情况。

5.1.2 相关性分析

相关性分析是统计学中用来评估两个或多个变量之间是否存在某种程度的线性关系的方法。在数据分析和机器学习领域,相关性分析通常用于理解数据特征之间的关系,帮助研究者或数据科学家决定哪些变量重要、哪些可能冗余,以及如何选择模型的输入变量。

相关性的度量常通过相关系数来表达,其中最常见的是皮尔逊相关系数(Pearson Correlation Coefficient)。该系数的值范围从 -1 到 1,其中:1 表示完全正相关,-1 表示完全负相关,0 表示没有线性相关。

在本文的研究中,对 id 和 y2 这两个变量进行了相关性分析。如图所示的热力图显示,id 与 y2 的相关系数高达 0.97,这表明两者之间存在非常强的正相关关系。这种高度的相关性暗示 id 可能并非仅是一个顺序标识符,而是可能隐含了与 y2 相关的其他信息或者 y2 的某些属性与 id 的排序密切相关。

在数据分析中,探索这种高相关性是非常重要的,因为它可能指向数据生成过程中的某些关键因素,或者揭示出数据集中的潜在模式。例如,如果 id 代表了时间顺序,那么 y2 的变化可能与时间有关,这样的发现对于进一步的时间序列分析或因果关系研究可能非常关键。

在进行模型建立时,这种高度的相关性提供了强有力的预测信息,但同时也引出了是否应该在模型中包含 id 这样高相关性的特征的问题。如果 id 是随机分配的,那么在模型中包含这样的特征可能会导致过拟合,即模型很好地学习了训练数据中的特定规律,但这种规律可能不适用于未见过的新数据。

5.1.3 趋势分析

从散点图中可以看出,id 与 y2 之间呈现非线性的关系,这种关系随着 id 的增加而呈现出显著的趋势性变化。具体来说,随着 id 的增大,y2 值先是下降然后上升,表现为一个凹形的趋势。这表明,随着 id 的增加,y2 的变化存在一个转折点,可能在某一特定的 id 值附近,y2 的行为发生了显著变化。

进行趋势分析的必要性主要体现在以下几个方面:

揭示数据模式:通过分析 id 与 y2 的趋势关系,可以帮助我们更好地理解数据背后的潜在模式,例如,是否 y2 受到 id 排序的某种影响或外部时间因素的影响。

指导数据处理和特征工程:趋势分析可以指导如何进行数据预处理和特征工程。例如,在建模前,可能需要对 id 进行转换或者创建新的特征来捕捉这种非线性关系,以提高模型的预测能力。

5.2 Y2与ID之间的预测模型

线性回归是统计学中最基础且广泛应用的预测模型之一,其主要目的是确定一个或多个自变量(解释变量)与因变量(响应变量)之间的线性关系。在最简单的形式中,线性回归模型预测的是一个通过所有数据点的直线,尽可能减少预测值和实际值之间的误差。

对于单一的解释变量,线性回归模型可以表达为:

其中,y 是因变量,x 是自变量,β0是截距,β1是斜率,而ϵ代表误差项,反映了模型未能解释的部分。

线性回归模型通常通过最小二乘法来估计,即寻找系数β0和β1,使得所有观测值的残差平方和最小。这种方法的优点是计算简单直接,且在数据符合独立同分布、线性、方差齐性、误差项正态分布的假设下,最小二乘估计提供了最佳的无偏估计。

本文中,建立了一个线性回归模型来探究 id 和 y2 之间的关系。根据提供的散点图,id 与 y2 表现出较强的正相关关系,这意味着随着 id 的增加,y2 也呈现上升趋势。

通过散点图(Scatter Plot of Predicted ID vs Predicted y2),显示了在高 id 值处预测的线性关系。此图显示模型能够较好地捕获 id 和 y2 之间的线性趋势,预测值与 id 呈明显正相关,这与原始数据集中观察到的趋势一致。

论文缩略图

由于篇幅限制,在此只做部分展示,详情请后台私信

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

毅力多爱数模

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值