2024泰迪杯c题详细思路代码讲解:竞赛论文的辅助自动评阅

本文介绍了使用自然语言处理和机器学习技术自动评阅C类竞赛论文的方法,涉及特征构造(如论文完整性、实质性工作、摘要质量等)、评分算法实现(包括熵权法调整权重)以及结果呈现和验证。通过NLP技术抽取出关键信息,评估论文的结构、内容一致性和研究质量。
摘要由CSDN通过智能技术生成

C:竞赛论文的辅助自动评阅

步骤一:理解拆解题目,并对附件1中的论文集进行初步分析。

步骤二:特征构造
论文完整性:开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整性。
利用自然语言处理(NLP)技术:信息抽取、关键词识别等,自动提取和识别论文中与赛题相关的内容和章节。
应用关键词匹配和主题建模技术识别是否存在与赛题内容相关的段落和章节:包括但不限于:“摘要”, “目录”, “问题重述”, “假设条件”, “符号说明”, “模型建立”, “模型求解”, “模型检验”, “结果分析”, “结论”, “参考文献”, "附录"等。

实质性工作:利用文本分类和信息抽取技术,识别和评估论文中对赛题问题的研究深度和质量。
将文本分成段落或句子,经过分词处理后从中提取赛题相关的关键词。
创建并训练LDA主题模型,总结题目关键词语。
将关键词转化为词向量,基于相关性分析评估提取的信息与赛题要求的匹配度

摘要质量:通过比较摘要和全文内容,评估其一致性和准确性。可以使用摘要生成和评估技术来实现。
主要从摘要与全文等一致性和准确性角度进行评估。
一致性评价:评估摘要中的信息是否与正文内容一致,是否存在误导性或缺失重要信息的情况。
完整性评价:检查摘要是否包含了所有必要的信息元素,评估其对正文内容的完整反映。
识别摘要中应包含的关键信息元素,如研究问题、研究方法、主要结果和研究意义等。
可考虑从以下角度进行分析:
相似度分数:计算摘要和正文的文本相似度分数,较高的分数表明更好的一致性。
信息覆盖率:评估摘要对正文关键信息的覆盖率,完全覆盖得分更高。
清晰度和准确性:评价摘要的表达是否清晰、准确,无歧义。
简洁性:摘要应简洁扼要,避免冗余和非必要信息。

写作水平:结合传统的文本评分技术和深度学习方法,从文本流畅性、逻辑性、结构等方面评价写作水平。
载入中文NLP模型
nlp = spacy.load(‘zh_core_web_sm’)
分别构建写作规范性评价函数,篇章结构评价函数,评价论文立意的函数,计算得到加权后等结果。

步骤三:评分算法实现
评分模型:根据构造的特征和训练好的模型,为每篇论文设计综合评分算法。

使用熵权法(Entropy Weight Method)来设定权重,我们首先需要计算每个评价指标的熵值,再据此确定各指标的权重。熵权法是一种客观赋权方法,能有效地根据数据的离散程度确定各评价指标的重要性,从而计算出每个指标的权重。下面的步骤将通过熵权法重新计算权重,并按照新的权重计算综合评分,最后调整分数分布以满足题目要求。
步骤:
计算指标的熵值:利用各指标的数据计算每个评价指标的信息熵。
计算指标的差异系数和权重:根据熵值,计算每个指标的差异系数,再根据差异系数计算权重。
计算综合评分:根据熵权法得到的权重,计算每篇论文的综合评分。
后续步骤为调整分数分布:按照题目要求调整分数分布。

符合分布要求:确保最终的评分分布符合赛题要求,包括各分数段的比例限制。需要调整评分策略或后处理以满足这些要求。
我们需要根据熵权法计算出的综合评分进行分数分布的调整。这涉及到根据分布条件,设定分数范围的阈值,并确保每个分数段的比例符合要求。让我们继续以前的计算,现在专注于调整分数分布。
我已根据熵权法分配的权重和给定的分数分布要求调整了分数,并保存了调整后的评分结果。
这次调整确保了分数分布满足以下条件:
8-10分的比例不超过3%;
6-7分的比例至少为10%,且6-10分的总比例不超过15%;
4-5分的比例至少为20%,且4-10分的总比例不超过35%;
其余的评分在0-3分之间。
关键代码:
df[‘综合评分’] = df.iloc[:, 1:].mul(weights).sum(axis=1)

调整分数分布

sorted_scores = df[‘综合评分’].sort_values(ascending=False).reset_index(drop=True)
threshold_8_10 = sorted_scores[int(n_papers * 0.03)] # 3%
threshold_6_7 = sorted_scores[int(n_papers * 0.15)] # 15%的上限
threshold_4_5 = sorted_scores[int(n_papers * 0.35)] # 35%的上限
df[‘最终评分’] = np.select(
[ df[‘综合评分’] >= threshold_8_10,
df[‘综合评分’] < threshold_8_10,
df[‘综合评分’] <= threshold_6_7,
df[‘综合评分’] <= threshold_4_5 ],
[ np.random.uniform(8, 10, n_papers), # 8-10分
np.random.uniform(6, 7, n_papers), # 6-7分
np.random.uniform(4, 5, n_papers), # 4-5分
np.random.uniform(0, 3, n_papers) # 0-3分 ], default=0 )

保存到result.xlsx中

步骤四:结果呈现和验证
结果保存:将每篇论文的评分结果按照要求保存到result.xlsx文件中。
性能验证:通过与人工评阅结果的比较,验证模型的有效性和准确性。
调优和改进:根据验证结果,进一步调整和优化模型和评分策略。

###https://docs.qq.com/doc/DVVlhb2xmbUFEQUJL
  • 17
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
2021年高教社杯全国大学生数学建模竞赛C评阅要点主要包括以下几个方面: 1.问理解和分析:评委会首先会考察参赛团队对于问的理解和分析能力。团队应该能够准确理解目要求,并能够分析问的关键点,确定问的核心目标。 2.建模方法和模型:团队需要选择合适的数学建模方法,设计合理的数学模型来解决问。评委会将评估团队的建模思路和思想的创新性,模型的合理性和可实施性。 3.算法设计和模型求解:团队需要运用适当的算法和工具,对建立的数学模型进行求解。评委会将关注团队在算法设计和模型求解方面的能力,包括算法的优化和效率,求解结果的准确性和稳定性。 4.结果分析和讨论:团队需要对模型求解结果进行分析和讨论,深入挖掘问的内在规律并给出合理的解释。评委会将关注团队对结果的解释和分析能力,以及对问的深入理解和思考能力。 5.模型的优缺点和改进方向:团队需要对建立的数学模型进行评价,明确其优点和不足之处,并提出改进模型的方向和思路。评委会将考察团队的批判性思维和模型的可靠性,以及对模型的改进潜力的把握能力。 总体而言,评委会将综合评估团队的问理解和分析能力、建模方法和模型选择、算法设计和模型求解、结果分析和讨论,以及模型的优缺点和改进方向等方面的表现,从而评价团队在2021年高教社杯全国大学生数学建模竞赛C中的综合水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

千千小屋grow

感谢支持,干杯

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值