2024泰迪杯c题详细思路代码讲解：竞赛论文的辅助自动评阅

最新推荐文章于 2024-06-20 16:16:59 发布

千千小屋grow

最新推荐文章于 2024-06-20 16:16:59 发布

阅读量2.1k

点赞数 17

文章标签： c语言开发语言

本文链接：https://blog.csdn.net/yeqianqian_/article/details/137479045

版权

本文介绍了使用自然语言处理和机器学习技术自动评阅C类竞赛论文的方法，涉及特征构造（如论文完整性、实质性工作、摘要质量等）、评分算法实现（包括熵权法调整权重）以及结果呈现和验证。通过NLP技术抽取出关键信息，评估论文的结构、内容一致性和研究质量。

摘要由CSDN通过智能技术生成

C：竞赛论文的辅助自动评阅

步骤一：理解拆解题目，并对附件1中的论文集进行初步分析。

步骤二：特征构造
论文完整性：开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整性。
利用自然语言处理（NLP）技术：信息抽取、关键词识别等，自动提取和识别论文中与赛题相关的内容和章节。
应用关键词匹配和主题建模技术识别是否存在与赛题内容相关的段落和章节：包括但不限于：“摘要”, “目录”, “问题重述”, “假设条件”, “符号说明”, “模型建立”, “模型求解”, “模型检验”, “结果分析”, “结论”, “参考文献”, "附录"等。

实质性工作：利用文本分类和信息抽取技术，识别和评估论文中对赛题问题的研究深度和质量。
将文本分成段落或句子，经过分词处理后从中提取赛题相关的关键词。
创建并训练LDA主题模型，总结题目关键词语。
将关键词转化为词向量，基于相关性分析评估提取的信息与赛题要求的匹配度

摘要质量：通过比较摘要和全文内容，评估其一致性和准确性。可以使用摘要生成和评估技术来实现。
主要从摘要与全文等一致性和准确性角度进行评估。
一致性评价：评估摘要中的信息是否与正文内容一致，是否存在误导性或缺失重要信息的情况。
完整性评价：检查摘要是否包含了所有必要的信息元素，评估其对正文内容的完整反映。
识别摘要中应包含的关键信息元素，如研究问题、研究方法、主要结果和研究意义等。
可考虑从以下角度进行分析：
相似度分数：计算摘要和正文的文本相似度分数，较高的分数表明更好的一致性。
信息覆盖率：评估摘要对正文关键信息的覆盖率，完全覆盖得分更高。
清晰度和准确性：评价摘要的表达是否清晰、准确，无歧义。
简洁性：摘要应简洁扼要，避免冗余和非必要信息。

写作水平：结合传统的文本评分技术和深度学习方法，从文本流畅性、逻辑性、结构等方面评价写作水平。
载入中文NLP模型
nlp = spacy.load(‘zh_core_web_sm’)
分别构建写作规范性评价函数，篇章结构评价函数，评价论文立意的函数，计算得到加权后等结果。

步骤三：评分算法实现
评分模型：根据构造的特征和训练好的模型，为每篇论文设计综合评分算法。

使用熵权法（Entropy Weight Method）来设定权重，我们首先需要计算每个评价指标的熵值，再据此确定各指标的权重。熵权法是一种客观赋权方法，能有效地根据数据的离散程度确定各评价指标的重要性，从而计算出每个指标的权重。下面的步骤将通过熵权法重新计算权重，并按照新的权重计算综合评分，最后调整分数分布以满足题目要求。
步骤：
计算指标的熵值：利用各指标的数据计算每个评价指标的信息熵。
计算指标的差异系数和权重：根据熵值，计算每个指标的差异系数，再根据差异系数计算权重。
计算综合评分：根据熵权法得到的权重，计算每篇论文的综合评分。
后续步骤为调整分数分布：按照题目要求调整分数分布。

符合分布要求：确保最终的评分分布符合赛题要求，包括各分数段的比例限制。需要调整评分策略或后处理以满足这些要求。
我们需要根据熵权法计算出的综合评分进行分数分布的调整。这涉及到根据分布条件，设定分数范围的阈值，并确保每个分数段的比例符合要求。让我们继续以前的计算，现在专注于调整分数分布。
我已根据熵权法分配的权重和给定的分数分布要求调整了分数，并保存了调整后的评分结果。
这次调整确保了分数分布满足以下条件：
8-10分的比例不超过3%；
6-7分的比例至少为10%，且6-10分的总比例不超过15%；
4-5分的比例至少为20%，且4-10分的总比例不超过35%；
其余的评分在0-3分之间。
关键代码：
df[‘综合评分’] = df.iloc[:, 1:].mul(weights).sum(axis=1)

调整分数分布

sorted_scores = df[‘综合评分’].sort_values(ascending=False).reset_index(drop=True)
threshold_8_10 = sorted_scores[int(n_papers * 0.03)] # 3%
threshold_6_7 = sorted_scores[int(n_papers * 0.15)] # 15%的上限
threshold_4_5 = sorted_scores[int(n_papers * 0.35)] # 35%的上限
df[‘最终评分’] = np.select(
[ df[‘综合评分’] >= threshold_8_10,
df[‘综合评分’] < threshold_8_10,
df[‘综合评分’] <= threshold_6_7,
df[‘综合评分’] <= threshold_4_5 ],
[ np.random.uniform(8, 10, n_papers), # 8-10分
np.random.uniform(6, 7, n_papers), # 6-7分
np.random.uniform(4, 5, n_papers), # 4-5分
np.random.uniform(0, 3, n_papers) # 0-3分 ], default=0 )

保存到result.xlsx中

步骤四：结果呈现和验证
结果保存：将每篇论文的评分结果按照要求保存到result.xlsx文件中。
性能验证：通过与人工评阅结果的比较，验证模型的有效性和准确性。
调优和改进：根据验证结果，进一步调整和优化模型和评分策略。

###https://docs.qq.com/doc/DVVlhb2xmbUFEQUJL

千千小屋grow

关注

17
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024泰迪杯c题详细思路代码讲解：竞赛论文的辅助自动评阅

C：竞赛论文的辅助自动评阅步骤一：理解拆解题目，并对附件1中的论文集进行初步分析。步骤二：特征构造论文完整性：开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整性。利用自然语言处理（NLP）技术：信息抽取、关键词识别等，自动提取和识别论文中与赛题相关的内容和章节。
复制链接

扫一扫