AI生成学生论文检测的挑战与对策

 人工智能咨询培训老师叶梓 转载标明出处

学生能依靠大模型完成论文写作,还有抄袭、假新闻传播等问题也无法解决。尽管已有一些检测器被提出来识别AI生成内容(AIGC),但它们在对抗性干扰,尤其是在学生论文写作方面,其有效性尚待探索。中国科学院大学和中科院的研究团队旨在填补这一空白,通过构建AIG-ASAP——一个AI生成学生论文的数据集,并运用一系列的文本干扰方法,这些方法预期在生成高质量论文的同时能够规避检测。通过实证实验,评估当前AIGC检测器在AIG-ASAP数据集上的性能。结果揭示了现有检测器可以被简单的自动对抗性攻击轻易绕过。论文探索了词汇替换和句子替换干扰方法,这些方法在有效规避检测的同时保持了生成论文的质量。

方法

AIG-ASAP是一个基于现有ASAP数据集的机器生成论文的数据集。ASAP是一个广泛认可的基准数据集,用于评估自动化论文评分系统。它包括美国高中生撰写的论文,涵盖八个不同的论文主题/提示。数据集中的每篇论文都附有人类评定的整体得分。研究者利用ASAP数据集,并将论文提示提供给大型语言模型(LLM),以生成机器撰写的论文。这些提示作为指令或指导方针,用于以受控方式生成LLM的论文,如下所述。

基于指令的写作:在最近的研究已经证明像ChatGPT这样的LLM在语言和逻辑能力方面表现出色。为了探索LLM在内容生成方面的潜力,研究者将ASAP数据集中的原始论文提示作为语言模型的输入,将LLM的全部输出视为生成的论文。换句话说,研究者采用了直接机器写作方法,仅提供原始论文主题要求作为指令I,不包括任何上下文信息C。

润色写作:在这种数据构建场景中,研究者将学生撰写的论文作为LLM润色的参考。通过将模型暴露于人类撰写的论文中,研究者努力控制输出的LLM的长度、格式和措辞等因素。这使得研究者能够生成更符合学生写作风格的文章。研究者使用以下句子作为指令,并将原始完整论文(称为ex)作为上下文C。

润色并优化以下论文:ex。

连续写作:受到LLM预训练范式的启发,研究者还采用了从左到右的生成方法来完成论文生成任务。研究者为LLM提供了ASAP论文的初始第一句(表示为einit)以及作文要求作为提示,允许模型基于给定输入生成连贯且上下文适当的论文。研究者考虑了以下提示设计:

跟随论文的前几句话写一个后续段落:einit。

图1中展示了人类撰写和ChatGPT生成论文的SimHash概率分布,并拟合了人类撰写数据点的正态分布曲线。

为了评估生成论文的多样性水平,研究者进行了分析,以测量论文对之间的文本重叠。研究者随机选择了每个主题的100篇论文,并计算了每篇论文与该主题所有剩余论文之间的SimHash相似度(Charikar,2002)。图1中展示的直方图提供了8个主题中论文对的SimHash相似度分布情况,比较了机器生成和人类撰写的论文。直方图显示,两种类型论文的相似度值大致遵循正态分布,范围在0.38到0.94之间。分布模式的适度转变表明两种类型论文之间的文本重叠存在一些差异。此外,研究者计算了AI生成数据集中论文对的平均SimHash相似度为0.677,人类撰写的数据集中为0.617。这些值表明AI生成的论文具有合理的多样性水平。而且,观察到经过润色的学生论文生成的机器文本与人类论文集合相比展现出更高的相似度。这表明LLM在生成输出时倾向于比人类更频繁地使用相似的结构或表达方式。

LLM在生成论文时过度使用主题词的倾向。LLM在生成论文时,往往会反复使用论文主题中提示的词。例如,在检查ChatGPT使用指令写作为ASAP主题1生成的1000篇论文时,发现每篇生成论文中主题词“technology”的平均出现频率为1.927,明显高于原始人类撰写论文中0.496的平均出现频率。这表明LLM在生成的输出中倾向于过度使用主题词。这种过度使用主题词为使用相似词或同义词替换这些频繁使用的词而不显著降低生成论文的质量提供了规避检测的可能性。在后续部分中,研究者将介绍单词和句子替换方法,探索这种可能性及其对检测的影响。

无论AI生成文本是否来自同一模型,简单的释义都能显著地规避检测器。为了评估当前AI生成文本检测器的稳定性,研究者在构建的AIG-ASAP数据集上设计并应用了一系列文本干扰方法。研究包括以下三种方法:文章释义、词汇替换和句子替换。在这些方法中,释义已经被应用于开放式生成和长问题回答。实证结果表明,释义干扰可以被BM25检索然后比较检测器轻易识别。然而,由于需要大量的机器生成和人类撰写的文章进行每个主题的比较,释义在学生论文写作中的适用性受到限制。除了释义,研究者设计了具有两种不同粒度的AI生成文本干扰方法:词汇和句子。本质上,干扰方法主要集中于改变原始生成模型输出的分布,同时保持文章质量,旨在降低最终的检测性能以规避当前的检测器。

根据Sadasivan等人(2023)的研究,利用LLMs重写人类撰写的文本或现有的AI生成文本,有潜力打破LLM输出的分布和文章的句法结构。因此,这可以降低被检测到的概率。在本研究中,研究者将重点转移到重写真实的人类撰写文章上,以更准确地复制学生通常经历的写作过程。为了避免检测,用户通常在语言模型的协助下手动完成低质量的草稿,然后利用模型来增强文章。通过将这些方面纳入AIG-ASAP干扰,输出文本可能表现出更大的连贯性,模仿人类作者的自然写作风格,使其不易与真实的人类创作内容区分开来。为了指导LLMs对人类撰写文章的重写过程,给定ASAP数据集中原本由人类撰写的文章ex,研究者设计了如下的提示模板:

请重写文章并模仿其用词习惯:ex。尽量与原文不同。

润色写作和文章释义之间存在直观的相似性,因为它们都涉及改变原始输出的分布以影响检测结果。然而,评估结果揭示了两种方法之间的显著区别,这将在实验部分详细说明。

在句子层面,研究者使用了一个不同且较小的生成模型FLAN-T5进行文本替换,以在LLM生成的文章中引入多样性。对于每篇LLM生成的文章,研究者随机选择一组句子,并用掩码标记替换。之后,研究者使用生成模型为掩码段落生成替换内容。通过纳入随机句子替换,模拟用户手动修改AI生成文本的某些部分,并在生成模型的协助下进行。这使研究者能够评估生成模型在降低检测准确性和模仿人类用户写作过程中的有效性。形式上,给定AI生成的文章eg,一个随机掩码器R和一个较小的生成模型Mgen,研究者获得干扰后的文章如下:

如前所述,研究者观察到LLM在生成文章时,与人类作者相比,更倾向于依赖指令中提供的信息。由ChatGPT生成的内容在提示中提到词汇的使用频率显著高于人类撰写的文章。这种LLM和人类写作行为之间的差异可能通过以下算法得到解释。基于这些见解,并借鉴自然语言处理中的鲁棒性研究,研究者设计了一种干扰策略,替换提示中的频繁词汇。词汇替换过程概述在算法1中。算法首先确定每个主题提示中的高频词汇。然后,这些词汇被[MASK]标记替换,使用BERT基础模型预测每个掩码词的最适宜替换。为了确保生成文章的多样性和质量,同时保持语义一致性和与给定主题的相关性,研究者利用WordNet 3为每个掩码词找到相似的词汇作为候选。如果WordNet没有提供候选,就根据BERT预测得分选择排名前1的词汇。

研究者介绍了三种干扰文章的方法,每种方法都贡献了从粗粒度到细粒度技术的干扰方法。研究者采用的第一种方法在粗粒度层面操作,通过释义进行全文替换。通过重写整个内容,可以在保持原文整体结构和连贯性的同时,对原文进行大量更改。此外,研究者采取更细粒度的方法,专注于个别句子的操纵。通过选择和修改特定句子,可以对文章的内容和含义进行微妙的更改。最后,基于对人类和LLMs之间不同写作风格的观察,研究者引入了在更细粒度层面操作的方法,针对词汇替换。通过分析高频词汇并利用干扰模型,有选择地用合适的替代品替换文章中的特定词汇。这种方法在保持文章原始结构和上下文的同时,实现了更微妙的干扰。

实验

数据集:基于ASAP数据集,研究者创建了多组AI生成的论文数据集,包括基于指令的写作、润色和连续写作。另外研究者对基于指令的写作数据集引入了BERT-base进行词汇替换干扰和FLAN-T5-base进行句子替换干扰,生成了三组具有挑战性的AIG论文:释义、词汇替换和句子替换。词汇替换中,选择了出现频率最高的10个词汇进行替换;句子替换中,随机选择了每篇论文中20%的句子进行遮蔽并使用FLAN-T5-base完成。在后续部分中,为了简洁,将省略数据集名称前的AIG-ASAP前缀。

生成器:为了更好地模拟教育应用中学生用户使用场景,研究者采用了几种常用的开源或商业LLMs进行论文生成和干扰,包括ChatGPT、GPT-4和Vicuna-7b。

检测器:研究者评估了多个开源检测器在数据集上的性能,如ArguGPT和CheckGPT。特别是,最近在HC3数据集上训练的RoBERTa-QA和RoBERTa-Single模型作为最先进的检测器,因为它们在先前的研究中展示了强大的检测性能。通过使用构建数据的训练集对RoBERTa-QA/Single检测器进行微调,可以进一步了解性能变化。

论文评分:研究者在评估中纳入了生成论文的文本质量。参考了关于自动评分的最新工作,研究者训练了一个简单但高效的评分器。在保留的验证数据上,微调后的评分器达到了0.770的二次加权kappa(QWK),接近于Doewes和Pechenizkiy(2021)报告的平均人际QWK一致性0.760。

人工评估:研究者还进行了人工评估测试,向两位计算机科学硕士候选人展示了162组论文对,并记录了他们的成对偏好,没有透露哪些论文是由人类或AI撰写的。然后进行统计分析,以评估评估者之间的一致性,并得出关于人类和AI生成论文质量的结论。

指标:与先前的研究一致,研究者报告了AI生成和人类撰写论文的检测准确率,以评估检测器区分真实人类撰写内容和AI生成内容的性能。为了评估检测器的信心,研究者还提供了AUROC结果。此外,研究者还将AES分数作为评估生成论文质量的额外标准。

未受干扰的AI生成论文很容易被检测器识别出来。不同语言模型生成的论文在各种检测器下的检测准确率和AUROC总结在表1中。主要结论是,无论论文是直接基于指令写成、由人类文章润色还是从现有文本继续编写,未受干扰的机器生成论文都可以被所有检测器轻易检测到。就最佳性能的检测器RoBERTa-QA而言,它在几乎所有机器生成数据上实现了超过90%的检测准确率和AUROC。值得注意的是,它在检测人类撰写的论文时也表现出了89.3%的准确率。

重写和替换大大降低了检测准确率。正如预期的那样,将干扰方法应用于机器生成的文本有效地降低了被检测的可能性。研究者观察到,随着干扰粒度从全文到词汇的减小,对检测器性能的影响变得更加明显。值得注意的是,使用词汇级别的干扰,在许多情况下,检测准确率降低到大约50%,几乎等同于随机分类器。另外润色和释义干扰都需要给定的人类撰写的文章来生成。然而,在检测有效性方面,释义表现出更好的攻击性能。研究者推测,这种性能差异来自于提示设计。在释义中,给定的文章更多地作为参考示例而不是严格模板。因此,语言模型具有更大的灵活性,可以在其写作中融入更多的多样性和创造性,从而提高了逃避检测的能力。

微调的RoBERTa检测器可以识别重写的论文,但未能检测到经过替换的论文。为了更好地识别受干扰的论文,研究者继续使用保留的训练数据对RoBERTa-Single和RoBERTa-QA进行微调,如原始论文中描述的方法所示。如表1中的“微调”列所示,检测器成功提高了检测机器生成内容的能力,同时保持了识别人类撰写论文的熟练程度。对于ChatGPT释义数据,RoBERTa-Single在检测准确率方面取得了显著提高,从54.1%提高到74.6%。然而,通过微调实现的性能改进因干扰方法的不同而异。在替换方法的情况下,微调模型只带来了相对较小的改进,在Vicuna词汇替换数据的RoBERTa-Single模型上的性能只提高了5.2%。特别是经过词汇替换的生成论文的微调RoBERTa模型的准确率仍在60%左右或以下,这表明实际使用中的检测性能不可靠。

检测难度因不同论文类型而异。AIG-ASAP数据集包括8个不同主题,这些主题进一步分为3种论文类型:论证性、依赖来源和叙述性。检测这些论文主题揭示了AIGC检测的难度和干扰的影响。表3显示了在应用到ChatGPT生成数据时,最佳性能检测器微调RoBERTa-QA在不同论文类别中的检测准确率。结果表明,平均而言,依赖来源的论文更容易被检测器检测到。这一观察可能归因于在依赖来源内容生成期间提供给ChatGPT的源文章。这样的源文章可能限制了语言模型使用的词汇多样性,使生成的内容更容易区分。还观察到在不同论文类别中,论文释义和句子替换的检测性能有适度的波动。然而,词汇替换对论证性论文有显著影响,这可以归因于在论证性论文中选择替换的词汇更可能涉及论证关键词,从而对整体内容产生更明显的影响。

研究者进一步调查了增加干扰深度对AI生成论文词汇替换的检测准确率的影响,其中干扰深度指的是在生成AIG-ASAP词汇替换集时使用干扰方法替换的最频繁词汇的数量。图2展示了干扰深度与检测准确率之间的关系。曲线清楚地展示了干扰深度和检测概率之间的反比关系,证实了直观的预期,即存在的干扰词越多,被检测器检测的可能性越低。另外受干扰内容的质量略有下降。

本文的发现不仅为AIGC检测方法的设计提供了新的视角,也为教育领域中AI技术的负责任使用提供了重要的参考。

论文链接:https://arxiv.org/abs/2402.00412

项目链接:https://github.com/xinlinpeng/AIG-ASAP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值