谨防AI诈骗！北大、华为联合发布了 AI 生成文本检测方法

最新推荐文章于 2025-05-06 17:10:44 发布

zerozzl01

最新推荐文章于 2025-05-06 17:10:44 发布

阅读量1.9k

点赞数 3

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/zerozzl01/article/details/131054423

版权

最近一则“10分钟被骗430万”的新闻引起了大众对于AI生成内容的关注，如果不对AI生成的内容加以区分和判别，很容易被不法分子利用，造成了一系列社会问题。

北大、华为联合发布了 AI 生成文本检测器，促进在AI生成内容鉴别领域的发展。

论文地址：https://arxiv.org/abs/2305.18149
代码地址 (MindSpore)：https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
代码地址 (PyTorch)：https://github.com/YuchuanTian/AIGC_text_detector

摘要

本文提出了一种Multiscale Positive-Unlabeled（MPU）训练框架，用于检测AI生成的文本。实验结果表明，MPU方法可以同时提高语言模型检测器在长文本和短文本上的检测效果，解决了目前检测器对于短文本识别精度低的痛点。

简介

大型语言模型的发展给人们的生活带来了惊人的变化，但也存在滥用的风险。因此，需要可靠的检测器来区分文本是否来自于大型语言模型或人类，以避免伦理和法律问题。

目前的文本检测方法很少考虑到多尺度文本长度的影响，短文本的检测难度明显增加。一些在线聊天检测器已经注意到了这个问题，但还没有有效解决。

本文提出了一种MPU方法，用于解决短文本检测的挑战。该方法将AI生成文本检测任务建模为部分PU问题，并提出了长度感知的MPU损失函数，以提高多尺度文本检测器的性能。实验结果表明，MPU框架显著提高了短文本检测性能，同时也提升了长文本检测效果。

MPU文本检测框架

基于PU分类的文本检测

主流的文本分类器没有考虑文本长度对分类难度的影响。短文本往往难以区分，而长文本则更容易分类。在一些短文本情况下，生成式语言模型甚至可以直接“复制”人类语料库作为输出，使得所有机器生成的特征都消失。短文本的“未标记性”使得在多尺度文本分类器训练中陷入了两难境地：不能简单地丢弃无信息的短文本以提高检测性能，但包含它们会给训练过程添加噪声并损害整体的区分能力。

为了解决多尺度文本检测的问题，我们将其建模为部分PU问题。在这个问题中，我们将来自人类的短语料库视为正样本，而来自机器的短语料库则标记为“未标记”，因为我们无法精确追踪和分析它们的来源。同时，我们将具有明确标签的长语料库视为常规的二元分类问题。然后，我们在这个PU的背景下优化我们的检测器模型。

PU分类方法

标准监督二分类模型使用正负样本进行训练，并使用训练好的模型进行测试。PN损失函数可以从训练数据的小批量中估计。给定一批正样本和负样本，定义分类函数g和预定义损失函数L，计算正负样本的损失期望，最终得到PN损失。其中π为正样本在所有数据中的比例。

PU问题中只有部分正样本数据和未标记数据可用，因此无法直接使用无偏PN损失函数。需要通过正样本和未标记样本来估计负损失部分。估计过程如上式所示。

其中，

表示正样本与正标签计算的二分类损失；表示将无标记样本全部假定为负标签计算的二分类损失；表示将正样本假定为负标签计算的二分类损失；表示的是先验正样本概率，即正样本在全部 PU 样本中的预估占比。在传统的 PU 学习中，通常将先验设置为一个固定的超参数。然而在文本检测的场景中，检测器需要处理各式长度不同的文本；而对于不同长度的文本而言，其正样本在所有和该样本相同长度的 PU 样本中的预估占比也是不同的。因此，本研究对 PU Loss 进行了改进，提出了长度敏感的多尺度 PU（MPU）loss 损失函数。

尺度敏感的PU方法

PU设定中，先验概率的估计值被固定为常数，但在多尺度文本检测中，不同长度的语料库可能具有不同的positive probabilities，因此固定估计值不是最优选择。

本文介绍了一种多尺度PU损失函数，用于不同长度的语料库，并使用通用的循环语言模型作为正面人类语音语料库的鉴别器，建模长度变化的先验知识。

本文介绍了一种基于序列分类的方法，通过将前面的分类结果和最后一个标记的分类结果合并来实现。针对人类生成的语料库区分的任务特征，该方法通过捕捉标记的信号来进行文本区分。每个标记都有一个隐藏属性，对整个序列的分类做出贡献。标记被分为“明确的正面”和“未标记”的两类，每个标记对整个序列的分类做出相等的贡献。合并函数采用等权重加法。

本文介绍了一种基于序列标注的文本摘要方法，其中考虑了每个词对于摘要的贡献，并将分类过程离散化处理。同时，还考虑了文本长度对于摘要的影响。

本文介绍了一种基于生成对抗网络的文本分类方法，使用硬剪辑函数来限制分类结果在[0,1]之间，以提高对正面信号的敏感度。此外，为了鼓励正面反应，判别器的初始状态设置为正面。这种方法适用于人工智能语言模型的最新进展，其中人类和AI语言更加相似，需要高度敏感的正面信号。

本文介绍了如何通过循环语言模型计算样本为正的先验概率π˜，π˜可以解释为循环鉴别器的置信度期望E [∆(S l)]。将贡献离散化有助于将连续的鉴别器∆转换为离散状态。可以通过单个标记的正概率p来准确计算所有长度为l的序列的期望E [∆(S l)]。

该文讨论了一个小值状态转移矩阵P，它由正向转移p和负向转移1-p组成，用于描述当前状态到相邻状态的贡献。通过定义概率向量σi，可以描述单个转移和最终状态概率向量。

给定一个初始状态，可以计算出长度为l的序列的最终状态概率向量和整体期望值。

本文研究了文本分类中的先验概率问题，提出了一种基于文本长度的先验概率计算方法。随着文本长度的减少，先验概率也会相应减少，这与短文本更容易出现未标记属性的预期相符合。

定义了多尺度PU损失，具有变长先验。

本文介绍了一种用于训练检测器的多尺度正负无标签（PN）损失函数。该方法将短的机器生成语料库视为部分“无标签”，并将多尺度PU损失和PN分类损失加权求和，得到最终的损失函数。

多尺度文本

为了适应不同长度的训练语料，提出了多尺度PU损失函数，并引入了文本多尺度模块，通过随机删除句子来生成多个短语料库，以发挥多尺度PU损失函数的潜力。首先将完整的训练语料库分成n个句子，然后进行处理。

该方法使用了一种基于句子的掩码机制，通过将句子随机掩码来生成摘要。每个句子都有独立的伯努利试验来决定是否保留。掩码数组M的采样过程可以表示为：M∈{0,1}n。其中0表示该句子被丢弃，1表示该句子被保留。

合并所有句子，生成多尺度训练文本cmul。这个过程可以用数学表达式表示。

本文介绍了一个名为Text Multiscaling的模块，它可以将一个向量映射到一个元素级的Hadamard积。该模块不会生成更多的训练样本，而是替换原始向量。

该方法可以将文本按照不同的尺度进行压缩，以便进行公平的实验比较。压缩后的文本仍保留原始语料库的类别标签，并通过使用多尺度PU损失来解决长度减少导致类别属性变化的问题。

本文介绍了一种新的文本数据增强方法，与Easy Data Augmentation（EDA）不同之处在于，我们的方法注重多尺度，而EDA的随机删除方法对生成不同长度的文本效果有限。此外，EDA的单词级随机删除可能会破坏句子的语义，而我们的方法则更注重整体句子级别的删除，以减少句子类别变化的可能性。

实验

设置

本文介绍了在TweepFake和HC3数据集上使用MPU方法进行文本检测的实验。这两个数据集都是公开可用的，TweepFake是用于检测虚假AI生成推文的短文本数据集，而HC3是一个包含长短文本的ChatGPT文本检测数据集。MPU方法在区分短文本方面具有独特的能力。我们还开源了代码以便复现。

本文介绍了在AI生成文本检测中使用的不同分类器的性能比较。结果表明，经过微调的语言模型在性能上优于简单的机器学习分类器和零样本方法。由于RoBERTa模型在先前的工作中表现出色，因此我们选择使用它作为检测器。同时，为了通用性，我们还包括了BERT模型。

TweepFake检测结果

本文介绍了在Tweep-Fake上进行的假推文实验，采用了Kumarage等人的实验设置，并严格遵循了他们的训练策略。该策略使用AdamW优化器，批量大小为16，学习率为1e-5。Kumarage等人的研究声称在短文本检测方面表现出色。

TweepFake数据集主要由短推文组成，不适合使用MultiscaleAugmentation，而是直接应用MultiscalePU loss进行训练。实验结果表明，提出的MPU方法显著提高了RoBERTa的性能，超过了最新的TweepFake基线模型RoBERTa-Finetuned-Stylo。

ChatGPT检测结果
本文介绍了在ChatGPT语料库上进行的实验，使用了HC3数据集来测试方法的性能。HC3数据集包含85449个语料片段，用于聊天GPT语料库检测。我们严格遵循了HC3的微调设置，使用AdamW优化器，在全级别语料库上进行1个epoch的训练。

本文使用多尺度正样本未标记（MPU）框架在HC3数据集上对语言模型进行微调，并选择了一组基线检测器来展示MPU方法的出色检测性能。

结果显示，现有方法在句子级语料库比较上表现不佳，F1分数在40%到70%之间。然而，我们的MPU方法在句子级性能上有很大提升，同时进一步提高了全级AI生成语料库的检测能力。在第3.4节中，我们将调查单个组件的影响。

消融分析

可以看出，将文本多尺度应用于训练语料可以显著提高句子级别的检测性能，但是对于整个语料库的检测性能会下降。这是因为随机删除句子导致短语料库的标签不合理。添加MPU损失可以提高整个语料库和短文本的检测性能。

仅仅添加MPU损失对于检测性能的提升帮助不大，因为短文本数量不足。

本文介绍了一种新的文本检测方法MPU，相比于传统方法，它在短文本上表现更好。作者使用了一种叫做一阶导数显著性的方法来展示MPU的优势。通过比较RoBERTa和MPU的嵌入显著性，可以看出MPU对整个句子有更全面的认识，而RoBERTa则更偏向于常用词汇。

本文提出了一种多尺度PU损失函数，可以更好地适应不同长度的训练语料，相比普通的PU损失函数表现更好。

本文介绍了在ChatGPT基准测试HC3上进行的超参数消融实验，以研究各种超参数变化的影响。

在抽象的循环检测模型中，基于标记的先验概率p估计了一个标记被认为是人类语音特征的概率。经过仔细调整，我们发现最佳性能是在p = 0.2时达到的。

本文研究了短文本分类的PU问题，通过调整PU损失的仿射权重参数γ，发现在γ=0.4时全文本和句子级别的性能都较好。短文本分类应被视为部分PU问题而非完全PU问题。

本文介绍了多尺度文本增强中随机屏蔽句子的方法，并探讨了最佳屏蔽概率。当屏蔽概率为0.25时，测试表现最佳。过高的屏蔽概率会提高句子级别的检测性能，但会对全局性能产生负面影响。

总结

本文提出了一个MPU框架，用于AI生成文本检测。我们将短AI生成语料库的来源视为一个PU问题，并提出PU损失来增强检测器对短语料库的区分能力。此外，我们还提出了句子级随机删除的多尺度训练方法。实验结果表明，我们的方法在短语料库上非常有效。未来，我们希望在规范基准测试上进行更多实验，并将我们的方法应用于更多类型的模型。

本文提出了一种训练AI生成的文本检测器的方法，虽然在多尺度文本上表现出色，但检测器可能会输出错误的文本属性，这可能会在检测抄袭、假新闻等方面引起道德问题。因此，我们强烈建议检测器的结果只能作为实际应用的参考。

▌关于我们

灵度智能，我们致力于提供优质的AI服务，涵盖机器学习、深度学习、人工智能、数据分析、计算机视觉、自然语言处理等领域，如有AI算法代做、模型开发、论文复现、远程调试等相关需求，请私信与我们联系。

淘宝店铺：灵度科技工作室

淘宝地址：https://shop571864205.taobao.com/

关注【灵度智能】公众号，获取更多AI资讯。