LLMs-数据污染
文章平均质量分 92
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文复现:Training on the Benchmark Is Not All You Need
这篇论文还是非常通俗易懂的,就是交换题目的选项顺序,来计算logprobs,查看是否有异常值。原创 2024-10-08 16:49:47 · 421 阅读 · 0 评论 -
顶会论文复现:PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS
这篇论文的测试数据污染的方法也是很扯淡的,论文结尾也说了,作者自己的方法得先证明数据集内的题目之间的顺序打乱是否有影响,这不就是扯淡么,训练期间,有个策略就是要每次输入训练时,打乱顺序,训练的时候都打乱了,作者测试期间打乱测的出来个屁呀。这也能发顶会,太离谱了。还有检测时用的logprobs这个值,这个值的低和高不代表污染程度,整个论文让我感到匪夷所思。原创 2024-10-07 09:58:21 · 745 阅读 · 0 评论 -
顶会论文复现 time-travel-in-llms, TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS
pip install dashscopeexport DASHSCOPE_API_KEY=“sk-91b8d4bd58c14888975968c8ecb64159”git clone https://github.com/google-research/bleurt.git dependencies/bleurt_scorercd dependencies/bleurt_scorerpip install .pip install evaluate==0.3.0原创 2024-10-03 21:14:41 · 136 阅读 · 0 评论 -
论文翻译:arxiv-2024.Mathieu Ravaut.How Much are Large Language Models Contaminated? A Comprehensive
随着近年来大型语言模型(LLMs)的兴起,涌现出了大量新的机会,但也带来了新的挑战,其中污染问题迅速变得至关重要。在人工智能(AI)的商业应用和筹资中,已经达到了一个规模,即在流行的问答基准测试中获得的几个百分点的提高可能转化为数千万甚至数亿美元,这给模型的完整性带来了巨大的压力。与此同时,追踪LLMs所见过的数据变得越来越困难;对于像GPT-4和Claude-3这样的闭源模型来说,如果不披露任何关于训练集的信息,几乎是不可能的。原创 2024-09-26 15:47:25 · 53 阅读 · 0 评论 -
论文翻译:arxiv-2024.Zhuohao Yu.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of
大型语言模型(LLM)评估方法和数据集的快速发展带来了巨大的挑战:在确保可靠性、可重复性和效率的同时,成本有效地整合最先进的评估技术。目前,缺乏一个统一且可适应的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性常常受到质疑,而在面对与LLM推理相关的巨额成本时,评估效率通常被忽视。为了应对这些挑战,我们介绍了FreeEval,这是一个模块化且可扩展的框架,旨在实现LLMs的可靠和高效自动评估。原创 2024-09-24 20:39:29 · 58 阅读 · 0 评论 -
论文翻译:arxiv-2024.Xiang Li.TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree
最近,为了评估大型语言模型(LLMs)的性能,无论是通过计算整体分数还是使用另一个LLM作为评委,都建立了许多新的基准。然而,这些方法由于基准的公开访问和不灵活的评估过程而受到数据泄露的困扰。为了解决这个问题,我们介绍了TreeEval,这是一种无需基准的LLMs评估方法,让一个高性能的LLM主持一个不可复制的评估会议,基本上避免了数据泄露。此外,这个LLM作为考官,根据树规划策略提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。原创 2024-09-24 20:24:32 · 75 阅读 · 0 评论 -
论文翻译:arxiv-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of
大型语言模型(LLMs)在各种自然语言基准测试中取得了令人印象深刻的性能,这促使我们不断为更大的LLMs策划更具挑战性的数据集,这是一个成本高昂且耗时的过程。在本文中,我们提出自动化数据集更新,并提供系统性分析,以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此,一旦当前基准被掌握或泄露,我们可以及时更新它,以进行可靠和及时的评估。有两种更新策略:1)模仿策略,基于原始数据生成类似的样本,保留风格和上下文的本质;2)扩展策略,通过适应布鲁姆教育目标分类法,在不同的认知水平上进一步扩展现有样本。原创 2024-09-24 18:37:53 · 46 阅读 · 0 评论 -
论文翻译:arxiv-2024.Kaijie Zhu.DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
大型语言模型(LLMs)的评估由于数据污染问题引起了社区的极大关注。现有的工作设计了使用特定任务的明确算法的评估协议,这些协议不易扩展到多样化的场景。此外,当前的评估基准只能提供整体基准结果,不能支持对LLMs能力的细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLMs。MPA设计了探测和判断代理,以自动将原始评估问题根据心理测量学理论转换为新的评估问题,涉及三种基本认知能力:语言理解、问题解决和领域知识。原创 2024-09-24 14:50:07 · 65 阅读 · 0 评论 -
论文翻译:arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们担心它们庞大的训练语料库中可能存在数据污染。此外,当前基准测试的静态性质和固定复杂度可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,一种用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了基于图的DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂度的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。原创 2024-09-24 14:41:19 · 51 阅读 · 0 评论 -
论文翻译:arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?
LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,原创 2024-09-24 13:02:33 · 43 阅读 · 0 评论 -
论文翻译:arxiv-2024.Naman Jain.LiveCodeBench: Holistic and Contamination Free Evaluation of Large
应用于代码相关应用的大型语言模型(LLMs)已经成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLMs的发展,现有的评估基准(例如,HumanEval、MBPP)不再足以评估它们的能力。在这项工作中,我们提出了LiveCodeBench,这是一个全面且无污染的LLMs代码评估方法,它从三个竞技平台(即LeetCode、AtCoder和CodeForces)的比赛活动中随时间收集新问题。原创 2024-09-24 11:16:07 · 57 阅读 · 0 评论 -
论文翻译:AAAI-2024.Yucheng Li.LatestEval: Addressing Data Contamination in Language Model Evaluation
随着在超大规模自动抓取语料库上预训练的语言模型的出现,评估中的数据污染问题日益严重。这一问题导致了对模型能力和泛化能力的准确评估面临重大挑战。本文提出了LatestEval,一种自动化方法,利用最新文本创建无污染的阅读理解评估。LatestEval通过仅使用在最近时间窗口内发布的文本来避免数据污染,确保与预训练语言模型的训练语料库没有重叠。我们开发了LatestEval自动化流程,1) 收集最新文本;2) 识别关键信息;3) 构建针对这些信息的问题,同时从上下文中移除现有答案。原创 2024-09-24 11:01:39 · 68 阅读 · 0 评论 -
论文翻译:NeurIPS-2021-CCF-B.Zhiyi M.Dynaboard: An Evaluation-As-A-Service Platform for Holistic
我们介绍了Dynaboard,这是一个评估即服务平台框架,用于托管基准测试并进行全面的模型比较,与Dynabench平台集成。我们的平台直接评估NLP模型,而不是依赖于自行报告的指标或单一数据集上的预测。在这种范式下,模型被提交到云端进行评估,规避了在NLP基准测试中经常遇到的可重复性、可访问性和向后兼容性问题。这允许用户实时与上传的模型互动以评估其质量,并允许收集额外的指标,如内存使用、吞吐量和鲁棒性,这些指标尽管对实践者很重要,但传统上一直未出现在排行榜上。原创 2024-09-24 10:45:05 · 46 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for
随着在大型自动抓取的语料库上预训练的模型的兴起,数据污染已经成为一个普遍且具有挑战性的问题。对于封闭模型来说,训练数据变成了商业机密,即使是开放模型,检测污染也并非易事。诸如带有隐藏答案的排行榜,或者使用保证未被见过的测试数据这类策略,成本高昂,并且随着时间的推移变得脆弱。假设所有相关方都重视干净的测试数据,并愿意合作以减轻数据污染,我们可以做什么?我们提出了三种可以产生影响的策略:(1)公开的测试数据应使用公钥加密,并授权禁止衍生分发;(2)原创 2024-09-24 10:27:34 · 344 阅读 · 0 评论 -
论文翻译:arxiv-2024.Tanmay Rajore.TRUCE: Private Benchmarking to Prevent Contamination and Improve
基准测试因其速度、可复制性和低成本而成为评估大型语言模型(LLM)的实际标准。然而,最近的研究指出,目前可用的大多数开源基准测试数据集已经被污染或泄露到LLM中,这意味着LLM在预训练和/或微调期间可以访问测试数据。这引发了对迄今为止进行的基准测试研究的有效性以及使用基准测试进行评估的未来严重担忧。为了解决这个问题,我们提出了私密基准测试,这是一种解决方案,其中测试数据集是私密的,并且模型在不向模型透露测试数据的情况下进行评估。原创 2024-09-24 09:09:01 · 28 阅读 · 0 评论 -
论文翻译:arxiv-2023.Manley Roberts.Data Contamination Through the Lens of Time
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常是通过评估公开可用的基准测试来支持的。由于LLMs在互联网的广泛领域上进行训练,这种做法引发了数据污染的担忧,即在训练数据中明确或隐式包含的示例上进行评估。数据污染出了名的难以衡量和缓解,即使有部分尝试,如对训练数据进行控制实验、使用金丝雀字符串或嵌入相似性,也是如此。在这项工作中,我们通过使用GPT模型训练截止日期的自然实验,首次对LLMs中的数据污染进行了全面的纵向分析,以观察随时间发布的基准测试。原创 2024-09-23 15:25:33 · 56 阅读 · 0 评论 -
论文翻译:ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators
大型语言模型(LLMs)展示了令人印象深刻的推理能力,然而,关于这些能力以及最近潜在的数据污染问题的争论仍在持续。本文旨在评估LLMs的推理能力,特别是在解决Codeforces中最近的竞赛级编程问题方面,这些问题是由专家精心设计且独特的,需要深入理解和强大的推理技能。我们首先对GPT-4在这项任务上的零样本(zero-shot)表现进行全面评估,考虑了问题发布时间、难度和遇到的错误类型等多个方面。令人惊讶的是,原创 2024-09-23 14:54:36 · 55 阅读 · 0 评论 -
论文翻译:NeurIPS-2023.Lee A.Platypus: Quick, Cheap, and Powerful Refinement of LLMs
我们介绍了鸭嘴兽(Platypus),这是一个经过微调和合并的大型语言模型(LLM)系列,它在撰写本文时在HuggingFace的开放LLM排行榜上取得了最强性能并名列第一。在这项工作中,我们描述了(1)我们策划的数据集Open-Platypus,这是其他开放数据集的一个子集,我们将其公开发布(2)我们微调和合并LoRA模块的过程,以保留预训练LLMs的强大先验,同时将特定领域知识带到表面==(3)我们在检查训练数据中的测试数据泄露和污染方面的努力==,这可以为未来研究提供信息。原创 2024-09-23 13:23:12 · 91 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-B.Kent K. Chang.Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
在这项工作中,我们进行了数据考古学研究,通过使用名称填空成员推断查询来推断ChatGPT和GPT-4所知的书籍。我们发现,OpenAI模型已经记住了大量受版权保护的材料,记忆的程度与这些书籍的段落在网络出现的频率有关。这些模型对未知书籍集的记忆能力,使得文化分析的测量有效性评估变得复杂,因为它们污染了测试数据;我们表明,对于下游任务,模型在记忆书籍上的表现远胜于非记忆书籍。我们认为,这支持了开放模型的理由,即其训练数据是已知的。原创 2024-09-23 11:57:27 · 75 阅读 · 0 评论 -
论文翻译:arxiv-2024.Yucheng L.An Open-Source Data Contamination Report for Large Language Models
随着大型语言模型的日益普及,模型评估中的数据污染问题变得越来越普遍。它允许模型通过记忆而非展示真正的能力来“作弊”。因此,污染分析已成为可靠模型评估的关键部分,以验证结果。然而,现有的污染分析通常由大型语言模型开发商内部进行,并且通常缺乏透明度和完整性。本文提出了一个广泛的数据污染报告,涵盖了六个流行的多项选择QA基准测试中的超过15个流行的大型语言模型。我们还介绍了一个开源流程,使社区能够在定制的数据和模型上进行污染分析。我们的实验揭示了基准测试中污染程度从1%到45%不等,并且污染程度随时间迅速增加。原创 2024-09-23 11:34:44 · 55 阅读 · 0 评论 -
论文翻译:NAACL-2024.CCF-B.Chunyuan Deng.Investigating Data Contamination in Modern Benchmarks for Large
最近的观察强调了膨胀的基准测试分数与LLMs的实际性能之间的差距,引发了对评估基准可能受到污染的担忧。这个问题对于闭源模型和某些开源模型尤其关键,这些模型缺乏训练数据透明度。在本文中,我们通过提出两种方法来研究数据污染,这些方法既适用于开源也适用于专有LLMs。我们首先引入了一个基于检索的系统,探索评估基准和预训练语料库之间的潜在重叠。我们进一步提出了一种名为测试集槽位猜测(TS-Guessing)的新调查协议,适用于开源和专有模型。这种方法包括在多项选择问题中遮蔽一个错误答案,并提示模型填补空白。原创 2024-09-22 15:04:56 · 147 阅读 · 0 评论 -
论文翻译:arxiv-2024.Ranaldi F.Investigating the Impact of Data Contamination of Large Language Models in
理解文本描述以生成代码似乎是指令遵循型大型语言模型(LLMs)在零样本场景下实现的能力。然而,存在一个严重的可能性,即这种翻译能力可能受到看到目标文本描述和相关代码的影响。这种效应被称为数据污染。在这项研究中,我们调查了数据污染对GPT3.5在文本到SQL代码生成任务中性能的影响。因此,我们引入了一种新的方法来检测GPT中的数据污染,并使用已知的Spider数据集和我们的新不熟悉的数据集Termite来检查GPT-3.5的文本到SQL性能。原创 2024-09-22 11:40:57 · 125 阅读 · 0 评论 -
论文翻译:AAAI-2024.Li C.CCF-A.Task Contamination: Language Models May Not Be Few-Shot Anymore
大型语言模型(LLM)在各种零样本和少量样本任务中表现出令人印象深刻的性能。然而,它们在零样本或少量样本设置中的成功可能会受到任务污染的影响,这是一个尚未得到充分检验的潜在限制。本文调查了LLM在零样本和少量样本性能如何随着时间的推移而变化,以及随着时间的推移而发布的数据集和LLM的变化。利用GPT-3系列模型和其他几个最近开源的LLM,控制数据集难度,我们发现在LLM训练数据创建日期之前发布的数据集的表现比在LLM训练数据创建日期之后发布的数据集要好得多。原创 2024-09-22 11:11:38 · 352 阅读 · 0 评论 -
论文翻译 ACL-2023.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood
成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。原创 2024-09-16 23:02:40 · 1111 阅读 · 0 评论 -
大模型数据污染
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur原创 2024-09-14 14:34:50 · 646 阅读 · 0 评论 -
论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need
Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题:基准测试并非你所需的全部摘要:大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的原创 2024-09-14 07:23:23 · 1118 阅读 · 0 评论 -
论文翻译:arxiv-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation for
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包括测试数据,导致LLMs更容易受到数据污染。然而,由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染,通过识别LLM输出分布的峰值度。原创 2024-09-07 11:17:38 · 713 阅读 · 0 评论 -
论文翻译:arxiv-2024 Evading Data Contamination Detection for Language Models is (too) Easy
大型语言模型(LLMs)广泛存在,它们在基准测试中的表现经常指导用户偏好一个模型而不是另一个。然而,这些模型训练所用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽略了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种情况至关重要,因为它对公共基准测试用于LLM评估的可靠性产生了怀疑。为了更严格地研究这个问题,我们提出了模型提供者和数据污染检测方法的分类。原创 2024-09-07 15:05:30 · 508 阅读 · 0 评论 -
论文翻译:arxiv-2024 DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math
大型语言模型(LLM)的进步依赖于使用公共基准进行评估,但数据污染可能导致性能被高估。以往的研究集中在通过确定模型在训练期间是否见过完全相同的数据来检测污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会在分布内任务上提高性能,而不会提高整体能力,我们称之为分布内污染。为了有效检测分布内污染,我们提出了DICE,这是一种新方法,它利用LLM的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层,然后基于该层的内部状态训练分类器。原创 2024-09-07 15:36:57 · 765 阅读 · 0 评论 -
论文翻译:ACL-2022 Data Contamination: From Memorization to Exploitation
预训练语言模型通常在基于网络的大规模数据集上进行训练,这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型,并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能,使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明,在某些情况下存在利用,但在其他情况下,模型记忆了污染数据,但没有利用它。原创 2024-09-07 15:50:55 · 917 阅读 · 0 评论 -
论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers
在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。原创 2024-09-07 16:13:13 · 913 阅读 · 0 评论 -
论文翻译:arxiv-2024.Wentao Ye.Data Contamination Calibration for Black-box LLMs
大型语言模型(LLMs)的快速发展与训练数据规模的扩大密切相关。然而,未经检查的超大规模训练集引入了一系列潜在风险,如数据污染,即基准测试数据被用于训练。在这项工作中,我们提出了一种名为极化增强校准(PAC)的整体方法,以及一个名为StackMIA的全新数据集,以帮助检测污染数据并减少污染影响。PAC扩展了机器学习社区流行的MIA(成员推断攻击)——通过形成一个更全局的目标来检测训练数据,以澄清看不见的训练数据。原创 2024-09-07 18:05:53 · 872 阅读 · 0 评论 -
论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models
公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。原创 2024-09-07 18:41:10 · 589 阅读 · 0 评论 -
论文翻译:arxiv-2024.Xu.Benchmarking Benchmark Leakage in Large Language Models
随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。原创 2024-09-07 19:19:24 · 1259 阅读 · 0 评论 -
论文翻译:arxiv-2024.Cheng Xu.Benchmark Data Contamination of Large Language Models: A Survey
然而,当前还没有一项全面的、系统性的研究来深入讨论和定义这一问题。尽管有些研究认为这种现象是有益的 [12],或不将其视为问题 [16],但学术界的大多数研究认为,BDC对LLM评估的可靠性和有效性构成了重大挑战,削弱了对其输出的信任,阻碍了其在现实中的应用 [69, 83, 98, 119, 126, 178]。一些有前途的方案被提出,例如通过使用LLM重新生成基准数据 [158, 180, 181],以减少BDC的影响,以及基准无关评估 [24, 87, 166],试图避免完全依赖预定义的基准。原创 2024-09-07 19:32:52 · 1100 阅读 · 0 评论 -
论文翻译:ACL-2024 S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model
大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,这是一个综合、可扩展、系统的LLMs评估套件。S3EVAL的合成特性为用户提供了对数据集的完全控制,允许他们。原创 2024-09-07 19:43:05 · 489 阅读 · 0 评论 -
论文翻译:ICLR-2024.Oren.PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS
大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的。原创 2024-09-07 20:11:05 · 1338 阅读 · 0 评论 -
论文翻译:ICLR-2024.Shahriar Golchin.TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE
数据污染,即在大型语言模型(LLMs)的训练数据中存在下游任务的测试数据,是衡量LLMs在其他任务上真实有效性的潜在重大问题。我们提出了一种简单但有效的识别LLMs中数据污染的方法。我们的方法核心是从实例级别开始识别潜在污染;利用这些信息,我们的方法接着在分区级别评估更广泛的污染。为了估计单个实例的污染,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和参考实例的随机长度初始片段,要求LLM完成它。如果LLM的输出与参考的后半部分完全或几乎匹配,则将该实例标记为污染。为了理解整个分区是否受到污染。原创 2024-09-07 20:27:26 · 975 阅读 · 0 评论 -
论文翻译:ICLR-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们对于其庞大的训练语料库中潜在的数据污染问题表示担忧。此外,当前基准测试的静态性质和固定复杂性可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,这是一个用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了图信息DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂性的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。原创 2024-09-07 20:37:15 · 665 阅读 · 0 评论 -
论文翻译:arxiv-2024 Compression Represents Intelligence Linearly
有一种观点认为,学会压缩将导致智能(Hutter, 2006)。最近,语言建模已被证明等同于压缩,这为大型语言模型(LLMs)的成功提供了一个有说服力的理由:更先进的语言模型的发展本质上是增强压缩,从而促进智能。尽管有这样吸引人的讨论,但关于压缩和智能之间相互作用的经验证据很少。在这项工作中,我们在LLMs的背景下检验它们的关系,将LLMs视为数据压缩器。鉴于“智能”的抽象概念,我们采用平均下游基准分数作为替代指标,特别针对与知识和常识、编码和数学推理相关的智能。原创 2024-09-07 20:49:11 · 648 阅读 · 0 评论