- 博客(354)
- 资源 (27)
- 收藏
- 关注
原创 大模型数据污染
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur
2024-09-14 14:34:50 586
原创 大模型提示词安全
翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on
2024-09-11 10:19:33 171
原创 论文翻译:arxiv-2024.Mathieu Ravaut.How Much are Large Language Models Contaminated? A Comprehensive
随着近年来大型语言模型(LLMs)的兴起,涌现出了大量新的机会,但也带来了新的挑战,其中污染问题迅速变得至关重要。在人工智能(AI)的商业应用和筹资中,已经达到了一个规模,即在流行的问答基准测试中获得的几个百分点的提高可能转化为数千万甚至数亿美元,这给模型的完整性带来了巨大的压力。与此同时,追踪LLMs所见过的数据变得越来越困难;对于像GPT-4和Claude-3这样的闭源模型来说,如果不披露任何关于训练集的信息,几乎是不可能的。
2024-09-26 15:47:25 11
原创 论文翻译:arxiv-2024.Zhuohao Yu.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of
大型语言模型(LLM)评估方法和数据集的快速发展带来了巨大的挑战:在确保可靠性、可重复性和效率的同时,成本有效地整合最先进的评估技术。目前,缺乏一个统一且可适应的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性常常受到质疑,而在面对与LLM推理相关的巨额成本时,评估效率通常被忽视。为了应对这些挑战,我们介绍了FreeEval,这是一个模块化且可扩展的框架,旨在实现LLMs的可靠和高效自动评估。
2024-09-24 20:39:29 32
原创 论文翻译:arxiv-2024.Wei-Lin Chiang.Chatbot Arena: An Open Platform for Evaluating LLMs by Human
大型语言模型(LLMs)已经解锁了新的能力和应用;然而,评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题,我们介绍了Chatbot Arena,一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法,并通过众包利用多样化用户群的输入。该平台已经运行了几个月,累积了超过24万张选票。本文描述了该平台,分析了我们迄今为止收集的数据,并解释了我们使用的久经考验的统计方法,用于有效和准确地评估和排名模型。我们确认众包问题足够多样化且具有区分度,众包人类选票与专家评分者的结果非常一致。
2024-09-24 20:33:48 34
原创 论文翻译:arxiv-2024.Xiang Li.TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree
最近,为了评估大型语言模型(LLMs)的性能,无论是通过计算整体分数还是使用另一个LLM作为评委,都建立了许多新的基准。然而,这些方法由于基准的公开访问和不灵活的评估过程而受到数据泄露的困扰。为了解决这个问题,我们介绍了TreeEval,这是一种无需基准的LLMs评估方法,让一个高性能的LLM主持一个不可复制的评估会议,基本上避免了数据泄露。此外,这个LLM作为考官,根据树规划策略提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。
2024-09-24 20:24:32 45
原创 论文翻译:arxiv-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of
大型语言模型(LLMs)在各种自然语言基准测试中取得了令人印象深刻的性能,这促使我们不断为更大的LLMs策划更具挑战性的数据集,这是一个成本高昂且耗时的过程。在本文中,我们提出自动化数据集更新,并提供系统性分析,以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此,一旦当前基准被掌握或泄露,我们可以及时更新它,以进行可靠和及时的评估。有两种更新策略:1)模仿策略,基于原始数据生成类似的样本,保留风格和上下文的本质;2)扩展策略,通过适应布鲁姆教育目标分类法,在不同的认知水平上进一步扩展现有样本。
2024-09-24 18:37:53 23
原创 04 面部表情识别:Pytorch实现表情识别-表情数据集训练代码
类别文件 PyTorch-Facial-Expression-Recognition/data/class_name.txt(最后一行,请多回车一行)下载后放在:PyTorch-Facial-Expression-Recognition/classifier/models/pretrained/mobilenet-v2-b0353104, resnet18-5c106cde, resnet34-333f7ec4三个模型的下载。修改配置文件的数据路径:config.yaml。
2024-09-24 18:16:40 194
原创 论文翻译:arxiv-2024.Kaijie Zhu.DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
大型语言模型(LLMs)的评估由于数据污染问题引起了社区的极大关注。现有的工作设计了使用特定任务的明确算法的评估协议,这些协议不易扩展到多样化的场景。此外,当前的评估基准只能提供整体基准结果,不能支持对LLMs能力的细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLMs。MPA设计了探测和判断代理,以自动将原始评估问题根据心理测量学理论转换为新的评估问题,涉及三种基本认知能力:语言理解、问题解决和领域知识。
2024-09-24 14:50:07 40
原创 论文翻译:arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们担心它们庞大的训练语料库中可能存在数据污染。此外,当前基准测试的静态性质和固定复杂度可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,一种用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了基于图的DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂度的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。
2024-09-24 14:41:19 28
原创 论文翻译:arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?
LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,
2024-09-24 13:02:33 30
原创 论文翻译:arxiv-2024.Naman Jain.LiveCodeBench: Holistic and Contamination Free Evaluation of Large
应用于代码相关应用的大型语言模型(LLMs)已经成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLMs的发展,现有的评估基准(例如,HumanEval、MBPP)不再足以评估它们的能力。在这项工作中,我们提出了LiveCodeBench,这是一个全面且无污染的LLMs代码评估方法,它从三个竞技平台(即LeetCode、AtCoder和CodeForces)的比赛活动中随时间收集新问题。
2024-09-24 11:16:07 36
原创 论文翻译:AAAI-2024.Yucheng Li.LatestEval: Addressing Data Contamination in Language Model Evaluation
随着在超大规模自动抓取语料库上预训练的语言模型的出现,评估中的数据污染问题日益严重。这一问题导致了对模型能力和泛化能力的准确评估面临重大挑战。本文提出了LatestEval,一种自动化方法,利用最新文本创建无污染的阅读理解评估。LatestEval通过仅使用在最近时间窗口内发布的文本来避免数据污染,确保与预训练语言模型的训练语料库没有重叠。我们开发了LatestEval自动化流程,1) 收集最新文本;2) 识别关键信息;3) 构建针对这些信息的问题,同时从上下文中移除现有答案。
2024-09-24 11:01:39 47
原创 论文翻译:NeurIPS-2021-CCF-B.Zhiyi M.Dynaboard: An Evaluation-As-A-Service Platform for Holistic
我们介绍了Dynaboard,这是一个评估即服务平台框架,用于托管基准测试并进行全面的模型比较,与Dynabench平台集成。我们的平台直接评估NLP模型,而不是依赖于自行报告的指标或单一数据集上的预测。在这种范式下,模型被提交到云端进行评估,规避了在NLP基准测试中经常遇到的可重复性、可访问性和向后兼容性问题。这允许用户实时与上传的模型互动以评估其质量,并允许收集额外的指标,如内存使用、吞吐量和鲁棒性,这些指标尽管对实践者很重要,但传统上一直未出现在排行榜上。
2024-09-24 10:45:05 27
原创 论文翻译:EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for
随着在大型自动抓取的语料库上预训练的模型的兴起,数据污染已经成为一个普遍且具有挑战性的问题。对于封闭模型来说,训练数据变成了商业机密,即使是开放模型,检测污染也并非易事。诸如带有隐藏答案的排行榜,或者使用保证未被见过的测试数据这类策略,成本高昂,并且随着时间的推移变得脆弱。假设所有相关方都重视干净的测试数据,并愿意合作以减轻数据污染,我们可以做什么?我们提出了三种可以产生影响的策略:(1)公开的测试数据应使用公钥加密,并授权禁止衍生分发;(2)
2024-09-24 10:27:34 75
原创 论文翻译:arxiv-2024.Tanmay Rajore.TRUCE: Private Benchmarking to Prevent Contamination and Improve
基准测试因其速度、可复制性和低成本而成为评估大型语言模型(LLM)的实际标准。然而,最近的研究指出,目前可用的大多数开源基准测试数据集已经被污染或泄露到LLM中,这意味着LLM在预训练和/或微调期间可以访问测试数据。这引发了对迄今为止进行的基准测试研究的有效性以及使用基准测试进行评估的未来严重担忧。为了解决这个问题,我们提出了私密基准测试,这是一种解决方案,其中测试数据集是私密的,并且模型在不向模型透露测试数据的情况下进行评估。
2024-09-24 09:09:01 18
原创 论文翻译:arxiv-2023.Manley Roberts.Data Contamination Through the Lens of Time
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常是通过评估公开可用的基准测试来支持的。由于LLMs在互联网的广泛领域上进行训练,这种做法引发了数据污染的担忧,即在训练数据中明确或隐式包含的示例上进行评估。数据污染出了名的难以衡量和缓解,即使有部分尝试,如对训练数据进行控制实验、使用金丝雀字符串或嵌入相似性,也是如此。在这项工作中,我们通过使用GPT模型训练截止日期的自然实验,首次对LLMs中的数据污染进行了全面的纵向分析,以观察随时间发布的基准测试。
2024-09-23 15:25:33 42
原创 论文翻译:ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators
大型语言模型(LLMs)展示了令人印象深刻的推理能力,然而,关于这些能力以及最近潜在的数据污染问题的争论仍在持续。本文旨在评估LLMs的推理能力,特别是在解决Codeforces中最近的竞赛级编程问题方面,这些问题是由专家精心设计且独特的,需要深入理解和强大的推理技能。我们首先对GPT-4在这项任务上的零样本(zero-shot)表现进行全面评估,考虑了问题发布时间、难度和遇到的错误类型等多个方面。令人惊讶的是,
2024-09-23 14:54:36 36
原创 论文翻译:NeurIPS-2023.Lee A.Platypus: Quick, Cheap, and Powerful Refinement of LLMs
我们介绍了鸭嘴兽(Platypus),这是一个经过微调和合并的大型语言模型(LLM)系列,它在撰写本文时在HuggingFace的开放LLM排行榜上取得了最强性能并名列第一。在这项工作中,我们描述了(1)我们策划的数据集Open-Platypus,这是其他开放数据集的一个子集,我们将其公开发布(2)我们微调和合并LoRA模块的过程,以保留预训练LLMs的强大先验,同时将特定领域知识带到表面==(3)我们在检查训练数据中的测试数据泄露和污染方面的努力==,这可以为未来研究提供信息。
2024-09-23 13:23:12 63
原创 论文翻译:EMNLP-2023.CCF-B.Kent K. Chang.Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
在这项工作中,我们进行了数据考古学研究,通过使用名称填空成员推断查询来推断ChatGPT和GPT-4所知的书籍。我们发现,OpenAI模型已经记住了大量受版权保护的材料,记忆的程度与这些书籍的段落在网络出现的频率有关。这些模型对未知书籍集的记忆能力,使得文化分析的测量有效性评估变得复杂,因为它们污染了测试数据;我们表明,对于下游任务,模型在记忆书籍上的表现远胜于非记忆书籍。我们认为,这支持了开放模型的理由,即其训练数据是已知的。
2024-09-23 11:57:27 45
原创 论文翻译:arxiv-2024.Yucheng L.An Open-Source Data Contamination Report for Large Language Models
随着大型语言模型的日益普及,模型评估中的数据污染问题变得越来越普遍。它允许模型通过记忆而非展示真正的能力来“作弊”。因此,污染分析已成为可靠模型评估的关键部分,以验证结果。然而,现有的污染分析通常由大型语言模型开发商内部进行,并且通常缺乏透明度和完整性。本文提出了一个广泛的数据污染报告,涵盖了六个流行的多项选择QA基准测试中的超过15个流行的大型语言模型。我们还介绍了一个开源流程,使社区能够在定制的数据和模型上进行污染分析。我们的实验揭示了基准测试中污染程度从1%到45%不等,并且污染程度随时间迅速增加。
2024-09-23 11:34:44 42
原创 论文翻译:NAACL-2024.CCF-B.Chunyuan Deng.Investigating Data Contamination in Modern Benchmarks for Large
最近的观察强调了膨胀的基准测试分数与LLMs的实际性能之间的差距,引发了对评估基准可能受到污染的担忧。这个问题对于闭源模型和某些开源模型尤其关键,这些模型缺乏训练数据透明度。在本文中,我们通过提出两种方法来研究数据污染,这些方法既适用于开源也适用于专有LLMs。我们首先引入了一个基于检索的系统,探索评估基准和预训练语料库之间的潜在重叠。我们进一步提出了一种名为测试集槽位猜测(TS-Guessing)的新调查协议,适用于开源和专有模型。这种方法包括在多项选择问题中遮蔽一个错误答案,并提示模型填补空白。
2024-09-22 15:04:56 128
原创 论文翻译:arxiv-2024.Ranaldi F.Investigating the Impact of Data Contamination of Large Language Models in
理解文本描述以生成代码似乎是指令遵循型大型语言模型(LLMs)在零样本场景下实现的能力。然而,存在一个严重的可能性,即这种翻译能力可能受到看到目标文本描述和相关代码的影响。这种效应被称为数据污染。在这项研究中,我们调查了数据污染对GPT3.5在文本到SQL代码生成任务中性能的影响。因此,我们引入了一种新的方法来检测GPT中的数据污染,并使用已知的Spider数据集和我们的新不熟悉的数据集Termite来检查GPT-3.5的文本到SQL性能。
2024-09-22 11:40:57 113
原创 论文翻译:AAAI-2024.Li C.CCF-A.Task Contamination: Language Models May Not Be Few-Shot Anymore
大型语言模型(LLM)在各种零样本和少量样本任务中表现出令人印象深刻的性能。然而,它们在零样本或少量样本设置中的成功可能会受到任务污染的影响,这是一个尚未得到充分检验的潜在限制。本文调查了LLM在零样本和少量样本性能如何随着时间的推移而变化,以及随着时间的推移而发布的数据集和LLM的变化。利用GPT-3系列模型和其他几个最近开源的LLM,控制数据集难度,我们发现在LLM训练数据创建日期之前发布的数据集的表现比在LLM训练数据创建日期之后发布的数据集要好得多。
2024-09-22 11:11:38 330
原创 2024-9-18 大语言模型问题 美团王兴:745万骑手获800亿报酬,人均多少问题
我就产生了个问题,745万骑手获800亿报酬,人均多少钱。我就把这个问题输入到各个大模型,结果答案不一致,并且差异还挺大的。
2024-09-18 12:11:15 265
原创 论文翻译 ACL-2023.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood
成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。
2024-09-16 23:02:40 1082
原创 论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need
Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题:基准测试并非你所需的全部摘要:大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的
2024-09-14 07:23:23 1088
原创 论文翻译:ACL-2024.Zeng Y.CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。
2024-09-12 16:50:41 515
原创 论文翻译:ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient
大型语言模型(LLMs)面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而,这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中,我们提出了GradSafe,它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察:越狱提示与遵从性回应(如“当然”)配对时,LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下,安全提示导致不同的梯度模式。
2024-09-12 12:58:11 546
原创 论文翻译:IEEE-2023 Analyzing leakage of personally identifiable information in language models
语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。
2024-09-12 10:18:14 841
原创 论文翻译:USENIX-2021 Extracting Training Data from Large Language Models
现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。
2024-09-12 09:50:47 1226
原创 论文翻译:arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
随着大型语言模型(LLMs)的快速发展,出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险,以便负责任地部署LLMs。在这项工作中,我们收集了第一个开源数据集,用于评估LLMs中的安全保障,并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选,只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释,我们继续训练了几个类似BERT的分类器,并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。
2024-09-11 15:03:29 614
原创 论文翻译:ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications
大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响,例如,提示注入(PI)攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止,人们一直假设是用户直接提示LLM。但是,如果不是用户提示呢?我们认为,集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,使对手能够在没有直接界面的情况下远程利用集成了LLM的应用,通过策略性地将提示注入到可能被检索的数据中。
2024-09-11 12:05:58 1036
原创 论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models
基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。
2024-09-11 11:12:57 1215
原创 论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization
对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。
2024-09-11 11:02:31 600
原创 论文翻译:arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。
2024-09-07 21:06:22 621
原创 论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。
2024-09-07 21:03:49 577
原创 论文翻译:arxiv-2024.Shahriar Golchin.Data Contamination Quiz: A Tool to Detect and Estimate
我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。
2024-09-07 20:57:22 634
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
基于深度学习的行为检测方法综述_高陈强.caj
2020-12-25
机器人抓取检测技术的研究现状_刘亚欣.caj
2020-12-11
Real-Time Grasp Detection Using Convolutional Neural Networks
2020-12-10
苹果采摘机器人末端执行器无损主动抓取技术研究
2020-11-24
基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊
2020-11-22
室内环境下移动机械臂的目标抓取技术.caj
2020-11-20
智能工业机器人的环境感知与运动规划.caj
2020-11-19
_移动机器人SLAM与路径规划方法研究.caj
2020-11-16
基于ROS视觉定位的机器人智能抓取系统研究_王海玲
2020-11-06
SLAM第四讲作业及资料.zip
2020-06-16
第四讲:相机模型与非线性优化.pptx
2020-06-16
SLAM第三讲作业资料.zip
2020-06-10
mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型
2024-09-24
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
rfb-face-mask.pth
2023-08-09
latest-model-099-94.7200.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人