论文翻译
文章平均质量分 93
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文翻译:ACL-2024 CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。原创 2024-09-12 16:50:41 · 301 阅读 · 0 评论 -
论文翻译:ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient
大型语言模型(LLMs)面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而,这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中,我们提出了GradSafe,它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察:越狱提示与遵从性回应(如“当然”)配对时,LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下,安全提示导致不同的梯度模式。原创 2024-09-12 12:58:11 · 386 阅读 · 0 评论 -
论文翻译:IEEE-2023 Analyzing leakage of personally identifiable information in language models
语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。原创 2024-09-12 10:18:14 · 735 阅读 · 0 评论 -
论文翻译:USENIX-2021 Extracting Training Data from Large Language Models
现在,发布在私有数据集上训练的大型(数十亿参数)语言模型已经变得很常见。本文展示了在这种设置中,攻击者可以通过查询语言模型来恢复个别训练样本,从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击,GPT-2是一个在公共互联网抓取的数据上训练的语言模型,我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括(公共)个人身份信息(姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中,我们的攻击也是可能的。原创 2024-09-12 09:50:47 · 903 阅读 · 0 评论 -
论文翻译:arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
随着大型语言模型(LLMs)的快速发展,出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险,以便负责任地部署LLMs。在这项工作中,我们收集了第一个开源数据集,用于评估LLMs中的安全保障,并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选,只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释,我们继续训练了几个类似BERT的分类器,并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。原创 2024-09-11 15:03:29 · 513 阅读 · 0 评论 -
论文翻译:ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications
大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响,例如,提示注入(PI)攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止,人们一直假设是用户直接提示LLM。但是,如果不是用户提示呢?我们认为,集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,使对手能够在没有直接界面的情况下远程利用集成了LLM的应用,通过策略性地将提示注入到可能被检索的数据中。原创 2024-09-11 12:05:58 · 1014 阅读 · 0 评论 -
论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models
基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。原创 2024-09-11 11:12:57 · 986 阅读 · 0 评论 -
论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization
对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。原创 2024-09-11 11:02:31 · 585 阅读 · 0 评论 -
论文翻译:arxiv-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation for
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包括测试数据,导致LLMs更容易受到数据污染。然而,由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染,通过识别LLM输出分布的峰值度。原创 2024-09-07 11:17:38 · 689 阅读 · 0 评论 -
论文翻译:arxiv-2024 Evading Data Contamination Detection for Language Models is (too) Easy
大型语言模型(LLMs)广泛存在,它们在基准测试中的表现经常指导用户偏好一个模型而不是另一个。然而,这些模型训练所用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽略了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种情况至关重要,因为它对公共基准测试用于LLM评估的可靠性产生了怀疑。为了更严格地研究这个问题,我们提出了模型提供者和数据污染检测方法的分类。原创 2024-09-07 15:05:30 · 483 阅读 · 0 评论 -
论文翻译:arxiv-2024 DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math
大型语言模型(LLM)的进步依赖于使用公共基准进行评估,但数据污染可能导致性能被高估。以往的研究集中在通过确定模型在训练期间是否见过完全相同的数据来检测污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会在分布内任务上提高性能,而不会提高整体能力,我们称之为分布内污染。为了有效检测分布内污染,我们提出了DICE,这是一种新方法,它利用LLM的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层,然后基于该层的内部状态训练分类器。原创 2024-09-07 15:36:57 · 739 阅读 · 0 评论 -
论文翻译:ACL-2022 Data Contamination: From Memorization to Exploitation
预训练语言模型通常在基于网络的大规模数据集上进行训练,这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型,并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能,使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明,在某些情况下存在利用,但在其他情况下,模型记忆了污染数据,但没有利用它。原创 2024-09-07 15:50:55 · 872 阅读 · 0 评论 -
论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers
在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。原创 2024-09-07 16:13:13 · 881 阅读 · 0 评论 -
论文翻译:arxiv-2024 Data Contamination Calibration for Black-box LLMs
大型语言模型(LLMs)的快速发展与训练数据规模的扩大密切相关。然而,未经检查的超大规模训练集引入了一系列潜在风险,如数据污染,即基准测试数据被用于训练。在这项工作中,我们提出了一种名为极化增强校准(PAC)的整体方法,以及一个名为StackMIA的全新数据集,以帮助检测污染数据并减少污染影响。PAC扩展了机器学习社区流行的MIA(成员推断攻击)——通过形成一个更全局的目标来检测训练数据,以澄清看不见的训练数据。原创 2024-09-07 18:05:53 · 829 阅读 · 0 评论 -
论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models
公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。原创 2024-09-07 18:41:10 · 562 阅读 · 0 评论 -
论文翻译:arxiv-2024 Benchmarking Benchmark Leakage in Large Language Models
随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。原创 2024-09-07 19:19:24 · 1150 阅读 · 0 评论 -
论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey
然而,当前还没有一项全面的、系统性的研究来深入讨论和定义这一问题。尽管有些研究认为这种现象是有益的 [12],或不将其视为问题 [16],但学术界的大多数研究认为,BDC对LLM评估的可靠性和有效性构成了重大挑战,削弱了对其输出的信任,阻碍了其在现实中的应用 [69, 83, 98, 119, 126, 178]。一些有前途的方案被提出,例如通过使用LLM重新生成基准数据 [158, 180, 181],以减少BDC的影响,以及基准无关评估 [24, 87, 166],试图避免完全依赖预定义的基准。原创 2024-09-07 19:32:52 · 974 阅读 · 0 评论 -
论文翻译:ACL-2024 S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model
大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,这是一个综合、可扩展、系统的LLMs评估套件。S3EVAL的合成特性为用户提供了对数据集的完全控制,允许他们。原创 2024-09-07 19:43:05 · 459 阅读 · 0 评论 -
论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS
大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的。原创 2024-09-07 20:11:05 · 1257 阅读 · 0 评论 -
论文翻译:ICLR-2024 TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS
数据污染,即在大型语言模型(LLMs)的训练数据中存在下游任务的测试数据,是衡量LLMs在其他任务上真实有效性的潜在重大问题。我们提出了一种简单但有效的识别LLMs中数据污染的方法。我们的方法核心是从实例级别开始识别潜在污染;利用这些信息,我们的方法接着在分区级别评估更广泛的污染。为了估计单个实例的污染,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和参考实例的随机长度初始片段,要求LLM完成它。如果LLM的输出与参考的后半部分完全或几乎匹配,则将该实例标记为污染。为了理解整个分区是否受到污染。原创 2024-09-07 20:27:26 · 897 阅读 · 0 评论 -
论文翻译:ICLR-2024 DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们对于其庞大的训练语料库中潜在的数据污染问题表示担忧。此外,当前基准测试的静态性质和固定复杂性可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,这是一个用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了图信息DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂性的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。原创 2024-09-07 20:37:15 · 609 阅读 · 0 评论 -
论文翻译:arxiv-2024 Compression Represents Intelligence Linearly
有一种观点认为,学会压缩将导致智能(Hutter, 2006)。最近,语言建模已被证明等同于压缩,这为大型语言模型(LLMs)的成功提供了一个有说服力的理由:更先进的语言模型的发展本质上是增强压缩,从而促进智能。尽管有这样吸引人的讨论,但关于压缩和智能之间相互作用的经验证据很少。在这项工作中,我们在LLMs的背景下检验它们的关系,将LLMs视为数据压缩器。鉴于“智能”的抽象概念,我们采用平均下游基准分数作为替代指标,特别针对与知识和常识、编码和数学推理相关的智能。原创 2024-09-07 20:49:11 · 615 阅读 · 0 评论 -
论文翻译:arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large
我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。原创 2024-09-07 20:57:22 · 611 阅读 · 0 评论 -
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。原创 2024-09-07 21:03:49 · 549 阅读 · 0 评论 -
论文翻译:arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language
大型语言模型(LLMs)的自动评估方法受到数据污染的阻碍,导致对它们有效性的评估过高。现有的策略,旨在检测污染文本,专注于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,一个知识基础的交互式评估框架,首次引入了一个由LLM驱动的“交互者”角色,以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始,KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆,还是展示了在更复杂对话中应用知识的深层理解。原创 2024-09-07 21:06:22 · 586 阅读 · 0 评论 -
论文翻译:arxiv-2024 Investigating Data Contamination for Pre-training Language Models
在网络规模的语料库上预训练的语言模型在多种下游任务上展示了令人印象深刻的能力。然而,人们越来越担心这些能力是否可能源于评估数据集包含在预训练语料库中——这种现象被称为数据污染——以一种人为提高性能的方式。目前对于这种潜在污染如何影响语言模型在下游任务上的性能还知之甚少。在本文中,我们通过从头开始预训练一系列GPT-2模型,探索了预训练阶段数据污染的影响。我们强调了评估数据的文本污染(即评估样本的输入文本)和真实污染(即对输入的提示和期望输出)的影响。我们还研究了对各种下游任务重复污染的效果。原创 2024-09-07 11:12:41 · 905 阅读 · 0 评论 -
论文翻译:arxiv-2024 Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language
大型语言模型(LLMs)的预训练数据检测问题因其在版权侵犯和测试数据污染等关键问题上的影响而受到越来越多的关注。尽管性能有所提高,但现有的方法(包括最先进的Min-K%)大多基于简单的启发式规则,缺乏坚实的、合理的基础。在这项工作中,我们提出了一种新的、理论上有动机的预训练数据检测方法,名为Min-K%++。具体来说,我们提出了一个关键见解:通过最大似然训练,训练样本倾向于成为模型分布沿每个输入维度的局部最大值,这反过来使我们能够将问题有洞察力地转化为局部最大值的识别。原创 2024-09-07 10:55:03 · 459 阅读 · 0 评论 -
论文翻译:ICML-2023 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
大型语言模型(LLMs)能够存储大量的世界知识,通常可以通过问答(例如,“亚伯拉罕·林肯的生日是什么时候?”)来提取。然而,它们回答这类问题是基于在训练期间接触到类似问题(即,作弊),还是通过真正学习从像维基百科这样的来源提取知识?在本文中,我们使用一个受控的传记数据集来调查这个问题。我们发现模型提取知识的能力与训练数据的各种多样性度量之间存在强烈的相关性。本质上,为了可靠地提取知识,它必须在预训练期间得到充分的增强(例如,通过改写、句子洗牌)。原创 2024-09-07 10:32:31 · 697 阅读 · 0 评论 -
论文翻译:arXiv-2023 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
大型语言模型越来越多地在人类产生的所有数据上进行训练。由于预训练或微调数据集中的潜在污染,许多人对公共基准测试的可信度提出了担忧。虽然大多数数据去污染工作应用字符串匹配(例如,n-gram重叠)来删除基准测试数据,但我们表明这些方法是不够的,简单的测试数据变化(例如,释义,翻译)可以轻易绕过这些去污染措施。此外,我们证明如果这种测试数据的变化没有消除,一个13B模型可以轻易地过度拟合一个测试基准,并实现与GPT-4相当的极高性能。原创 2024-09-07 09:32:29 · 652 阅读 · 0 评论 -
论文翻译:ACL-2024 Unveiling the Spectrum of Data Contamination in Language Models: A Survey from
电脑在大型语言模型(LLMs)的时代,由于依赖于广泛的互联网衍生的训练语料库,数据污染问题引起了越来越多的关注。训练语料库与评估基准的重叠问题——被称为污染——已成为近期重要研究的焦点。这些工作旨在识别污染,理解其影响,并从不同角度探索缓解策略。然而,在这个新兴领域,缺乏从基础概念到高级洞察的清晰路径的全面研究。因此,我们提供了一个关于数据污染领域的全面综述,概述了关键问题、方法和迄今为止的发现,并强调了需要进一步研究和发展的领域。特别是,我们首先检查了数据污染在不同阶段和形式的影响。原创 2024-09-07 00:07:03 · 75 阅读 · 0 评论 -
论文翻译:An Evaluation System for Large Language Models based on Open-Ended Questions
我们设计了一个基于开放式问题的大语言模型评估系统。该系统使用开放式问题对大型语言模型(LLMs)进行了多维度评估,并以评估报告的形式呈现评估结果。目前,大语言模型的评估通常存在两个显著的限制(1)评估方法往往是单一的,导致结果可信度较低。(2)大多数评估基于封闭式问题数据集,将生成性大型语言模型视为判别性模型,这未能充分反映这些模型的高输出灵活性特点。针对这两个限制,我们提出了一个基于开放式问题的LLMs评估系统。我们在适配的开源数据集上的实验证明了该系统的有效性。原创 2024-09-03 20:25:21 · 665 阅读 · 0 评论 -
论文翻译:Scaling Instruction-Finetuned Language Models
在一系列以指令形式表述的数据集上对语言模型进行微调已被证明可以提高模型性能并推广到未见任务。在本文中,我们探索了指令微调,特别关注(1)扩展任务数量,(2)扩展模型规模,以及(3)在思维链数据上进行微调。我们发现,上述方面的指令微调显著提高了多种模型类别(PaLM、T5、U-PaLM)、提示设置(零次、少次、思维链)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。原创 2024-08-29 12:43:09 · 1044 阅读 · 0 评论 -
论文翻译:ChatGPT as an Educational Tool: Opportunities, Challenges, and Recommendations for Communicatio
本实证研究检验了ChatGPT作为教育和学习工具的作用。它调查了ChatGPT为交流、商务写作和写作课程的学生和教师提供的机遇和挑战。它还努力提供建议。在进行了30个基于理论的和基于应用的ChatGPT测试后,发现ChatGPT有潜力取代搜索引擎,因为它为学生提供了准确和可靠的输入。对于机遇,研究发现ChatGPT为学生提供了一个平台,可以寻求基于理论的问题的答案,并为基于应用的问题产生想法。它还为教师提供了一个平台,可以在课堂中整合技术,并举办研讨会来讨论和评估生成的回应。原创 2024-08-26 21:58:00 · 864 阅读 · 0 评论 -
论文翻译:ChatGPT passing USMLE shines a spotlight on the flaws of medical education
USMLE考试的目标是评估“医生应用知识、概念和原则的能力,并展示在健康和疾病中重要的基本以患者为中心的技能,这些技能构成了安全有效患者护理的基础”[3]。我们还意识到,还有其他重要的特征,如解决问题的能力、熟悉信息资源、强烈的职业道德、尊重患者和整个护理团队、礼貌、热情和谦逊,这些特征使一个人成为优秀的临床医生,而不仅仅是拥有适当的医学知识广度。ChatGPT通过了一项考试,这项考试奖励记忆系统的组成部分,而不是分析它是如何工作的,它是如何失败的,它是如何创建的,它是如何维护的。原创 2024-08-26 09:43:42 · 687 阅读 · 0 评论 -
论文翻译:Shaping the Future of Education: Exploring the Potential and Consequences of AI and ChatGPT in
在过去的十年中,技术进步,尤其是人工智能(AI),显著改变了教育实践。最近,生成预训练变换器(GPT)的发展和采用,特别是OpenAI的ChatGPT,引起了相当大的兴趣。这些模型的前所未有的能力,如生成类似人类的文本和促进自动化对话,在包括教育和健康在内的各个领域都有广泛的影响。尽管它们潜力巨大,但科学界对其广泛使用和不透明性的担忧已经提出。ChatGPT,GPT系列的最新版本,表现出了显著的熟练程度,通过了美国律师资格考试,并在推出后不久就积累了超过一百万的订阅者。原创 2024-08-25 17:16:14 · 1016 阅读 · 0 评论 -
论文翻译:EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on ChatGPT
随着大型语言模型(LLMs)的快速发展,许多下游自然语言处理(NLP)任务在适当的提示下可以得到很好的解决。尽管模型开发者和研究人员努力提高对话安全性,以避免从LLMs生成有害内容,但仍然很难确保人工智能生成的内容(AIGC)用于人类的利益。由于强大的LLMs正在吞噬来自各个领域的现有文本数据(例如,GPT-3是在45TB文本上训练的),很自然地会怀疑训练数据中是否包含了私人信息,以及这些LLMs及其下游应用可能带来哪些隐私威胁。原创 2024-08-23 21:45:14 · 909 阅读 · 0 评论 -
论文翻译:A Survey on In-context Learning
随着大型语言模型(LLMs)能力的增强,上下文学习(ICL)已成为自然语言处理(NLP)的新范式,其中LLMs基于少数示例增强的上下文进行预测。探索ICL以评估和推断LLMs的能力已成为一个显著趋势。在本文中,我们旨在调查和总结ICL的进展和挑战。我们首先提出ICL的正式定义,并阐明其与相关研究的相关性。然后,我们组织和讨论先进技术,包括训练策略、提示设计策略和相关分析。此外,我们探索了ICL的各种应用场景,如数据工程和知识更新。最后,我们讨论了ICL的挑战,并为进一步研究提出潜在方向。原创 2024-08-23 16:21:23 · 589 阅读 · 0 评论 -
论文翻译:Benchmarking Large Language Models in Retrieval-Augmented Generation
检索增强型生成(RAG)是缓解大型语言模型(LLMs)幻觉现象的一种有希望的方法。然而,现有研究缺乏对检索增强型生成对不同大型语言模型影响的严格评估,这使得识别RAG在不同LLMs能力方面的潜在瓶颈变得具有挑战性。在本文中,我们系统地研究了检索增强型生成对大型语言模型的影响。我们分析了不同大型语言模型在RAG所需的4种基本能力中的性能,包括噪声鲁棒性、负面拒绝、信息整合和反事实鲁棒性。为此,我们建立了检索增强型生成基准(RGB),这是一个新的RAG评估语料库,涵盖英语和中文。原创 2024-08-21 17:15:43 · 978 阅读 · 0 评论 -
论文翻译:Are aligned neural networks adversarially aligned?
大型语言模型现在被调整以符合其创造者的目标,即“有帮助且无害”。这些模型应该对用户问题做出有帮助的回应,但拒绝回答可能导致伤害的请求。然而,对抗性用户可以构建输入,绕过对齐尝试。在这项工作中,我们研究了对抗性对齐,并询问这些模型在与构建最坏情况输入(对抗性示例)的对抗性用户交互时,在多大程度上保持对齐。这些输入旨在使模型发出原本被禁止的有害内容。我们展示了现有的基于NLP的优化攻击不足以可靠地攻击对齐的文本模型:即使当前基于NLP的攻击失败,我们也可以暴力找到对抗性输入。原创 2024-08-20 14:52:20 · 680 阅读 · 0 评论 -
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models
因为“即开即用”的大型语言模型能够生成大量令人反感的内容,近期的工作集中在对这些模型进行对齐,以防止不受欢迎的生成。尽管在规避这些措施方面取得了一些成功——即所谓的针对大型语言模型(LLMs)的“越狱”——这些攻击需要大量的人类智慧,并且在实践中很脆弱。自动对抗性提示生成的尝试也取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可以导致对齐的语言模型生成令人反感的行为。原创 2024-08-18 11:19:14 · 454 阅读 · 0 评论