迈向稳健安全的具身人工智能：关于漏洞与攻击的综述（下）

最新推荐文章于 2025-12-19 00:15:00 发布

原创最新推荐文章于 2025-12-19 00:15:00 发布 · 704 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#安全 #人工智能 #机器学习 #深度学习 #机器人 #语言模型

大模型同时被 3 个专栏收录

1001 篇文章

订阅专栏

智能体

788 篇文章

订阅专栏

计算机视觉

729 篇文章

订阅专栏

25年11月来自浙大、黑龙江大学和贵州大学的论文“Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks”。

具身人工智能系统，包括机器人和自动驾驶汽车，正日益融入现实世界的应用，并面临着一系列源于环境和系统层面的漏洞。这些漏洞表现为传感器欺骗、对抗性攻击以及任务和运动规划失败，对系统的鲁棒性和安全性构成重大挑战。尽管相关研究日益增多，但现有综述很少专门关注具身人工智能系统特有的安全挑战。以往的研究大多要么着眼于通用人工智能漏洞，要么侧重于孤立的方面，缺乏专门针对具身人工智能的统一框架。本综述填补这一关键空白，具体体现在：(1) 将具身人工智能特有的漏洞分为外源性（例如，物理攻击、网络安全威胁）和内源性（例如，传感器故障、软件缺陷）两类；(2) 系统地分析具身人工智能特有的对抗性攻击范式，重点关注其对感知、决策和具身交互的影响；（3）研究针对具身系统中大型视觉语言模型（LVLM）和大语言模型（LLM）的攻击向量，例如越狱攻击和指令误译；（4）评估具身感知、决策和任务规划算法的鲁棒性挑战；以及（5）提出有针对性的策略来增强具身人工智能系统的安全性和可靠性。整合这些维度，其提供一个全面的框架，用于理解具身人工智能中漏洞与安全性之间的相互作用。
请添加图片描述

。。。。。。继续。。。。。。

LLM和LVLM的对抗攻击

LLM和LVLM在自然语言处理和多模态任务中展现了卓越的能力。然而，它们极易受到越狱攻击——攻击者通过操纵模型生成有害或不道德的输出——这仍然是一个关键问题。本文系统地将这些攻击分为白盒攻击和黑盒攻击。白盒攻击包括基于Logits的方法和基于微调的方法，而黑盒攻击则侧重于对抗性提示生成，涵盖诸如基于前缀/后缀的攻击、提示重写、模板补全、LLM生成的攻击、文本嵌入优化以及基于检索增强生成（RAG）的越狱等技术。此外，还探讨跨模态攻击、攻击可转移性、评估策略和安全缓解技术。

基于Logits 的攻击

基于Logits的攻击主要针对解码过程，通过影响token选择来生成有害或误导性内容。这些方法通过迭代调整Logits，使token分布与攻击者的目标保持一致，从而有效地控制模型的输出。虽然这些方法非常有效，但通常会损害生成文本的自然性和连贯性。近期的方法包括：
COLD-Attack：基于能量的约束解码：Guo [84]提出COLD-Attack，这是一个受控文本生成框架，可以自动生成并优化越狱提示。COLD-Attack对ChatGPT、Llama-2和Mistral等模型表现出很高的成功率。

– 基于Logits的水印：Wong[231]提出一种基于Logits的扰动方法，用于对LLM生成的文本进行水印处理，从而增强检测的鲁棒性和文本质量。然而，它仍然容易受到操纵logits以移除或更改水印的攻击，从而导致未经授权的内容使用。

– VT攻击：Wang[222]提出VT攻击，该攻击针对LVLM中编码的视觉token，以创建对抗样本。这会导致视觉感知出现误解，从而产生错误或有害的输出，暴露LVLM视觉组件中的漏洞。

基于微调的攻击

基于微调的攻击是指使用恶意或精心构造的数据集重新训练目标模型，从而增加其对对抗性输入的敏感性。近期进展包括：

– 最小微调：Qie [168]证明，使用少量有害样本对 LLM 进行微调会显著降低其安全性。值得注意的是，即使是主要由良性样本组成的数据集，也可能在微调过程中无意中降低模型的安全性。

– 基于 Oracle 的微调：Yang [240]提出通过查询带有恶意提示的 Oracle LLM 来构建微调数据集。在这些数据集上进行微调的模型更容易受到越狱攻击。

对抗性提示生成

对抗性提示生成的关键技术分类，包括基于前缀/后缀的攻击、提示重写、模板补全、LLM 生成的攻击、嵌入细化以及基于 RAG 的越狱，主要是方法论和安全隐患。

– 基于前缀/后缀的攻击：前缀/后缀攻击利用梯度生成对抗性前缀或后缀，引导模型输出有害信息。这些攻击类似于文本生成任务中的对抗样本。
贪婪协调梯度 (GCG)：Zou [267] 提出 GCG，这是一种基于梯度的越狱攻击，它通过计算前 k 个基于梯度的替换、随机采样token并用最佳替换进行更新，迭代地优化离散的对抗性后缀。GCG 可以有效地迁移到 ChatGPT、Bard 和 Claude 等黑盒模型。
对抗性后缀嵌入翻译框架 (ASETF)：Wang [214] 提出 ASETF，该框架优化嵌入空间中的连续对抗性后缀，并通过嵌入相似度将其翻译成人类可读的形式。
AutoDAN：Zhu [265] 提出 AutoDAN，一种可解释的基于梯度的越狱攻击。AutoDAN 使用单个token优化 (STO) 算法，顺序生成语义有意义的对抗性后缀，这些后缀能够绕过基于困惑度的过滤器。
基于梯度的前缀/后缀攻击揭示操纵模型输入以触发特定响应的复杂性，但通常会生成不自然的文本。针对此类高复杂度输入的防御措施可以减轻其影响。

– 提示重写攻击：提示重写攻击涉及修改提示，以利用模型在代表性不足的场景中的漏洞。这些方法包括加密策略、语言策略和遗传策略。
加密策略：Yuan [246] 提出 CipherChat，它使用加密提示来绕过内容审核。
语言策略：Deng [53] 和 Yong [243] 证明，将不安全的提示翻译成低资源语言可以有效地绕过LLM的安全机制，从而暴露跨语言漏洞。
遗传策略：Liu [127] 开发 AutoDAN，一种用于生成隐蔽越狱提示的分层遗传算法。

– 用于敏感词替换的启发式文本搜索：Surrogate Prompt [10] 利用基于人类感知的过滤器和基于大规模数据训练的模型之间的认知差距，利用文本-到-图像模型（例如 Midjourney）中的漏洞。类似地，Gao [11] 开发一种基于文本的提示，用于在文本中输入敏感词。 [70] 使用启发式搜索和随机变异来生成对抗性提示，方法是移除敏感关键词。

– 模板补全攻击：模板补全攻击是指设计复杂的模板，利用模型固有的能力（例如角色扮演、上下文理解和代码执行）来绕过其安全机制。
场景嵌套：攻击者通过将恶意意图嵌入看似无害的上下文中，精心设计欺骗性场景，操纵模型执行受限操作。Lin [120] 提出基于分析的越狱 (ABJ) 方法，该方法利用LLM复杂的推理能力来发现其弱点。Li [113] 提出 Deep Inception，利用 LLM 的拟人化能力创建虚拟。
上下文学习：对抗性输入无缝嵌入上下文中，影响模型生成非预期或有害的输出。Wei [225] 提出一种基于上下文的攻击方法，该方法利用上下文信息来改变语言模型的行为。 Deng [51] 探索检索增强生成 (RAG) 场景中的间接越狱方法，其中外部知识源与 GPT 等LLM 集成。此外，Li [108] 提出多步骤越狱提示 (MJP)，用于研究从 ChatGPT 等模型中提取个人身份信息 (PII)。
代码注入：引入恶意代码片段来利用模型的编程和执行能力，从而导致有害输出或意外行为。Kang [100] 和 Lv [135] 利用编程语言特性开发针对LLM的定制越狱指令。

– LLM生成的攻击：LLM生成的攻击利用LLM的生成能力来模拟攻击者，从而实现对抗性提示的自动高效生成。这些方法利用模型自身的优势来改进和优化攻击策略。
说服性对抗性提示（PAP）：Zeng[250]通过整合说服技巧的分类，训练LLM生成说服性对抗性提示，从而提高了攻击的有效性。
提示自动迭代改进（PAIR）：Chao[37]提出PAIR，这是一个协作框架，其中多个LLM迭代地改进越狱提示，通过协同优化获得更高的成功率。Dong[60]提出一个多智体系统，其中变异智体生成对抗性提示，选择智体评估并改进这些提示。该系统利用上下文学习和链式推理，通过从成功和失败中学习来迭代改进。

– 文本嵌入精化技术：Ma [136]通过计算反义词嵌入之间的差异来生成对抗性概念嵌入。通过将这些嵌入添加到原始提示嵌入中，生成包含NSFW概念的新嵌入，从而有效地绕过模型的安全机制来生成有害内容。

– 基于检索增强生成（RAG）的越狱：PANDORA[51]提出一种利用RAG对LLM的间接攻击。它通过使用精心制作的内容污染外部知识库，操纵RAG过程，从而实现比直接方法更高的越狱成功率。

攻击可迁移性

攻击可迁移性是大语言模型 (LLM) 和大型视觉语言模型 (LVLM) 对抗研究中的一个关键问题。本文探讨模型间攻击可迁移性的不同方面：
– LVLM 间的攻击可迁移性：Rylan [182] 证明，基于梯度的通用图像越狱攻击在不同的 LVLM 间具有有限的可迁移性。然而，在两种情况下观察到部分可迁移性：(1) 在同一数据集上训练且具有相似初始化的 LVLM 之间；(2) 在同一 VLM 的不同训练检查点之间。值得注意的是，针对更广泛的“高度相似”的 LVLM 集可以显著提高对特定目标模型的可迁移性。影响可迁移性的关键因素包括共享的视觉主干和语言组件。Chung [42] 提出一种针对自动驾驶域视觉 LLM 的排版（typographic）攻击框架。他们的方法会生成误导性答案，干扰推理，这表明攻击在 LLaVA、Qwen-VL、VILA 和 Imp 等模型之间具有很高的可迁移性，凸显自动驾驶车辆的安全风险。

– 多语言LLM中的跨语言后门攻击：He [87] 研究表明，在一种或两种语言中投毒数据会影响其他语言的输出。他们在 mT5、BLOOM 和 GPT-3.5-turbo 模型上的实验达到超过 95% 的攻击成功率，模型规模越大，越容易受到攻击。

– 基于 LoRa 的攻击的可迁移性：Liu [124] 研究 LLM 中基于 LoRa 的后门攻击，结果表明，即使使用多个 LoRa 模块，后门仍然存在。他们还分析攻击的可迁移性，揭示共享和使用这些自适应模块的安全风险。

评估策略

使用LLM和LVLM评估具身人工智能需要全面的策略，近期研究提出新的框架和基准数据集：

– 大型视觉语言模型的红队框架：Chen[39]提出一种结合视觉和文本越狱提示的红队框架，用于创建多模态攻击。通过引入熵和新颖性奖励，该框架增强测试用例的多样性，并揭示VLM在有害内容生成方面的漏洞。

– 用于VLM评估的多模态基准数据集：为了评估VLM的安全性，Ying[242]利用AdvBench和SafeBench等数据源构建一个多模态基准数据集。数据经过清洗，并按安全策略（例如，暴力、色情内容）进行分类，然后与通过LLM攻击方法生成的对抗性提示配对。文本提示与空白图像、噪声图像或自然图像相结合，创建文本-图像攻击案例，从而形成一个全面的多模态评估数据集。

– LVLM能力评估：Saito[33]提出一种基于LLM的红队框架，用于评估LVLM的安全性。 [86] 研究LVLM在生成图像评论文本（除图像描述外）方面的能力，并评估图像的构图和曝光度。他们提出一种基于等级相关性的评估方法，比较人类和LVLM的评分，并引入一个基准数据集，结果表明某些模型能够有效地区分评论质量。

– 基于模型的评估方法：Zhang[254]提出TALEC，它利用上下文学习为特定领域定制评价标准。TALEC通过整合零样本学习和少样本学习，增强对相关信息的关注，在某些任务中与人类判断的相关性超过80%。

安全缓解

确保基于LLM和LVLM的具身人工智能的安全性至关重要，近期研究提出多种缓解策略：

– 防御性训练和模型优化：
遗忘多模态模型中的不安全内容：为了增强LVLM的安全性，研究探索遗忘文本和多模态领域中有害内容的方法。通过使用梯度上升法增加有害样本生成的损失，并使用梯度下降法减少良性样本生成的损失，该模型可以有效地遗忘有害内容。在跨模态安全对齐研究中发现，仅在文本域中遗忘有害内容就能显著降低LVLM的攻击成功率。然而，多模态遗忘并不能带来额外的优势，反而需要更多的计算资源。这凸显了文本域安全优化在提升低通量线性模型安全性方面的重要性。
上下文防御（ICD）[224] 通过展示拒绝有害输入的示例来提高模型的鲁棒性。该方法利用LLM的上下文学习（ICL）能力来指导模型学习适当的拒绝行为。

– 内容过滤和检测：
OpenAI Moderation Endpoint API [159] 是由 OpenAI 开发的内容审核系统。它使用多标签分类方法将响应分配到 13 个不同的类别中。任何被识别到这些类别中的响应都会被标记为违反 OpenAI 的政策指南 [160]。
困惑度过滤器 (PPL) [93] 旨在通过设置困惑度阈值来检测不连贯的攻击提示。它利用另一个语言模型来评估整个提示或其片段的困惑度，并丢弃超过阈值的提示。

– 输入扰动和预测聚合：
SmoothLLM [260] 采用两步流程：首先，生成输入提示的扰动版本；其次，聚合这些变体的预测结果，以生成综合结果。

挑战和未来。

AI核心算法

大型视觉语言模型。由大型视觉语言模型（LVLM）驱动的具身AI系统正在革新机器人技术，使机器能够视觉感知、理解环境并与之交互。这些模型通过先进的多模态集成和推理增强了上下文感知能力并提高了任务执行效率。

诸如CLIP、BLIP-2和GPT-4 Vision之类的LVLM在需要连贯的视觉语言推理的任务中表现出色，而OFA和PaLI等模型则通过在统一框架内处理各种视觉语言任务而提供多功能性。实时应用受益于诸如mPLUG和LLaVA之类的低延迟模型，这些模型针对动态环境进行优化。诸如Claude 3 Vision和PaLM-E之类的闭源模型也优先考虑伦理考量，它们专注于安全性和对齐性。此外，诸如BLIP和Flamingo之类的鲁棒模型能够有效处理噪声或不完整的数据，从而确保在实际场景中的可靠性。

LMM通过处理和推理多种数据模态（包括图像、文本和多语言内容）进一步扩展这些能力。例如，Wang [216] 提出一种基于 GPT-4V 的框架，该框架将自然语言指令与机器人视觉感知相结合，生成详细的、与现实世界相符的动作计划，并在多个机器人数据集上进行验证。类似地，ViLA [81] 利用 GPT-4V 实现闭环自适应，根据视觉反馈动态优化动作规划，从而有效应对环境变化并执行长期任务。MultiPLY [88] 基于 LLaVA [123]，采用以目标为中心的方法，使用动作tokens（例如，导航、拾取）和状态 tokens（例如，触觉反馈、点云数据）来引导具身智能体与其周围环境进行交互。通过在抽象推理和详细的多模态观察之间无缝切换，MultiPLY 展示其在各种交互场景中的通用性。

尽管这些进展凸显大型语言模型（LVLM）和大型多模态模型（LMM）在实现稳健、自适应和上下文觉察的具身人工智能方面的变革潜力，但挑战依然存在。LVLM虽然在图像描述、视觉问答（VQA）和多模态推理等任务中表现出色，但在实际应用中仍存在局限性。这些局限性包括一些会影响性能、安全性和可靠性的故障模式，尤其是在动态和复杂的环境中。解决这些局限性对于充分发挥具身人工智能系统的潜力至关重要。

大语言模型（LLM）已成为现代人工智能的基石，在机器翻译、摘要、问答和内容生成等各种自然语言处理任务中表现卓越[21, 57, 158, 163, 170, 183, 227]。它们与具身人工智能系统的集成，使得智体能够与物理世界交互，进一步拓展了它们的作用，LLM通常作为认知核心发挥作用。在此过程中，LLM能够处理多模态输入——例如语言指令、视觉数据和传感器读数——并生成符合上下文的响应或动作，从而引导智体的行为。然而，尽管LLM功能强大，但在具身系统中部署LLM仍面临诸多挑战。其中一个尤为紧迫的问题是它们易受对抗性攻击，包括黑盒攻击。在黑盒攻击中，攻击者无需直接访问模型的内部参数即可操纵系统的行为。此类攻击利用了LLM固有的弱点，例如易受对抗性提示的影响，或依赖于不完整或有偏差的训练数据。这些弱点凸显开展相关研究的迫切性，旨在提升LLM驱动的具身系统的安全性、鲁棒性和可靠性，尤其是在这些系统越来越多地与复杂多变的现实世界环境交互的情况下。

常见失效模式

LLM和LVLM存在一些重叠的失效模式，同时它们各自处理的特定模态也带来了独特的挑战。重点是两种模型共有的失效模式，理解其更广泛的局限性和脆弱性奠定基础。

对抗性脆弱性。LLM 和 LVLM 都容易受到对抗性攻击，但具体情况因模态而异。LLM 尤其容易受到对抗性提示的影响，精心设计的恶意或模糊输入可以引发有害、误导性或不安全的输出。类似地，LVLM 在视觉和文本领域都面临对抗性威胁；输入图像或文本中微小的、通常难以察觉的扰动都可能导致重大错误，例如对象分类错误或生成不准确的描述。两者的共同挑战在于它们都容易受到对抗性操纵，这会损害它们的性能，并可能导致在具身人工智能系统中部署时出现不安全或错误的行为。

偏见与公平性问题。LLM和LVLM都容易受到训练数据中固有偏见的影响，这些偏见会以多种方式表现出来，并导致不公平或有害的结果。例如，LLM在人机交互中可能会表现出偏见，例如不公平地优先处理某些任务或误解文化细微差别，这会阻碍有效的沟通或协作。同样，LVLM也常常反映出训练数据集中存在的偏见，导致在图像描述或多模态推理等任务中输出结果出现偏差。这两个模型面临的共同挑战是它们倾向于延续这些偏见，这在多元化或敏感的环境中尤其成问题，因为在这些环境中，公平性和包容性至关重要。

对分布变化的鲁棒性。LLM和LVLM在泛化到与训练数据不同的环境或输入时都面临着重大挑战，这可能导致模型失效和不安全的行为。对于LLM而言，这通常表现为难以处理陌生环境或特定领域的语言，导致指令误解或决策失误。同样，LVLM在动态或多样化的现实世界环境中难以有效泛化，因为输入数据可能与训练数据存在显著偏差。这些模型的共同局限在于它们对训练数据的依赖性，这限制它们适应新的或不可预测场景的能力，最终影响其在实际应用中的可靠性和安全性。

模糊性和不确定性。LLM 和 LVLM 在处理模糊性和不确定性方面都存在显著局限性，常常导致输出过于自信，从而危及具身系统的安全性和可靠性。LLM 经常对模糊或模棱两可的指令做出过于自信的响应，这可能导致不安全或意外的行为，尤其是在高风险场景中。同样，LVLM也难以处理不完整或模糊的输入，即使视觉或文本数据缺乏清晰度或上下文，它们也会做出置信度很高的预测。这些模型面临的共同挑战是无法有效地表达或量化不确定性，而这对于确保实际应用中的安全和谨慎行为至关重要。这种过度自信会加剧出错的风险，尤其是在模糊性普遍存在或不可避免的环境中。

缺乏可解释性。LLM和LVLM共同面临的一个重大挑战是缺乏可解释性，这在医疗保健、自主系统或机器人等安全关键型应用中构成严重风险。LLM 就像“黑箱”，难以追踪或理解其输出背后的逻辑，这使得错误诊断和调试变得复杂。当这些系统被赋予直接影响人类安全或福祉的决策任务时，这种不透明性就显得尤为突出。同样，LLM 在决策过程中也缺乏透明度，使得解释其预测或识别故障的根本原因变得困难。两种模型共同缺乏可解释性，这削弱了信任、问责制以及提升性能的能力，尤其是在敏感或高风险环境中，理解系统行为对于确保可靠性和安全性至关重要。

可扩展性和计算限制。LLM 和 LVLM 都面临着巨大的挑战，因为它们对计算资源的需求很高，这影响了它们在实际应用中的可扩展性和实时性能。LLM 需要大量的计算资源，在资源受限的实时环境中运行时，通常会导致延迟甚至故障。同样，LVLM 也面临可扩展性问题，因为其大规模架构使其难以部署在处理能力有限的设备或需要实时响应的系统中。这两种模型都存在计算成本高昂的共同限制，这限制了它们集成到需要在资源受限的情况下保持高效、可扩展和可靠性能的具身人工智能系统中。

算法特定故障模式

模态特定故障

• LLM：LLM 擅长处理和生成文本，使其在机器人任务的推理和规划方面具有价值，但其局限性给具身人工智能系统带来了重大挑战。一个关键问题是它们缺乏对物理世界的认知，因为它们难以解释或处理现实世界的感官数据。语言与物理现实之间的这种脱节通常会导致幻觉或信息捏造等故障模式，即 LLM 生成听起来合理但错误或误导性的指令。此类错误可能导致不安全的行为，例如错误识别物体或提供错误的导航指导。此外，LLM会从其大规模训练数据集中继承偏见，从而延续有害的刻板印象[1, 16, 80, 150, 189, 213]，这可能导致歧视性或不道德的决策。它们也容易产生错误信息[23, 119, 145, 225]，这在医疗保健或自主系统等高风险应用中尤其危险，因为错误的输出可能造成人身伤害或系统故障。尽管人们努力过滤有害内容，但LLM仍然可能产生有害或冒犯性语言，尤其是在受到对抗性提示时[71]，从而导致在具身环境中出现不恰当的互动。隐私泄露是另一个令人担忧的问题，因为LLM可能会无意中记忆和复制敏感信息，从而损害用户数据或操作机密性[31]。此外，它们容易受到心理操纵，对抗性输入可以利用系统漏洞或在对话互动中欺骗用户[9, 176]。尽管已有研究提出诸如开放词汇检测器[146]和价值函数[4]等外部affordance模型，旨在将LLM与物理世界联系起来[73]，但这些方法在复杂环境中往往表现不佳。此类模型通常作为单向通道，缺乏有效传递特定任务信息的能力[81]，进一步限制LLM与具身人工智能系统的集成。

• 视觉语言大模型（LVLM）：LVLM同时处理视觉和文本输入，面临着与模态错位相关的重大挑战，即模型无法将视觉特征与相应的文本正确关联。这种错位会导致两个主要问题：（1）图像-文本匹配错误，模型可能错误地将图像与不相关的文本描述配对，尤其是在零样本图像分类等任务中，细微或模糊的视觉线索容易被误解； (2) 视觉关联失败，即模型难以将语言与特定的视觉区域关联起来，例如在物体检测或指称表达理解等任务中识别相关物体。这在具身人工智能系统中尤为突出，因为精确的物体识别对于任务执行至关重要。与主要在语言环境中生成错误信息的LLM)相比，视觉语言大模型 (LVLM) 在整合和对齐视觉和文本模态方面存在独特的困难。

时间推理

• LVLM：LVLM 在时间推理方面面临重大挑战，尤其是在需要理解事件序列和长期依赖关系的视频任务中。这些模型经常难以处理时间上的不一致性，例如误解动作顺序或无法识别物体状态随时间的变化，以及难以维持长期依赖关系，这可能导致预测不完整。例如，在烹饪视频中，视觉语言大模型 (VLM) 可能无法将切菜等早期动作与将蔬菜放入锅中等后期步骤关联起来，从而导致对动态场景的错误解读。
• LLM：虽然 LLM 可以处理顺序数据（例如文本），但它们在视觉环境中进行时间推理时通常不会面临同样的挑战。

对抗性多模态噪声

• LVLM：难以应对多模态噪声，噪声或不完整的视觉和文本输入会降低其性能，尤其是在光照不足、存在遮挡或运动模糊的真实环境中。它们极易受到对抗性攻击。视觉输入中微小且不易察觉的变化，例如在图像中添加噪声，都可能导致错误分类（例如，将猫标记为狗），而对文本提示的细微修改则可能导致错误或有害的输出，例如在视觉问答任务中提供错误答案。这些漏洞构成重大风险，尤其是在具身人工智能系统中。
• LLM：虽然 LLM 也可能难以处理噪声文本输入，但它们在处理噪声视觉数据时不会面临同样的挑战。LVLM 必须同时应对视觉和文本模态中的噪声，而 LLM 主要处理语言输入中的噪声。

常见失效模式如图所示：
请添加图片描述 -------

为了全面评估LVLM，数据集可以分为四大类：通用数据集、红队数据集、鲁棒性评估数据集和对齐数据集。每类数据集在评估模型性能和鲁棒性的各个方面都发挥着不同的作用。

通用数据集。通用数据集侧重于评估核心多模态能力，例如图像分类、图像描述、视觉问答（VQA），以及测试模型的视觉理解、推理和语言生成能力。常用的基准数据集包括 ImageNet、COCO Captions、RefCOCO 和 VQA V2。这些数据集也可以通过引入细微扰动来模拟认知偏差，从而用于鲁棒性测试。

对抗数据集。对抗数据集专门用于压力测试模型，主要分为两大类：
• 红队数据集：这类数据集针对的是明显有害的内容，例如暴力、露骨材料或其他违反政策的输入。它们用于评估模型对恶意查询的鲁棒性、确保符合伦理规范以及模拟越狱场景。例如 RedTeam-2K [134]、MultiJail [53] 和 SALAD-Bench [110]。
• 鲁棒性评估数据集：通过暴露模型在处理微妙或对抗性输入时的漏洞，来评估模型对对抗性攻击、歧义查询和极端情况的鲁棒性。子类别包括对抗性攻击样本和针对有害或误解输入的敏感性测试。例如，AVIBench [253] 生成各种对抗性视觉指令来评估 LVLM 的鲁棒性，而 RoCOCO [164] 引入对抗性文本和图像来测试图像-文本匹配模型。研究表明，许多最先进的模型在遇到此类对抗性样本时性能会显著下降。

对齐数据集。对齐数据集对于微调 LVLM 至关重要，确保它们在有效性和无害性之间取得平衡。这些数据集常用于RLHF流程或偏好模型训练，它们使模型符合伦理标准，在保持实用性的同时最大限度地减少有害输出。这些数据集可分为两大类：
• 基于偏好的对齐数据集：支持RLHF和DPO中的偏好建模，帮助LVLM平衡安全性和可用性。例如，SPA-VL [258] 提供跨领域的安全偏好数据，帮助LVLM使响应符合伦理准则。
• 基于指令的对齐数据集：增强指令调优，以改善模型对齐并减少有害输出。VLFeedback [111] 拥有超过82,000条多模态指令和AI生成的解释，是视觉语言对齐研究的大规模资源。