AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.10-2024.07.15-CSDN博客

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140448951

文章目录～

1.FairyLandAI: Personalized Fairy Tales utilizing ChatGPT and DALLE-3
2.Human-like Episodic Memory for Infinite Context LLMs
3.Mitigating Entity-Level Hallucination in Large Language Models
4.Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning
5.Context Embeddings for Efficient Answer Generation in RAG
6.Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors
7.Open Vocabulary Multi-Label Video Classification
8.SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
9.Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs
10.Towards Chapter-to-Chapter Context-Aware Literary Translation via Large Language Models
11.Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist
12.A Taxonomy for Data Contamination in Large Language Models
13. $β$ -DPO: Direct Preference Optimization with Dynamic $β$
14.Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks
15.RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL
16.Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
17.FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios
18.A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends
19.MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization
20.RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension
21.ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models
22.Inference Performance Optimization for Large Language Models on CPUs

1.FairyLandAI: Personalized Fairy Tales utilizing ChatGPT and DALLE-3

标题:FairyLandAI：利用 ChatGPT 和 DALLE-3 编写个性化童话故事

author:Georgios Makridis, Athanasios Oikonomou, Vasileios Koukos

publish:11 pages

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09467v1

摘要：
在人工智能驱动的多样化故事世界中，有一个独特的机会可以让年轻受众参与定制的个性化叙事。本文介绍的 FairyLandAI 是通过 OpenAI 的应用程序接口（API）开发的创新型大语言模型（LLM），专门用于为儿童创作个性化的童话故事。FairyLandAI 的显著特点在于它的双重能力：它不仅能生成引人入胜、适合年龄、反映各种传统的故事，还能自主生成适合 GenAI 和 Dalle-3 等高级图像生成工具的富有想象力的提示，从而丰富讲故事的体验。FairyLandAI 经过专业定制，能够与儿童的想象世界产生共鸣，提供寓教于乐的叙事，并符合不同年龄段固有的道德价值观。它的独特优势在于可根据儿童的个人喜好和文化背景定制故事，开创了个性化故事的新时代。此外，它还与图像生成技术相结合，提供全面的叙事体验，激发语言和视觉创造力。对 FairyLandAI 的实证评估表明，它能有效地为儿童创作引人入胜的故事，这些故事不仅寓教于乐，还体现了不同传统的价值观和教义。这一模式是家长和教育工作者的宝贵工具，可帮助他们通过引人入胜的叙事传授有意义的道德课程。FairyLandAI 标志着在使用 LLM（特别是通过 OpenAI 的 API）来丰富教育和文化方面迈出了开创性的一步，使复杂的道德叙事能够为富有想象力的年轻人所接受和喜爱。

2.Human-like Episodic Memory for Infinite Context LLMs

标题:无限语境 LLM 的类人外显记忆

author:Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09450v1

摘要：
大型语言模型（LLMs）已显示出非凡的能力，但在处理广泛的语境方面仍有困难，这限制了它们在长时间序列中保持连贯性和准确性的能力。与此相反，人类大脑擅长组织和检索跨越巨大时间尺度的偶发经验，这种经验跨越人的一生。在这项工作中，我们介绍了 EM-LLM，这是一种将人类偶发记忆和事件认知的关键方面整合到 LLM 中的新方法，使它们能够有效处理实际上无限长的上下文，同时保持计算效率。EM-LLM 采用贝叶斯惊喜和图论边界细化相结合的在线方式，将标记序列组织成连贯的外显事件。需要时，通过两阶段记忆过程检索这些事件，将基于相似性的检索和时间上连续的检索结合起来，从而高效地获取相关信息。在 LongBench 数据集上的实验证明了 EM-LLM 的卓越性能，它在各种任务中的总体相对改进率为 4.3%，超过了最先进的 InfLLM 模型，其中在 PassageRetrieval 任务中的改进率为 33%。此外，我们的分析表明，EM-LLM 的事件分割与人类感知的事件之间存在很强的相关性，这表明该人工系统与其生物对应系统之间存在桥梁作用。这项工作不仅提高了 LLM 处理扩展语境的能力，还为探索人类记忆机制提供了一个计算框架，为人工智能和认知科学的跨学科研究开辟了新途径。

3.Mitigating Entity-Level Hallucination in Large Language Models

标题:减轻大型语言模型中的实体级幻觉

author:Weihang Su, Yichen Tang, Qingyao Ai, Changyue Wang, Zhijing Wu, Yiqun Liu

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09417v1

摘要：
大语言模型（LLM）的出现彻底改变了用户获取信息的方式，从传统的搜索引擎转变为与 LLM 直接进行问答互动。然而，LLMs 的广泛应用也暴露出了一个重大挑战，即 LLMs 生成的回答连贯但与事实不符，这就是所谓的幻觉。这种幻觉现象导致用户不信任基于 LLMs 的信息检索系统。为了应对这一挑战，本文提出了基于幻觉检测的动态检索增强技术（DRAD），作为一种检测和减轻 LLM 中幻觉的新方法。DRAD 基于实时幻觉检测对检索过程进行动态调整，从而改进了传统的检索增强方法。它有两个主要组成部分：实时幻觉检测（RHD）用于在没有外部模型的情况下识别潜在的幻觉，而基于外部知识的自我纠正（SEK）则用于利用外部知识纠正这些错误。实验结果表明，DRAD 在检测和减轻 LLM 中的幻觉方面都表现出了卓越的性能。我们的所有代码和数据都开源于 https://github.com/oneal2000/EntityHallucination。

4.Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning

标题:预测和理解人类行动决策：大型语言模型和基于认知实例学习的启示

author:Thuy Ngoc Nguyen, Kasturi Jamale, Cleotilde Gonzalez

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09281v1

摘要：
大型语言模型（LLMs）已经在从语言翻译到复杂推理等各种任务中展示了自己的能力。理解和预测人类的行为和偏见对于人工智能辅助系统提供有用的帮助至关重要，但这些模型能否实现这一点仍是一个未决问题。本文利用 LLMs 的推理和生成能力来预测人类在两个连续决策任务中的行为，从而弥补了这一不足。这些任务涉及在开发性行动和探索性行动之间取得平衡，以及处理延迟反馈，这两点对于模拟现实生活中的决策过程都至关重要。我们将 LLM 的性能与基于认知实例的学习（IBL）模型进行了比较，后者模仿了人类的经验决策。我们的研究结果表明，LLMs 擅长快速吸收反馈信息以提高预测准确性。相比之下，认知 IBL 模型能更好地解释人类的探索行为，并有效捕捉损失规避偏差，即倾向于选择步进成本惩罚较少的次优目标，而不是探索以找到最优选择，即使经验有限也是如此。研究结果凸显了将 LLM 与认知架构相结合的益处，表明这种协同作用可以增强对人类复杂决策模式的建模和理解。

5.Context Embeddings for Efficient Answer Generation in RAG

标题:在 RAG 中高效生成答案的上下文嵌入

author:David Rau, Shuai Wang, Hervé Déjean, Stéphane Clinchant

publish:10 pages

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09252v1

摘要：
Retrieval-Augmented Generation（RAG）通过利用外部信息扩展输入，克服了 LLM 知识有限的问题。因此，模型的上下文输入会变得更长，从而减慢解码时间，直接转化为用户等待答案的时间。为了应对这一挑战，我们提出了 COCOM 这种有效的上下文压缩方法，将冗长的上下文缩减为少量上下文嵌入，从而大大加快了生成时间。我们的方法允许采用不同的压缩率，以解码时间换取答案质量。与早期的方法相比，COCOM 可以更有效地处理多个上下文，大大减少了长输入的解码时间。与现有的高效上下文压缩方法相比，我们的方法实现了高达 5.69 美元/次的提速，同时获得了更高的性能。

6.Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors

标题:用大语言模型辅导员逐步验证和纠正学生的推理错误

author:Nico Daheim, Jakub Macina, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan

publish:Preprint. Nico Daheim and Jakub Macina contributed equally. Code and
dataset can be found under: https://github.com/eth-lre/verify-then-generate

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09136v1

摘要：
大型语言模型（LLM）为向所有人推广高质量的个性化教育提供了机会。实现这一目标的一个可行方法是建立对话辅导模型，为学生解决问题提供帮助。然而，尽管现有的 LLM 在解决推理问题方面表现出色，但它们在精确检测学生的错误并根据这些错误调整反馈方面却举步维艰。在真实世界的教学实践中，教师会识别学生的错误并根据这些错误定制自己的回应，受此启发，我们将重点放在验证学生的解决方案上，并展示了这种验证如何提高辅导员回应生成的整体质量。我们收集了一个包含 1K 步数学推理链的数据集，其中第一个错误步骤由教师标注。我们通过经验表明，找到学生解决方案中的错误对于目前的模型来说具有挑战性。我们提出并评估了几种用于检测这些错误的验证器。通过自动和人工评估，我们发现学生解决方案验证器能引导生成模型对学生的错误做出极具针对性的响应，与现有的基线模型相比，学生的错误往往更正确，幻觉更少。

7.Open Vocabulary Multi-Label Video Classification

标题:开放式词汇多标签视频分类

author:Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi

publish:Accepted at ECCV 2024

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09073v1

摘要：
预先训练的视觉语言模型（VLM）使开放词汇计算机视觉任务（如图像分类、物体检测和图像分割）取得了重大进展。最近的一些研究重点是将 VLM 扩展到视频中的开放词汇单标签动作分类。然而，以往的方法在视频整体理解方面存在不足，这就要求在开放词汇环境下，能够同时识别视频中的多个动作和实体（如物体）。我们将这一问题表述为开放词汇多标签视频分类，并提出了一种调整预训练 VLM（如 CLIP）的方法来解决这一任务。我们利用大型语言模型（LLM）为 VLM 提供有关类标签的语义指导，从而提高其开放词汇性能，这有两个关键贡献。首先，我们提出了一种端到端可训练架构，该架构通过学习促使 LLM 为 CLIP 文本编码器生成软属性，从而使其能够识别新的类别。其次，我们在 CLIP 的视觉编码器中集成了一个时间建模模块，以有效地对视频概念的时空动态进行建模，并提出了一种新颖的正则化微调技术，以确保在视频领域实现强大的开放词汇分类性能。我们进行了大量实验，在多个基准数据集上展示了我们方法的功效。

8.SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

标题:电子表格语言模型：为大型语言模型编码电子表格

author:Yuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09025v1

摘要：
电子表格具有广泛的二维网格、各种布局和多种格式选项，这给大型语言模型（LLM）带来了显著的挑战。为此，我们推出了 SpreadsheetLLM，开创了一种高效的编码方法，旨在释放和优化 LLM 在电子表格上强大的理解和推理能力。最初，我们提出了一种包含单元格地址、值和格式的虚无序列化方法。然而，这种方法受限于 LLMs 的标记限制，对大多数应用来说并不实用。为了应对这一挑战，我们开发了 SheetCompressor，这是一种创新的编码框架，可有效压缩 LLM 的电子表格。它由三个模块组成：基于结构锚的压缩、反向索引转换和数据格式感知聚合。它大大提高了电子表格表格检测任务的性能，在 GPT4 的上下文学习设置中，其性能比普通方法高出 25.6%。此外，带有 SheetCompressor 的微调 LLM 平均压缩率为 25 倍，但 F1 得分却达到了最先进的 78.9%，比现有最佳模型高出 12.3%。最后，我们针对电子表格理解的下游任务提出了 “电子表格链”（Chain of Spreadsheet），并在要求苛刻的新电子表格质量保证任务中进行了验证。我们有条不紊地利用电子表格固有的布局和结构，证明 SpreadsheetLLM 在各种电子表格任务中都非常有效。

9.Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs

标题:自我提示调整：在 LLM 中启用自主角色扮演功能

author:Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Jiaming Zhou, Haoqin Sun

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.08995v1

摘要：
最近，LLMs 的进步展示了其非凡的角色扮演能力，能够根据不同的指令和语境准确模拟各种角色的对话风格和认知过程。研究表明，为 LLMs 分配专家角色（即角色扮演提示策略）可以提高它们在相应领域的表现。然而，提示需要针对给定问题手动设计，需要一定的专业知识和反复修改。为此，我们提出了自我提示调整方案，即通过微调让 LLM 自己生成角色扮演提示。利用 LIMA 数据集作为基础语料库，我们使用 GPT-4 为每个数据点注释角色扮演提示，从而创建 LIMA 角色数据集。然后，我们在 LIMA-Role 上对 Llama-2-7B 和 Mistral-7B 等 LLM 进行微调。因此，经过自我提示调整的 LLM 可以针对任何给定问题自动生成专家角色提示。我们在广泛使用的 NLP 基准和开放式问题测试中对经过自我提示调整的 LLM 进行了广泛评估。我们的实证结果表明，在大多数数据集上，自我提示调整的 LLM 都优于标准指令调整的基线。这凸显了利用微调使 LLMs 进行自我提示，从而实现复杂提示策略自动化的巨大潜力。我们在此发布了数据集、模型和代码（href{https://anonymous.4open.science/r/Self-Prompt-Tuning-739E/}{url}）。

10.Towards Chapter-to-Chapter Context-Aware Literary Translation via Large Language Models

标题:通过大型语言模型实现章节到章节的语境感知文学翻译

author:Linghao Jin, Li An, Xuezhe Ma

publish:Preprint

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.08978v1

摘要：
现有文档级翻译数据集中的话语现象非常稀疏，这一直是开发上下文感知机器翻译模型的根本障碍。此外，大多数现有的文档级语料库和语境感知机器翻译方法都依赖于不切实际的句子级对齐假设。为了缓解这些问题，我们首先建立了一个新颖的汉英文学数据集，该数据集由 160 本具有复杂话语结构的书籍组成。然后，我们为上下文感知翻译提出了一个更实用、更具挑战性的环境，即章对章（Ch2Ch）翻译，并研究了常用机器翻译模型在此环境下的性能。此外，我们还介绍了一种在 Ch2Ch 文学翻译领域对大型语言模型（LLM）进行微调的潜在方法，与基线相比取得了令人印象深刻的改进。通过全面分析，我们发现 Ch2Ch 环境下的文学翻译在本质上对模型学习方法和翻译解码算法都具有挑战性。

11.Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

标题:您的模型真的是优秀的数学推理工具吗？用核对表评估数学推理能力

author:Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

publish:35 pages, 10 figures, preprint

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08733v1

摘要：
非凡的数学推理能力是大型语言模型（LLM）彰显其强大功能的关键特征之一。如何全面定义和评估 LLM 的数学能力，甚至反映真实世界场景中的用户体验，已成为一个关键问题。目前的基准主要集中在解决问题的能力上，这就带来了模型过拟合的巨大风险，而且无法准确反映真正的数学推理能力。在本文中，我们认为，如果一个模型真正理解了一个问题，那么它就应该能够在各种任务中稳健、轻松地应用。受此启发，我们推出了 MATHCHECK，这是一个精心设计的用于测试任务概括性和推理稳健性的核对表，同时也是一个高效生成核对表的自动工具。MATHCHECK 包括多种数学推理任务和稳健性测试类型，便于对数学推理能力和行为测试进行综合评估。利用 MATHCHECK，我们开发了 MATHCHECK-GSM 和 MATHCHECK-GEO，分别评估数学文本推理和多模态推理能力，作为 GSM8k、GeoQA、UniGeo 和 Geometry3K 等基准的升级版本。我们采用 MATHCHECK-GSM 和 MATHCHECK-GEO 评估了 20 多个 LLM 和 11 个 MLLM，评估了它们的综合数学推理能力。我们的结果表明，虽然 GPT-4o 等前沿 LLM 在核对表的各种能力方面仍然表现出色，但许多其他模型系列却出现了明显的下降。进一步的实验表明，与传统的数学基准相比，MATHCHECK 更好地反映了真实的数学能力，更线性地体现了数学智力，从而支持了我们的设计。在我们的 MATHCHECK 上，我们可以轻松地进行详细的行为分析，深入研究模型。

12.A Taxonomy for Data Contamination in Large Language Models

标题:大型语言模型中的数据污染分类法

author:Medha Palavalli, Amanda Bertsch, Matthew R. Gormley

publish:19 pages, 8 figures, accepted to CONDA Workshop on Data Contamination
@ ACL 2024

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08716v1

摘要：
在广泛的网络语料库中进行预训练的大型语言模型在各种下游任务中表现出了卓越的性能。然而，数据污染问题日益受到关注，预训练语料库中可能包含评估数据集，从而提高了模型性能。去污是检测和移除此类数据的过程，是一种潜在的解决方案；然而，这些污染物可能来自测试集的更改版本，从而在去污过程中逃避检测。不同类型的污染如何影响语言模型在下游任务中的表现，目前还不完全清楚。我们提出了一种分类法，将 LLM 在预训练阶段遇到的各种类型的污染进行分类，并确定哪些类型的污染风险最高。我们分析了污染对两个关键 NLP 任务（摘要和问题解答）的影响，揭示了不同类型的污染如何影响评估期间的任务性能。

13. $β$ -DPO: Direct Preference Optimization with Dynamic $β$

标题: $β$ -DPO：直接偏好优化与动态 $β$

author:Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08639v1

摘要：
直接偏好优化（Direct Preference Optimization，DPO）已成为训练大型语言模型（Large Language Models，LLMs）以符合人类偏好的一种引人注目的方法。然而，DPO 的性能对其权衡参数 $\beta$ 的微调以及偏好数据的质量非常敏感。我们分析了 $\beta$ 和数据质量对 DPO 的影响，发现最佳的 $\beta$ 值会随着配对数据的信息量而变化。为了解决静态 $\beta$ 值的局限性，我们引入了一个新颖的框架，在数据质量考虑的基础上，在批次层面动态校准 $\beta$ 。此外，我们的方法还结合了以 $\beta$ 为导向的数据过滤，以防止异常值的影响。通过实证评估，我们证明了我们的动态 $\beta$ 调整技术能显著提高DPO在一系列模型和数据集上的性能，为LLM与人类反馈相一致提供了一种更稳健、适应性更强的训练范式。代码可在\url{https://github.com/junkangwu/beta-DPO}上获取。

14.Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks

标题:模型告诉你在哪里合并：长上下文任务中 LLM 的自适应 KV 缓存合并

author:Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08454v1

摘要：
由于大型语言模型（LLM）在自回归生成过程中需要耗费大量计算成本，因此如何高效地为其提供服务已成为一个亟待解决的问题。为了降低计算成本，LLM 通常采用 KV 缓存技术来提高生成速度。在提高计算效率的同时，KV 缓存的存储要求也很高，尤其是在长上下文场景中，导致大量内存消耗。现有的 KV 缓存驱逐方法通常会降低长上下文场景中 LLM 的性能，原因是驱逐会带来信息丢失。在本文中，我们提出了一种名为 KVMerger 的新型 KV 缓存合并方法，以实现长上下文任务的自适应 KV 缓存压缩，而不会在内存预算受限的情况下显著降低性能。我们的方法受到了一个有趣现象的启发，即在单个序列中，关键状态在标记级别上表现出高度的相似性。为了促进合并，我们开发了一种有效而简单的合并集识别算法，用于识别适合合并的 KV 状态。我们的合并集识别算法激发了第二个观察结果，即从相似性角度来看，KV 缓存稀疏性与数据集无关，并且在模型层面上保持不变。随后，我们提出了一种高斯核加权合并算法，选择性地合并每个合并集内的所有状态。我们将 KVMerger 应用于包括 Llama2-7B-chat 和 Llama2-13B-chat 在内的模型，进行了大量实验，以证明它在内存预算受限的情况下，对长上下文任务的有效性。利用 LongBench 和 ZeroScroll 基准，我们将我们的方法与其他 KV 缓存压缩技术（包括 H2O 和 CaM）进行了比较，结果表明我们的方法在 KV 缓存预算为 50% 和 35% 的任务中都取得了优异的性能。

15.RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL

标题:RB-SQL：基于检索的文本到 SQL 的 LLM 框架

author:Zhenhe Wu, Zhongqiu Li, Jie Zhang, Mengxiang Li, Yu Zhao, Ruiyu Fang, Zhongjiang He, Xuelong Li, Zhoujun Li, Shuangyong Song

publish:Further improvement and modification are needed.

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08273v2

摘要：
具有上下文学习功能的大型语言模型（LLM）大大提高了文本到 SQL 任务的性能。以往的工作一般侧重于使用专属 SQL 生成提示来提高 LLM 的推理能力。然而，它们大多难以处理表和列众多的大型数据库，而且通常忽略了预处理数据库和提取有价值信息以提高提示工程效率的重要性。基于上述分析，我们提出了基于检索的新型 LLM 框架 RB-SQL，该框架由三个模块组成，分别检索简洁的表和列作为模式，以及用于上下文学习的目标示例。实验结果表明，我们的模型在公共数据集 BIRD 和 Spider 上取得了比几种竞争基线更好的性能。

16.Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

标题:推测性 RAG：通过起草加强检索增强生成

author:Zilong Wang, Zifeng Wang, Long Le, Huaixiu Steven Zheng, Swaroop Mishra, Vincent Perot, Yuwei Zhang, Anush Mattapalli, Ankur Taly, Jingbo Shang, Chen-Yu Lee, Tomas Pfister

publish:Preprint

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08223v1

摘要：
检索增强生成（RAG）将大型语言模型（LLM）的生成能力与外部知识源相结合，以提供更准确和最新的响应。最近的 RAG 进展侧重于通过迭代 LLM 完善或通过 LLM 的额外指令调整获得自我批判能力来改进检索结果。在这项工作中，我们引入了 “推测式 RAG”–一种利用大型通用 LLM 高效验证由小型精炼专业 LLM 并行生成的多个 RAG 草案的框架。每个草案都由检索到的文档的一个不同子集生成，从而为证据提供了不同的视角，同时减少了每个草案的输入标记数。这种方法增强了对每个子集的理解，并减轻了长语境中潜在的立场偏差。我们的方法将起草工作委托给较小的专家 LM，由较大的通才 LM 对草稿进行一次验证，从而加快了 RAG 的速度。广泛的实验证明，在 TriviaQA、MuSiQue、PubHealth 和 ARC-Challenge 基准上，Speculative RAG 实现了最先进的性能，并减少了延迟。与 PubHealth 上的传统 RAG 系统相比，它显著提高了 12.97% 的准确率，同时减少了 51% 的延迟。

17.FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios

标题:FsPONER：针对特定领域场景中的命名实体识别进行少量提示优化

author:Yongjian Tang, Rakebul Hasan, Thomas Runkler

publish:accepted for publication at the 27th European Conference on
Artificial Intelligence (ECAI-2024)

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.08035v1

摘要：
大型语言模型（LLM）为命名实体识别（NER）任务提供了新的途径。与微调方法相比，LLM 驱动的提示方法无需训练，节省了大量计算资源，而且只需依赖最少的注释数据。以前的研究已经在一般 NER 基准上实现了与基于 BERT 的完全监督微调方法相当的性能。但是，之前的方法都没有研究基于 LLM 的少量学习在特定领域场景中的效率。为了填补这一空白，我们引入了 FsPONER 这种用于优化 few-shot 提示的新方法，并在特定领域的 NER 数据集上对其性能进行了评估，重点关注工业制造和维护领域，同时使用多种 LLM（GPT-4-32K、GPT-3.5-Turbo、LLaMA 2-chat 和 Vicuna）。FsPONER 包括基于随机抽样、TF-IDF 向量和两者结合的三种少量选择方法。我们将这些方法与通用的 GPT-NER 方法进行了比较，并评估了它们与微调 BERT 和 LLaMA 2-chat 相比的最佳 NER 性能。在所考虑的数据稀缺的真实世界场景中，使用 TF-IDF 的 FsPONER 在 F1 分数上超过微调模型约 10%。

18.A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

标题:大型视觉语言模型攻击调查：资源、进展和未来趋势

author:Daizong Liu, Mingyu Yang, Xiaoye Qu, Pan Zhou, Yu Cheng, Wei Hu

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07403v2

摘要：
近年来，随着大型模型的长足发展，大型视觉语言模型（LVLMs）已在广泛的多模态理解和推理任务中展现出非凡的能力。与传统的大型语言模型（LLMs）相比，LVLMs 具有巨大的潜力和挑战，因为它更接近多资源真实世界应用和多模态处理的复杂性。然而，LVLMs 的脆弱性却相对缺乏探索，在日常使用中存在潜在的安全风险。在本文中，我们全面回顾了现有的各种形式的 LVLM 攻击。具体来说，我们首先介绍了针对 LVLM 的攻击的背景，包括攻击的初级阶段、攻击挑战和攻击资源。然后，我们系统回顾了 LVLM 攻击方法的发展，如操纵模型输出的对抗攻击、利用模型漏洞进行未授权操作的越狱攻击、设计提示类型和模式的提示注入攻击以及影响模型训练的数据中毒攻击。最后，我们讨论了未来有前景的研究方向。我们相信，我们的调查能让我们深入了解 LVLM 漏洞的现状，激励更多研究人员探索和缓解 LVLM 开发中潜在的安全问题。有关 LVLM 攻击的最新论文将持续收录在 https://github.com/liudaizong/Awesome-LVLM-Attack 中。

19.MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization

标题:MixSumm：使用 LLM 进行基于主题的数据扩充，以实现低资源提取文本总结

author:Gaurav Sahu, Issam H. Laradji

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07341v1

摘要：
低资源提取文本摘要是一个重要的研究领域，但却严重缺乏探索。之前的文献要么专注于抽象文本摘要，要么直接提示大语言模型（LLM）（如 GPT-3）来生成摘要。在这项工作中，我们提出了用于低资源提取文本摘要的 MixSumm。具体来说，MixSumm 会提示开源 LLM（LLaMA-3-70b）生成混合了多个主题信息的文档，而不是生成没有混合信息的文档，然后在生成的数据集上训练摘要模型。我们使用 ROUGE 分数和 L-Eval（一种基于 LLaMA-3 的无参照评估方法）来衡量生成摘要的质量。我们在由 TweetSumm、WikiHow 和 ArXiv/PubMed 数据集组成的具有挑战性的文本摘要基准上进行了广泛的实验，结果表明我们基于 LLM 的数据增强框架在低资源提取摘要方面优于最近基于提示的方法。此外，我们的结果还证明了从 LLaMA-3-70b 到基于 BERT 的小型提取式摘要器的有效知识提炼。

20.RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

标题:RAG 与长语境：检验用于环境审查文件理解的前沿大型语言模型

author:Hung Phan, Anurag Acharya, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana

publish:14 pages

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07321v1

摘要：
大型语言模型（LLM）已被应用于各个领域的许多研究问题。LLM 的应用之一是为不同领域的用户提供问题解答系统。基于 LLM 的问题解答系统对于用户提出的流行和公共领域（如琐事和文学）的问题的有效性已经达到了可以接受的水平。然而，在传统上需要专业知识的利基领域中，这种有效性还没有得到证实。为此，我们构建了 NEPAQuAD1.0 基准，以评估 Claude Sonnet、Gemini 和 GPT-4 这三种前沿 LLM 在回答美国联邦政府机构根据《国家环境环境法案》（NEPA）编写的环境影响报告中提出的问题时的性能。我们特别测量了法律硕士在不同情境下理解 NEPA 文件中法律、技术和合规相关信息的细微差别的能力。例如，我们通过提供没有任何上下文的问题来测试法律硕士先前掌握的 NEPA 内部知识，并评估法律硕士如何综合长篇 NEPA 文件中的上下文信息来完成提问/回答任务。我们比较了长语境 LLMs 和 RAG 动力模型在处理不同类型问题（如问题解决型、发散型）时的表现。我们的结果表明，无论选择哪种前沿 LLM，RAG 动力模型在答案准确性上都明显优于长语境模型。我们的进一步分析表明，许多模型在回答封闭性问题时的表现要好于发散性问题和解决问题的问题。

21.ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models

标题:ESM+：大型语言模型时代的文本到 SQL 评估透视的现代见解

author:Benjamin Ascoli, Ram Kandikonda, Jinho D. Choi

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07313v1

摘要：
文本到 SQL 的任务使任何人都能使用自然语言从 SQL 数据库中检索信息。尽管面临一些挑战，但最近的模型利用大型语言模型（LLM）在这项任务中取得了显著进步。有趣的是，我们发现未进行微调的基于 LLM 的模型与经过微调的模型相比表现出截然不同的性质，这导致当前的评估指标不足以准确反映其性能。因此，我们分析了两个主要指标，即测试套件执行准确度（EXE）和精确集匹配准确度（ESM），以检查它们对这项任务的稳健性并解决不足之处。我们使用 EXE、原始 ESM 和我们改进的 ESM（称为 ESM+）比较了 9 个基于 LLM 的模型的性能。我们的结果表明，EXE 和 ESM 的假阳性率和假阴性率很高，分别为 11.3% 和 13.9%，而 ESM+ 的假阳性率和假阴性率分别为 0.1% 和 2.6%，提供了明显更稳定的评估。我们将 ESM+ 脚本作为开源脚本发布，供社区贡献，同时享受更可靠的文本到 SQL 评估。

22.Inference Performance Optimization for Large Language Models on CPUs

标题:在 CPU 上优化大型语言模型的推理性能

author:Pujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie

publish:5 pages, 6 figure, ICML 2024 on Foundation Models in the Wild

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07304v1

摘要：
大型语言模型（LLM）在各种任务中表现出了卓越的性能和巨大的潜力。然而，在低资源环境中部署高性能 LLM 引起了业界的极大关注。当 GPU 硬件资源有限时，我们可以在 CPU 上探索替代方案。为了减轻经济负担，缓解硬件资源的限制，优化推理性能是必要的。在本文中，我们介绍了一种易于部署的推理性能优化解决方案，旨在加速 CPU 上的 LLM。在该解决方案中，我们采用了一种有效的方法来减少 KV 缓存大小，同时确保精度。我们提出了一种分布式推理优化方法，并基于 oneAPI Collective Communications Library 付诸实施。此外，我们还提出了 CPU 上 LLM 的优化方法，并针对最常用的模型进行了量身定制的优化。代码开源于 https://github.com/intel/xFasterTransformer。