AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.20-2024.07.25_finetuning generative large language models with d-CSDN博客

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140750712

文章目录～

1.Scalify: scale propagation for efficient low-precision LLM training
2.Boosting Large Language Models with Socratic Method for Conversational Mathematics Teaching
3.ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering
4.Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
5.Retrieve, Generate, Evaluate: A Case Study for Medical Paraphrases Generation with Small Language Models
6.Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models
7.Psychomatics -- A Multidisciplinary Framework for Understanding Artificial Minds
8.A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More
9.Artificial Agency and Large Language Models
10.CHIME: LLM-Assisted Hierarchical Organization of Scientific Studies for Literature Review Support
11.Finetuning Generative Large Language Models with Discrimination Instructions for Knowledge Graph Completion
12.KaPQA: Knowledge-Augmented Product Question-Answering
13.Enhancing Temporal Understanding in LLMs for Semi-structured Tables
14.Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models
15.RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation
16.LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models
17.Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models
18.A Survey on Employing Large Language Models for Text-to-SQL Tasks
19.Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope
20.Fine-grained Gender Control in Machine Translation with Large Language Models
21.Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval
22.ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
23.Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation
24.RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering
25.Enhancing Data-Limited Graph Neural Networks by Actively Distilling Knowledge from Large Language Models

1.Scalify: scale propagation for efficient low-precision LLM training

标题:Scalify：针对高效低精度 LLM 训练的规模传播

author:Paul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon

publish:11 pages, 5 figures, ICML 2024 WANT workshop

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.17353v1

摘要：
机器学习加速硬件中引入了 float8 等低精度格式，以提高大型语言模型训练和推理的计算效率。然而，由于匹配更高精度训练精度所需的技术非常复杂，有时甚至非常脆弱，因此延缓了语言学习社区对低精度格式的采用。在这项工作中，我们提出了 Scalify，这是一种用于计算图的端到端规模传播范例，它概括并形式化了现有的张量缩放方法。实验结果表明，Scalify 支持开箱即用的 float8 矩阵乘法和梯度表示，以及 float16 优化器状态存储。我们的 Scalify JAX 实现已在 https://github.com/graphcore-research/jax-scalify 上开源。

2.Boosting Large Language Models with Socratic Method for Conversational Mathematics Teaching

标题:用苏格拉底法提升大语言模型，促进数学对话式教学

author:Yuyang Ding, Hanglei Hu, Jie Zhou, Qin Chen, Bo Jiang, Liang He

publish:Accepted By CIKM 2024

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.17349v1

摘要：
随着大型语言模型（LLM）的引入，自动数学推理取得了巨大成功。然而，目前的方法主要集中在提供解决方案或使用思维链等技术来提高问题解决的准确性。在本文中，我们将重点通过基于苏格拉底式教学的 LLM（\texttt{SocraticLLM}）来提高数学教学能力，通过对话引导学习者进行清晰深刻的思考和自我发现。我们收集并发布了一个高质量的数学教学数据集，命名为\texttt{SocraticMATH}，其中提供了苏格拉底式的问题会话与额外知识。此外，我们还提出了一种知识增强型 LLM，作为一种强大的基线，通过回顾、指导/启发、纠正和总结来生成可靠的回复。通过与几种强生成模型的比较，实验结果显示了texttt{SocraticLLM}的巨大优势。代码和数据集可在（url{https://github.com/ECNU-ICALK/SocraticMath}.

3.ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering

标题:ScholarChemQA：揭示语言模型在化学研究问题解答中的威力

author:Xiuying Chen, Tairan Wang, Taicheng Guo, Kehan Guo, Juexiao Zhou, Haoyang Li, Mingchen Zhuge, Jürgen Schmidhuber, Xin Gao, Xiangliang Zhang

publish:14 pages

date Time:2024-07-24

paper pdf:http://arxiv.org/pdf/2407.16931v1

摘要：
问题解答（QA）可有效评估语言模型的推理能力和知识深度。虽然 QA 数据集在通用领域和生物医学等领域非常丰富，但对学术化学的探索却较少。通过有效地将复杂的化学信息转化为易于理解的格式，化学质量保证在教育和研究中都发挥着至关重要的作用。针对这一空白，我们推出了 ScholarChemQA，这是一个从化学论文中构建的大规模质量保证数据集。该数据集反映了现实世界中的典型挑战，包括不平衡的数据分布和大量可能有用的未标记数据。相应地，我们引入了 QAMatch 模型，该模型专门设计用于通过充分利用我们收集的数据来有效回答化学问题。首先，我们根据每个类别的逆频率对实例损失进行重新加权，确保在优化过程中少数类别不会被多数类别所支配，从而解决了标签分布不平衡的问题。接下来，我们利用未标记数据来丰富学习过程，根据软混合操作生成各种增强数据，并确保其预测结果与同一目标（即伪标签）保持一致。为了确保伪标签的质量，我们提出了一种校准程序，旨在使单个样本的伪标签估计值与所需的地面真实分布紧密一致。实验表明，不仅在 ScholarChemQA 数据集上，而且在四个基准数据集上，我们的 QAMatch 都明显优于最近的类似规模基线和大型语言模型（LLM）。我们希望我们的基准和模型能够促进和推动更多的化学质量保证研究。

4.Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

标题:检索增强生成还是长语境 LLM？综合研究和混合方法

author:Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16833v1

摘要：
检索增强生成（RAG）一直是大型语言模型（LLM）有效处理过长上下文的有力工具。然而，最近的 LLM（如 Gemini-1.5 和 GPT-4）在直接理解长语境方面表现出了非凡的能力。我们对 RAG 和长语境（LC）LLM 进行了全面比较，旨在充分利用两者的优势。我们使用三种最新的 LLM，在各种公共数据集上对 RAG 和 LC 进行了基准测试。结果显示，在资源充足的情况下，LC 的平均性能始终优于 RAG。然而，RAG 明显更低的成本仍然是其显著优势。基于这一观察结果，我们提出了 “自路由”（Self-Route）方法，这是一种简单而有效的方法，可根据模型的自我反思将查询路由到 RAG 或 LC。Self-Route 可显著降低计算成本，同时保持与 LC 相当的性能。我们的研究结果为使用 RAG 和 LC 的 LLM 的长上下文应用提供了指导。

5.Retrieve, Generate, Evaluate: A Case Study for Medical Paraphrases Generation with Small Language Models

标题:检索、生成、评估：利用小型语言模型生成医学释义的案例研究

author:Ioana Buhnila, Aman Sinha, Mathieu Constant

publish:KnowledgeableLM 2024

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16565v1

摘要：
最近，大型语言模型（LLMs）在普通人群中的普及率急剧上升，这可能会导致无法追踪此类模型在医疗相关建议中的使用情况。通过 LLMs 模型生成语言有两个关键问题：首先，LLMs 容易产生幻觉，因此任何医疗用途都需要科学和事实依据；其次，由于 LLMs 模型庞大，对计算资源构成了巨大挑战。在这项工作中，我们介绍了 pRAGe，这是一个使用小语言模型（SLM）生成医学释义的检索增强生成和评估管道。我们研究了小语言模型的有效性以及外部知识库对法语医学释义生成的影响。

6.Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models

标题:使用大型语言模型对低资源和高资源语言进行机器翻译幻觉检测

author:Kenza Benkirane, Laura Gongas, Shahar Pelles, Naomi Fuchs, Joshua Darmon, Pontus Stenetorp, David Ifeoluwa Adelani, Eduardo Sánchez

publish:Authors Kenza Benkirane and Laura Gongas contributed equally to this
work

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16470v2

摘要：
大规模多语言机器翻译系统的最新进展大大提高了翻译准确性；然而，即使是性能最好的系统也会产生幻觉，严重影响用户的信任度。在机器翻译（MT）中检测幻觉仍然是一项严峻的挑战，尤其是现有方法在处理高资源语言（HRL）时表现出色，但在处理低资源语言（LRL）时却表现出很大的局限性。本文评估了使用大型语言模型（LLM）和大规模多语言嵌入中的语义相似性进行幻觉检测的方法。我们的研究横跨 16 个语言方向，涵盖 HRLs、LRLs 和各种脚本。我们发现，模型的选择对性能至关重要。平均而言，对于 HRLs，Llama3-70B 的性能比以前的技术水平高出 0.16 MCC（马太相关系数）。然而，对于 LRL，我们观察到 Claude Sonnet 平均比其他 LLM 高出 0.03 MCC。我们的研究得出的主要结论是，尽管 LLMs 没有针对任何机器翻译任务进行明确的训练，但其性能可以与之前提出的模型相媲美，甚至更好。不过，对于 LRL 而言，它们的优势并不明显。

7.Psychomatics – A Multidisciplinary Framework for Understanding Artificial Minds

标题:心理数学–理解人工智能的多学科框架

author:Giuseppe Riva, Fabrizia Mantovani, Brenda K. Wiederhold, Antonella Marchetti, Andrea Gaggioli

publish:15 pages, 4 tables, 2 figures

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16444v1

摘要：
尽管 LLM 和其他人工智能系统展示了与人类相似的认知技能，如概念学习和语言习得，但它们处理信息的方式与生物认知有着本质区别。为了更好地理解这些差异，本文介绍了心理数学，这是一个连接认知科学、语言学和计算机科学的多学科框架。该框架旨在更好地理解 LLMs 的高级功能，特别关注 LLMs 如何获取、学习、记忆和使用信息以产生输出。为了实现这一目标，心理数学将采用比较方法，从理论驱动的研究问题入手–人类和低语言能力者的语言发展和使用过程是否不同？- 这一问题出发，将语言学习机与生物系统相提并论。我们的分析表明了 LLMs 如何在其训练数据中映射和处理复杂的语言模式。此外，LLMs 还能遵循格莱斯合作原则（Grice’s Cooperative Principle），提供相关的信息反应。然而，人类的认知汲取了多种意义来源，包括经验、情感和想象力等方面，它们超越了单纯的语言处理，植根于我们的社会和发展轨迹。此外，目前的语言学习者缺乏身体体现，这降低了他们理解感知、行动和认知之间错综复杂的相互作用的能力，而这种相互作用塑造了人类的理解和表达。最终，心理数学有可能对人工智能和生物智能的语言、认知和智能的本质产生变革性的见解。此外，通过将 LLMs 与人类认知过程相比较，心理数学可以为开发更强大、更像人类的人工智能系统提供信息。

8.A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

标题:LLM 对齐技术综合概览：RLHF、RLAIF、PPO、DPO 等

author:Zhichao Wang, Bin Bi, Shiva Kumar Pentyala, Kiran Ramnath, Sougata Chaudhuri, Shubham Mehrotra, Zixu, Zhu, Xiang-Bo Mao, Sitaram Asur, Na, Cheng

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16216v1

摘要：
随着自监督学习技术的进步、预训练语料库中数万亿词条的可用性、指令微调以及具有数十亿参数的大型变形器的开发，大型语言模型（LLM）现在已经能够针对人类查询生成符合事实且连贯一致的回复。然而，训练数据的质量参差不齐，可能会导致生成不受欢迎的回复，从而带来巨大的挑战。在过去的两年里，人们从不同的角度提出了各种方法来增强 LLM，特别是在使其与人类期望相一致方面。尽管做出了这些努力，但还没有一篇全面的调查论文对这些方法进行分类和详细说明。在这项工作中，我们旨在填补这一空白，将这些论文分为不同的主题，并对每种配准方法进行详细解释，从而帮助读者全面了解该领域的现状。

9.Artificial Agency and Large Language Models

标题:人工机构和大型语言模型

author:Maud van Lier, Gorka Muñoz-Gil

publish:Accepted for publication in journal Intellectica, special issue
“Philosophies of AI: thinking and writing with LLMs” (Intellectica, issue 81)

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16190v2

摘要：
大型语言模型（LLMs）的出现引发了关于人工代理可能性的哲学辩论。在这项工作中，我们提出了一个理论模型，可用作人工代理的阈值概念，从而为这场辩论做出了贡献。该模型将代理定义为一个系统，其行动和目标始终受到一个动态因素框架的影响，该框架由代理的可访问历史、其适应性曲目和外部环境组成。这个框架反过来又受到代理所采取的行动和所形成的目标的影响。我们借助该模型表明，最先进的 LLMs 还不是代理，但其中的一些要素表明了未来的发展方向。本文认为，将 Park 等人（2023 年）提出的代理架构与 Boiko 等人（2023 年）提出的 “科学家”（Coscientist）等模块相结合，有可能成为以人工方式实现代理的一种方法。在本文的最后，我们反思了在构建这种人工代理时可能面临的障碍，并提出了未来研究的可能方向。

10.CHIME: LLM-Assisted Hierarchical Organization of Scientific Studies for Literature Review Support

标题:CHIME：用于文献综述支持的 LLM 辅助科学研究分层组织法

author:Chao-Chun Hsu, Erin Bransom, Jenna Sparks, Bailey Kuehl, Chenhao Tan, David Wadden, Lucy Lu Wang, Aakanksha Naik

publish:2024 ACL Findings

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16148v1

摘要：
文献综述要求研究人员综合大量信息，随着科学文献的不断扩展，这项工作也越来越具有挑战性。在这项工作中，我们研究了 LLM 生成科学研究分层组织的潜力，以帮助研究人员进行文献综述。我们将分层组织定义为树状结构，其中节点指的是主题类别，每个节点都与分配给该类别的研究相关联。我们基于 LLM 的管道从一组研究中生成的层次结构很有前景，但并不完美，这促使我们收集了 CHIME 数据集，这是一个由专家策划的数据集，主要用于生物医学领域。考虑到从头开始构建层次结构既具有挑战性又耗费时间，我们采用了 "人-环 "流程，由专家纠正 LLM 生成的层次结构中的错误（包括类别之间的联系和研究分配）。CHIME 包含 2,174 个由 LLM 生成的层次结构，涵盖 472 个主题，以及由专家修正的 100 个主题子集的层次结构。通过专家校正，我们可以量化 LLM 的性能。我们发现，虽然 LLM 在生成和组织分类方面相当出色，但其对研究分类的分配还有待改进。我们尝试利用人工反馈训练一个校正模型，该模型可将研究分配提高 12.6 个 F1 点。我们发布了我们的数据集和模型，以鼓励开发更好的文献综述辅助工具的研究。

11.Finetuning Generative Large Language Models with Discrimination Instructions for Knowledge Graph Completion

标题:利用知识图谱补全的判别指令对生成式大语言模型进行微调

author:Yang Liu, Xiaobin Tian, Zequn Sun, Wei Hu

publish:Accepted in the 23rd International Semantic Web Conference (ISWC

date Time:2024-07-23

paper pdf:http://arxiv.org/pdf/2407.16127v1

摘要：
传统的知识图谱（KG）完成模型通过学习嵌入来预测缺失的事实。最近的研究尝试用大语言模型（LLM）以文本生成的方式完成知识图谱。然而，它们需要将 LLM 的输出与 KG 实体联系起来，这不可避免地会带来误差。在本文中，我们提出了一个微调框架 DIFT，旨在释放 LLM 的 KG 完成能力并避免接地错误。在给定一个不完整事实的情况下，DIFT 采用轻量级模型来获取候选实体，并通过判别指令对 LLM 进行微调，以从给定的候选实体中选择正确的实体。为了在减少指令数据的同时提高性能，DIFT 采用截断采样法来选择有用的事实进行微调，并将 KG 嵌入注入 LLM。在基准数据集上进行的大量实验证明了我们提出的框架的有效性。

12.KaPQA: Knowledge-Augmented Product Question-Answering

标题:KaPQA：知识增强型产品问答

author:Swetha Eppalapally, Daksh Dangi, Chaithra Bhat, Ankita Gupta, Ruiyi Zhang, Shubham Agarwal, Karishma Bagga, Seunghyun Yoon, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt

publish:Accepted at the ACL 2024 Workshop on Knowledge Augmented Methods for
NLP

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.16073v1

摘要：
由于大型语言模型（LLM）的最新进展，针对特定领域应用的问题解答最近引起了广泛关注。然而，准确评估这些应用的性能仍然是一项挑战，这主要是由于缺乏能有效模拟真实世界场景的合适基准。为了应对这一挑战，我们引入了两个产品问答（QA）数据集，分别侧重于 Adobe Acrobat 和 Photoshop 产品，以帮助评估现有模型在特定领域产品 QA 任务中的性能。此外，我们还提出了一个新颖的知识驱动 RAG-QA 框架，以提高模型在产品问答任务中的性能。我们的实验表明，与标准的 RAG-QA 方法相比，通过重新制定查询诱导领域知识可以提高检索和生成性能。然而，这种提高是微不足道的，因此也说明了所引入的数据集所带来的挑战。

13.Enhancing Temporal Understanding in LLMs for Semi-structured Tables

标题:增强半结构化表格 LLM 的时间理解能力

author:Irwin Deng, Kushagra Dixit, Vivek Gupta, Dan Roth

publish:Total Pages 18, Total Tables 6, Total figures 7

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.16030v1

摘要：
最近的研究表明，对表格数据进行时态推理给大型语言模型（LLM）带来了巨大挑战。在本研究中，我们对时态数据集进行了全面分析，以找出 LLM 的具体局限性。通过调查，我们对 TempTabQA 进行了改进，这是一个专门为表格式时态问题解答而设计的数据集。我们为提高 LLM 在表格数据时态推理任务中的性能提供了重要见解。此外，我们还引入了一种新方法 C.L.E.A.R，以加强 LLM 在这一领域的能力。我们的研究结果表明，我们的方法显著提高了各种模型的循证推理能力。此外，我们的实验结果表明，利用辅助数据进行间接监督大大提高了模型在这些任务中的性能。这项工作有助于加深对 LLM 在表格数据上的时间推理能力的理解，并促进其在不同领域的应用。

14.Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models

标题:模型压缩的性能评估与优化综合研究：传统深度学习与大型语言模型之间的桥梁

author:Aayush Saxena, Arit Kumar Bishwas, Ayush Ashok Mishra, Ryan Armstrong

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15904v1

摘要：
近年来，深度学习模型在大多数行业都取得了巨大成功。这些模型的发展也导致了模型大小和能源需求的增加，使其难以在低计算设备上部署到生产中。随着全球联网设备数量的增加，需要能够在本地设备上轻松部署的、低计算能力和低能耗的压缩模型。不同的研究人员已经提出了多种解决方案来减少此类模型的大小和复杂性，其中最突出的有：权重量化、参数剪枝、网络剪枝、低秩表示、权重共享、神经架构搜索、知识提炼等。在这项研究工作中，我们研究了使用量化和剪枝技术压缩的各种训练有素的深度学习模型对性能的影响。我们在图像分类、物体检测、语言模型和基于生成模型的问题陈述中使用的流行深度学习模型上实施了量化和剪枝压缩技术。我们还探索了各种大型语言模型（LLM）在量化和低等级适应后的性能。我们在所有相关问题陈述中使用了标准评估指标（模型大小、准确性和推理时间），并通过讨论挑战和未来工作对本文进行了总结。

15.RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation

标题:RadioRAG：利用动态检索增强生成增强放射学诊断的事实大语言模型

author:Soroosh Tayebi Arasteh, Mahshad Lotfinia, Keno Bressem, Robert Siepmann, Dyke Ferber, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15621v1

摘要：
大型语言模型（LLM）推动了医学人工智能（AI）领域的发展。然而，LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成（RAG）通过整合外部数据源来缓解这一问题。以前的 RAG 系统使用预先组装的固定数据库，灵活性有限，而我们开发的放射学 RAG（RadioRAG）是一个端到端的框架，可从权威的放射学在线资源中实时检索数据。我们使用专门的放射学问答数据集（RadioQA）对 RadioRAG 进行了评估。我们评估了各种 LLM 在回答放射学特定问题时的诊断准确性，包括通过 RAG 获取和不通过 RAG 获取额外在线信息的情况。我们使用 RSNA 病例集中的 80 个放射学亚专科问题和 24 个由专家收集的附加问题（这些问题都有正确的黄金标准答案），在使用和不使用 RadioRAG 的情况下提示 LLM（GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B 和 Llama3 [8B 和 70B]）。RadioRAG 实时从 www.radiopaedia.org 获取特定语境信息，并将其纳入回复中。在所有 LLM 中，RadioRAG 始终如一地提高了诊断准确率，相对提高幅度从 2% 到 54% 不等。在各放射亚专科，尤其是在乳腺成像和急诊放射学方面，它与没有使用 RAG 的问题解答相匹配，甚至更胜一筹。然而，不同模型的改进程度各不相同；GPT-3.5-turbo 和 Mixtral-8x7B-instruct-v0.1 的改进效果显著，而 Mistral-7B-instruct-v0.2 则没有任何改进，这凸显了其效果的差异性。当 LLM 能够访问其训练数据之外的特定领域数据时，他们将从中受益。在放射学方面，RadioRAG 建立了一个强大的框架，大大提高了放射学问题解答的诊断准确性和真实性。

16.LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models

标题:LLaST：利用大型语言模型改进端到端语音翻译系统

author:Xi Chen, Songyang Zhang, Qibing Bai, Kai Chen, Satoshi Nakamura

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15415v1

摘要：
我们介绍了 LLaST，这是一个用于构建基于大型语言模型的高性能语音到文本翻译系统的框架。通过探索为 LLM 量身定制的模型架构设计和优化技术，我们解决了端到端语音翻译（E2E ST）模型的局限性。我们的方法包括基于 LLM 的语音翻译架构设计、ASR 增强训练、多语言数据增强和双 LoRA 优化。我们的方法在 CoVoST-2 基准测试中表现出卓越的性能，并展示了由 LLM 支持的非凡扩展能力。我们相信，这种有效的方法将成为语音翻译的有力基准，并为未来改进基于 LLM 的语音翻译框架提供启示。我们在 https://github.com/openaudiolab/LLaST 中发布了数据、代码和模型。

17.Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models

标题:基于知识的视觉问题解答与大型语言模型的知识获取分离

author:Wenbin An, Feng Tian, Jiahao Nie, Wenkai Shi, Haonan Lin, Yan Chen, QianYing Wang, Yaqiang Wu, Guang Dai, Ping Chen

publish:Pre-print

date Time:2024-07-22

paper pdf:http://arxiv.org/pdf/2407.15346v1

摘要：
基于知识的视觉问题解答（KVQA）需要图像和世界知识来回答问题。目前的方法是先从图像和外部知识库中检索与原始复杂问题相关的知识，然后使用大型语言模型（LLM）生成答案。然而，由于原始问题包含复杂的元素，需要从不同来源获取知识，以耦合方式获取不同种类的知识可能会混淆模型，妨碍它们检索精确的知识。此外，"只向前 "的回答过程无法明确捕捉 LLM 的知识需求，这可能会进一步损害回答质量。为了应对上述局限性，我们提出了 DKA：从 LLM 反馈中分离知识获取（Disentangled Knowledge Acquisition from LLM feedback），这是一种免训练框架，它将知识获取分离开来以避免混淆，并使用 LLM 的反馈来指定所需的知识。具体来说，DKA 要求 LLM 明确回答问题所需的知识，并将原本复杂的问题分解为两个简单的子问题：基于图像的子问题和基于知识的子问题。然后，我们利用这两个子问题分别从图像和知识库中检索知识。这样，两个知识获取模型就能专注于与之相对应的内容，避免原始复杂问题中无关元素的干扰，从而有助于提供更精确的知识，更好地匹配 LLM 的知识需求，得出正确答案。基准数据集上的实验表明，DKA 明显优于 SOTA 模型。为了方便未来的研究，我们的数据和代码可在\url{https://github.com/Lackel/DKA}上获取。

18.A Survey on Employing Large Language Models for Text-to-SQL Tasks

标题:关于在文本到 SQL 任务中使用大型语言模型的调查

author:Liang Shi, Zhengju Tang, Zhi Yang

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15186v1

摘要：
关系数据库中存储的数据量越来越大，导致各行各业都需要高效地查询和利用这些数据。然而，编写 SQL 查询需要专业知识，这给试图访问和查询数据库的非专业用户带来了挑战。文本到 SQL 解析通过将自然语言查询转换为 SQL 查询来解决这一问题，从而使非专业用户更容易访问数据库。为了利用大语言模型（LLM）的最新发展，出现了一系列新方法，主要侧重于提示工程和微调。本综述全面概述了文本到 SQL 任务中的 LLM，讨论了基准数据集、提示工程、微调方法和未来研究方向。我们希望这篇综述能让读者对这一领域的最新进展有更广泛的了解，并对其未来的发展轨迹提出一些见解。

19.Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope

标题:告别长度外推法，关注范围有限的自由训练无限语境

author:Xiaoran Liu, Qipeng Guo, Yuerong Song, Zhigeng Liu, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu

publish:8 pages, 7 figures

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15176v1

摘要：
最大支持上下文长度是限制大语言模型（LLM）实际应用的关键瓶颈。虽然现有的长度外推方法可以将 LLM 的上下文扩展到数百万个词库，但这些方法都有明确的上限。在这项工作中，我们提出了 LongCache，这是一种无需训练的方法，通过全语境缓存选择和无需训练的集成，使 LLM 能够以有限的语境范围支持无限语境。这有效地将 LLM 从长度外推问题中解放出来。我们在 LongBench 和 L-Eval 上对 LongCache 进行了验证，证明其性能与传统的全注意机制相当。此外，我们还在主流 LLM（包括 LLaMA3 和 Mistral-v0.3）上应用了 LongCache，使它们能够在 Needle-In-A-Haystack 测试中支持至少 400K 的上下文长度。我们将很快通过 GPU 感知优化来提高 LongCache 的效率。

20.Fine-grained Gender Control in Machine Translation with Large Language Models

标题:使用大型语言模型进行机器翻译中的细粒度性别控制

author:Minwoo Lee, Hyukhun Koh, Minsung Kim, Kyomin Jung

publish:NAACL 2024 Main track long paper

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15154v1

摘要：
在机器翻译中，有人指出了模糊性别输入的问题，即源句中没有实体的性别。为了解决这一模糊问题，有人提出了将模糊实体的性别作为额外输入的控制翻译任务。然而，大多数现有研究都只考虑了一个目标性别作为输入的简化设置。在本文中，我们将在更现实的多实体输入环境中处理受控翻译问题，并为 LLMs 提出了实体性别（GoE）提示方法。我们提出的方法利用细粒度的实体级性别信息指示模型翻译正确的性别转折词。通过使用四个评估基准，我们从多个维度研究了 LLMs 的受控翻译能力，发现 LLMs 在受控翻译方面达到了最先进的水平。此外，我们还发现在控制多个实体的性别时出现了性别干扰现象。最后，我们探讨了现有性别准确性评估指标的局限性，并建议利用 LLMs 作为机器翻译中性别拐点的评估工具。

21.Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

标题:通过 LLM 编码和伪事件调节整合先验知识，实现视频瞬间检索

author:Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li

publish:Accepted to ACM Multimedia 2024

date Time:2024-07-21

paper pdf:http://arxiv.org/pdf/2407.15051v2

摘要：
在本文中，我们研究了利用大型语言模型（LLMs）整合常识并将伪事件作为视频瞬间检索（VMR）模型中时间内容分布的先验的可行性。这项研究的动机源于使用 LLM 作为解码器生成离散文本描述的局限性，这阻碍了 LLM 直接应用于连续输出，如显著性得分和捕捉帧间关系的帧间嵌入。为了克服这些限制，我们建议使用 LLM 编码器来代替解码器。通过可行性研究，我们证明了 LLM 编码器能有效地细化多模态嵌入中的概念间关系，即使没有经过文本嵌入的训练。我们还证明，LLM 编码器的细化能力可以转移到其他嵌入式，如 BLIP 和 T5，只要这些嵌入式表现出与 CLIP 嵌入式相似的概念间相似性模式。我们提出了将 LLM 编码器集成到现有 VMR 架构（特别是融合模块）中的通用框架。通过实验验证，我们在 VMR 中实现了最先进的性能，证明了我们提出的方法的有效性。源代码可通过 https://github.com/fletcherjiang/LLMEPET 访问。

22.ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

标题:ChatQA 2：弥合长语境和 RAG 能力方面与专有 LLM 的差距

author:Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14482v1

摘要：
在这项工作中，我们介绍了 ChatQA 2，这是一种基于 Llama3 的模型，旨在缩小开放式 LLM 与领先的专有模型（如 GPT-4-Turbo）在长语境理解和检索增强生成（RAG）能力方面的差距。这两项能力对于 LLM 处理大量信息至关重要，因为这些信息无法通过单一提示进行处理，而这两项能力又是相辅相成的，具体取决于下游任务和计算预算。我们提出了一个详细的持续训练配方，将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K 标记，同时提出了一个三阶段指令调整过程，以增强模型的指令跟随、RAG 性能和长上下文理解能力。我们的研究结果表明，Llama3-ChatQA-2-70B 模型在许多长语境理解任务上的准确率与 GPT-4-Turbo-2024-0409 不相上下，在 RAG 基准上则超过了 GPT-4-Turbo-2024-0409。有趣的是，我们发现最先进的长语境检索器可以缓解 RAG 中的 top-k 上下文碎片问题，从而进一步提高基于 RAG 的长语境理解任务的结果。我们还使用最先进的长语境 LLM 对 RAG 和长语境解决方案进行了广泛的比较。

23.Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation

标题:模型大小对数据到文本生成中微调 LLM 性能的影响：最新研究

author:Joy Mahapatra, Utpal Garain

publish:30 pages

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14088v1

摘要：
数据到文本（D2T）生成技术旨在从表格和图形等半结构化数据中生成人类可读的文本。D2T 最近的成功在很大程度上归功于 LLM 的进步。尽管 LLM 取得了成功，但目前还没有研究说明模型大小对 D2T 任务中微调 LLM 性能的影响。D2T 模型的性能通常基于三个关键质量进行评估：\textit{可读性}（表示流畅性和连贯性）、textit{信息性}（衡量内容相似性）和textit{忠实性}（评估事实信息的一致性）。目前还不确定增加 LLM 的大小是否能有效提高 D2T 任务中这三种品质的表现。本研究的目的是研究微调 LLM 在 D2T 任务中的表现。通过广泛的比较分析，我们旨在通过五个广泛使用的 D2T 数据集（E2E、ViGGo、WikiTableText、DART 和 WebNLG）和来自五个不同 LLM 系列（T5、BART、OPT、BLOOM 和 Llama 2）的十二个不同大小的最先进 LLM，阐明调整模型大小的优势和局限性。为了全面涵盖 D2T 模型的所有三个基本特征，我们采用了六种广受认可的自动度量标准–textsc{BLEU}、textsc{METEOR}、textsc{BERTScore}、textsc{MoverScore}、textsc{Parent} 和 \textsc{BARTScore}。我们还深入分析了 D2T 任务的一个关键方面–源参考发散情况下模型大小的 LLM 性能。我们的研究发现，在 D2T 任务中，增加 LLM 的大小可以提高文本的可读性和信息量，但是较大（就大小而言）的 LLM 可能会牺牲文本的忠实性。此外，当出现源参考分歧时，小尺寸的 LLM 比大尺寸的 LLM 更有弹性。

24.RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering

标题:RAG-QA Arena：评估长式检索增强型问题解答的领域鲁棒性

author:Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.13998v1

摘要：
基于检索增强生成的问题解答（RAG-QA）是 NLP 领域的一个重要研究课题，在现实世界中有着广泛的应用。然而，现有的大多数用于该任务的数据集要么是使用单一源语料库构建的，要么是由简短的提取答案组成的，无法评估基于大型语言模型（LLM）的 RAG-QA 系统的跨域泛化能力。为了解决这些局限性，我们创建了长式鲁棒性质量保证（LFRQA），这是一个新的数据集，由人类撰写的长式答案组成，将多个文档中的简短提取答案整合成一个连贯的叙述，涵盖 26K 个查询和七个不同领域的大型语料库。我们进一步提出了 RAG-QA 竞技场，使用 LLM 作为评估者，直接将模型生成的答案与 LFRQA 的答案进行比较。我们通过大量实验表明，RAG-QA Arena 和人类对答案质量的判断高度相关。此外，在最具竞争力的 LLM 答案中，只有 41.3% 的答案优于 LFRQA 答案，这表明 RAG-QA Arena 是未来研究中极具挑战性的评估平台。

25.Enhancing Data-Limited Graph Neural Networks by Actively Distilling Knowledge from Large Language Models

标题:通过主动从大型语言模型中提炼知识来增强数据有限的图神经网络

author:Quan Li, Tianxiang Zhao, Lingwei Chen, Junjie Xu, Suhang Wang

publish:10 pages, 3 Figures

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.13989v1

摘要：
图已经成为社交网络分析、生物信息学和推荐系统等多个领域内容分析的重要数据结构。节点分类是这方面的一项基本任务，通常使用图神经网络（GNN）来解决。遗憾的是，传统的图神经网络在标注节点较少的场景中仍然面临挑战，尽管在现实世界的应用中，很少有节点分类任务。为了应对这一挑战，人们提出了各种方法，包括图元学习、迁移学习和基于大型语言模型（LLM）的方法。然而，传统的元学习和迁移学习方法往往需要来自基类的先验知识，或者无法利用未标记节点的潜在优势。同时，基于 LLM 的方法可能会忽略 LLM 的零点能力，而严重依赖于生成语境的质量。在本文中，我们提出了一种整合 LLM 和 GNN 的新方法，利用 LLM 的零点推理和推理能力，并采用基于 Graph-LLM 的主动学习范式来提高 GNN 的性能。广泛的实验证明了我们的模型在提高节点分类准确率方面的有效性，在相当有限的标注数据中，我们的模型远远超过了最先进的基线模型。