AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.05.10-2024.05.20

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139298532

文章目录~

1.MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models
2.Zero-Shot Stance Detection using Contextual Data Generation with LLMs
3.A Multi-Perspective Analysis of Memorization in Large Language Models
4.Improved Content Understanding With Effective Use of Multi-task Contrastive Learning
5.Towards Modular LLMs by Building and Reusing a Library of LoRAs
6.A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers
7.Efficient Multimodal Large Language Models: A Survey
8.Smart Expert System: Large Language Models as Text Classifiers
9.Large Language Models for Tuning Evolution Strategies
10.A survey on fairness of large language models in e-commerce: progress, application, and challenge
11.Spectral Editing of Activations for Large Language Model Alignment
12.A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
13.SpeechVerse: A Large-scale Generalizable Audio Language Model
14.Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?
15.RLHF Workflow: From Reward Modeling to Online RLHF
16.News Recommendation with Category Description by a Large Language Model
17.Evaluating large language models in medical applications: a survey
18.MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation
19.DuetRAG: Collaborative Retrieval-Augmented Generation
20.Combining multiple post-training techniques to achieve most efficient quantized LLMs
21.Large Language Models for Education: A Survey
22.Linearizing Large Language Models
23.Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval
24.Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts
25.A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models

1.MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

标题:MeteoRA：针对大型语言模型的多任务嵌入式 LoRA

author:Jingwei Xu, Junyu Lai, Yunpeng Huang

publish:23 pages

date Time:2024-05-19

paper pdf:http://arxiv.org/pdf/2405.13053v2

摘要：
预训练+微调范式是在各种下游应用中部署大型语言模型（LLM）的基础。其中，Low-Rank Adaptation（LoRA）因其参数高效微调（PEFT）而脱颖而出，产生了大量现成的针对特定任务的 LoRA 适配程序。然而，这种方法需要明确的任务意图选择，这给推理过程中的自动任务感知和切换带来了挑战，因为现有的多个 LoRA 适配程序都嵌入了单个 LLM 中。在这项工作中，我们介绍了 MeteoRA（多任务嵌入式 LoRA），这是一个专为 LLM 设计的可扩展多知识 LoRA 融合框架。MeteoRA 以专家混合（MoE）的方式将各种 LoRA 适配器集成到基础 LLM 中，使模型能够根据任务输入自动选择最合适的适配器。这一进步极大地增强了 LLM 处理复合任务的能力，因为这些任务需要不同的适配器来解决问题的各个部分。我们对 LlaMA2-13B 和 LlaMA3-8B 基本模型进行了评估，这两个模型通过 MeteoRA 配备了 28 个现成的 LoRA 适配器，显示出与单个适配器的性能相当。此外，这两个配备 MeteoRA 的基本模型在仅用一个推理过程连续解决包含 10 个问题的复合任务时都取得了优异的性能，这凸显了 MeteoRA 嵌入式 LLM 的及时意向切换能力。

2.Zero-Shot Stance Detection using Contextual Data Generation with LLMs

标题:利用 LLM 生成上下文数据进行零镜头姿态检测

author:Ghazaleh Mahmoudi, Babak Behkamkia, Sauleh Eetemadi

publish:5 pages, AAAI-2024 Workshop on Public Sector LLMs

date Time:2024-05-19

paper pdf:http://arxiv.org/pdf/2405.11637v1

摘要：
立场检测是对文本中针对特定主题所表达的态度进行分类，对于假新闻检测和舆情挖掘等应用至关重要。然而，标注数据的匮乏仍然是这项任务面临的挑战。为了解决这个问题，我们提出了动态模型自适应与上下文数据生成（DyMoAdapt），它结合了少量学习（Few-Shot Learning）和大语言模型（Large Language Models）。在这种方法中，我们的目标是在测试时对现有模型进行微调。为此，我们使用 GPT-3 生成新的特定主题数据。这种方法可以使模型适应新的主题，从而提高性能。但是，结果并没有像我们预期的那样提高。此外，我们还引入了多生成主题 VAST（MGT-VAST）数据集，该数据集使用 GPT-3 对 VAST 进行了扩展。在该数据集中，每个上下文都与多个主题相关联，从而使模型能够理解上下文与各种潜在主题之间的关系

3.A Multi-Perspective Analysis of Memorization in Large Language Models

标题:大型语言模型记忆的多视角分析

author:Bowen Chen, Namgi Han, Yusuke Miyao

date Time:2024-05-19

paper pdf:http://arxiv.org/pdf/2405.11577v2

摘要：
大型语言模型（LLM）是在具有数十亿个参数的海量语料库中训练出来的，在各个领域都显示出前所未有的性能。尽管对它们的出色表现感到惊讶，但研究人员也注意到了这些 LLMs 的一些特殊行为。其中一种行为就是记忆，即 LLM 可以生成用于训练它们的相同内容。虽然以前的研究已经讨论过记忆，但对 LLMs 的记忆仍然缺乏解释，尤其是记忆的原因和产生记忆的动力。在本研究中，我们从多个角度对记忆进行了全面讨论，并将讨论范围扩大到不仅包括记忆的内容，还包括记忆较少和未记忆的内容。通过各种研究，我们发现(1）通过实验，我们揭示了记忆在模型大小、延续大小和情境大小之间的关系。此外，我们还展示了未记忆句子是如何过渡到记忆句子的。(2）通过嵌入分析，我们展示了不同记忆分数的句子在嵌入空间中不同模型大小的分布和解码动态。(3) 通过对 n-gram 和熵解码动态的分析，我们发现了当模型开始生成已记忆句子或未记忆句子时的边界效应。(4)我们训练了一个 Transformer 模型来预测不同模型的记忆情况，表明通过上下文预测记忆情况是可能的。

4.Improved Content Understanding With Effective Use of Multi-task Contrastive Learning

标题:有效利用多任务对比学习提高内容理解能力

author:Akanksha Bindal, Sudarshan Ramanujam, Dave Golland, TJ Hazen, Tina Jiang, Fengyu Zhang, Peng Yan

date Time:2024-05-18

paper pdf:http://arxiv.org/pdf/2405.11344v2

摘要：
在增强 LinkedIn 核心内容推荐模型的过程中，提高其语义理解能力是一项重大挑战。本文通过利用多任务学习来解决这一问题，多任务学习是一种在多个领域都大有可为的方法。我们利用来自不同语义标注任务集的数据，通过多任务对比学习对预先训练好的、基于转换器的 LLM 进行了微调。我们观察到了积极的迁移，与在每个任务上进行独立训练相比，我们的模型在所有任务上都表现出色。我们的模型在零镜头学习方面优于基线模型，并提供了更好的多语言支持，这凸显了其更广泛的应用潜力。在 Linkedin 数据集和任务上，我们的模型生成的专业内容嵌入优于 OpenAI 提供的通用嵌入。这项工作为 LinkedIn 的垂直团队定制和微调 LLM 以适应其特定应用奠定了坚实的基础。我们的工作为该领域提供了可供借鉴的见解和最佳实践。

5.Towards Modular LLMs by Building and Reusing a Library of LoRAs

标题:通过构建和重用 LoRA 库实现模块化 LLM

author:Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni

date Time:2024-05-18

paper pdf:http://arxiv.org/pdf/2405.11157v1

摘要：
基础大型语言模型（LLM）的参数高效适配越来越多，这就要求我们研究是否可以重复使用这些训练有素的适配器来提高新任务的性能。我们研究了如何在给定多任务数据的情况下以最佳方式建立适配器库，并设计了通过这种库中的路由来实现零点和监督任务泛化的技术。我们对建立该库的现有方法进行了基准测试，并引入了基于模型的聚类（MBC），这是一种根据适配器参数的相似性对任务进行分组的方法，可间接优化多任务数据集之间的转移。为了重新使用该库，我们提出了一种新颖的零次路由机制–Arrow，它可以为新输入动态选择最相关的适配器，而无需重新训练。我们用 Phi-2 和 Mistral 等几种 LLM 在大量保留任务上进行了实验，验证了基于 MBC 的适配器和 Arrow 路由机制可为新任务带来卓越的泛化能力。我们朝着创建模块化、适应性强的 LLM 迈出了一步，这些 LLM 可以与传统的联合训练相媲美，甚至更胜一筹。

6.A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

标题:多语言大型语言模型调查：最新进展与新领域

author:Kaiyu Huang, Fengran Mo, Hongliang Li, You Li, Yuanchi Zhang, Weijian Yi, Yulong Mao, Jinchen Liu, Yuzhuang Xu, Jinan Xu, Jian-Yun Nie, Yang Liu

publish:54 pages, Work in Progress

date Time:2024-05-17

paper pdf:http://arxiv.org/pdf/2405.10936v1

摘要：
大型语言模型（LLMs）的快速发展展示了自然语言处理领域卓越的多语言能力，吸引了全球学术界和产业界的关注。为了减少潜在的歧视，提高不同语言用户群体的整体可用性和可访问性，开发语言公平技术非常重要。尽管 LLM 取得了突破性进展，但对多语言应用场景的研究仍显不足，因此需要进行全面调查，总结最新方法、发展、局限性和潜在解决方案。为此，我们从多个角度对多语种场景中的 LLMs 使用情况进行了调查。首先，我们重新思考了以往和当前关于预训练语言模型的研究之间的过渡。然后，我们从多个角度介绍了 LLM 的多语言性，包括训练和推理方法、模型安全性、多领域语言文化以及数据集的使用。我们还讨论了在这些方面出现的主要挑战以及可能的解决方案。此外，我们还强调了未来的研究方向，旨在进一步加强多语言 LLM。本调查旨在帮助研究界解决多语言问题，全面了解基于 LLM 的多语言自然语言处理的核心概念、关键技术和最新进展。

7.Efficient Multimodal Large Language Models: A Survey

标题:高效多模态大型语言模型：调查

author:Yizhang Jin, Jian Li, Yexin Liu, Tianjun Gu, Kai Wu, Zhengkai Jiang, Muyang He, Bo Zhao, Xin Tan, Zhenye Gan, Yabiao Wang, Chengjie Wang, Lizhuang Ma

date Time:2024-05-17

paper pdf:http://arxiv.org/pdf/2405.10739v1

摘要：
在过去的一年里，多模态大语言模型（MLLMs）在视觉问题解答、视觉理解和推理等任务中表现出了卓越的性能。然而，庞大的模型规模以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此，研究高效、轻量级的 MLLM 具有巨大的潜力，尤其是在边缘计算场景中。在本调查报告中，我们对高效 MLLM 的现状进行了全面系统的回顾。具体来说，我们总结了具有代表性的高效 MLLM 的时间轴、高效结构和策略的研究现状以及应用。最后，我们讨论了当前高效 MLLM 研究的局限性以及未来的发展方向。更多详情，请参阅我们的 GitHub 存储库：https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

8.Smart Expert System: Large Language Models as Text Classifiers

标题:智能专家系统：作为文本分类器的大型语言模型

author:Zhiqiang Wang, Yiran Pang, Yanbin Lin

publish:11 pages, 3 figures, and 8 tables

date Time:2024-05-17

paper pdf:http://arxiv.org/pdf/2405.10523v1

摘要：
文本分类是自然语言处理（NLP）的一项基本任务，而大型语言模型（LLM）的出现给这一领域带来了革命性的变化。本文介绍了智能专家系统，这是一种利用 LLM 作为文本分类器的新方法。该系统简化了传统的文本分类工作流程，无需大量的预处理和领域专业知识。我们在四个数据集上评估了几种 LLM、机器学习（ML）算法和基于神经网络（NN）结构的性能。结果表明，在情感分析、垃圾短信检测和多标签分类方面，某些 LLM 超越了传统方法。此外，研究还表明，通过少量或微调策略可以进一步提高系统性能，从而使微调模型在所有数据集上表现最佳。源代码和数据集可在此 GitHub 存储库中获取：https://github.com/yeyimilk/llm-zero-shot-classifiers。

9.Large Language Models for Tuning Evolution Strategies

标题:用于调整进化策略的大型语言模型

author:Oliver Kramer

date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.10999v1

摘要：
大型语言模型（LLM）具有世界知识和推理能力，是各种应用的强大工具。本文提出了一种反馈循环机制，利用这些能力有效调整进化策略（ES）参数。该机制包括一个提供编程指令、执行相应代码并进行全面分析的结构化流程。这个过程是专门为优化 ES 参数而设计的。该方法通过迭代循环运行，确保不断完善 ES 参数。首先，LLM 处理指令，生成或修改代码。然后执行代码，并仔细记录结果。随后对这些结果进行分析，从而获得推动进一步改进的见解。利用 LLaMA3 模型调整 ES 学习率的实验证明了这种方法的可行性。这项研究说明了如何利用 LLM 来提高 ES 算法的性能，并提出了类似反馈循环机制在各个领域的更广泛应用。

10.A survey on fairness of large language models in e-commerce: progress, application, and challenge

标题:电子商务中大型语言模型公平性调查：进展、应用与挑战

author:Qingyang Ren, Zilin Jiang, Jinghan Cao, Sijia Li, Chiqu Li, Yiyang Liu, Shuning Huo, Tiange He

publish:21 pages, 9 figures

date Time:2024-05-15

paper pdf:http://arxiv.org/pdf/2405.13025v1

摘要：
本调查探讨了大型语言模型（LLMs）在电子商务中的公平性，研究了其进展、应用及其面临的挑战。LLM 在电子商务领域已变得举足轻重，它提供了创新的解决方案并提升了客户体验。本研究对 LLM 在电子商务中的应用和挑战进行了全面调查。论文首先介绍了电子商务中使用 LLMs 的基本原则，详细说明了根据特定需求定制这些模型的预训练、微调和提示过程。然后，本文探讨了 LLM 在电子商务中的各种应用，包括产品评论（LLM 综合并分析客户反馈）、产品推荐（LLM 利用消费者数据推荐相关产品）、产品信息翻译（LLM 提高全球可访问性）以及产品问答（LLM 自动提供客户支持）。论文批判性地探讨了电子商务中的公平性挑战，强调了训练数据和算法中的偏差如何导致不公平的结果，如强化刻板印象或歧视某些群体。这些问题不仅会破坏消费者的信任，还会引发道德和法律问题。最后，这项工作概述了未来的研究方向，强调电子商务中需要更公平、更透明的 LLM。它倡导不断努力减少偏见，提高这些系统的公平性，确保它们有效、合乎道德地服务于多样化的全球市场。通过这项全面的分析，调查提供了对电子商务中法律硕士目前状况的整体看法，提供了对其潜力和局限性的见解，并为今后创造更公平、更具包容性的电子商务环境的努力提供了指导。

11.Spectral Editing of Activations for Large Language Model Alignment

标题:对激活进行频谱编辑以实现大型语言模型对齐

author:Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen

date Time:2024-05-15

paper pdf:http://arxiv.org/pdf/2405.09719v2

摘要：
大型语言模型（LLMs）经常表现出不良行为，例如生成不真实或有偏见的内容。在现有对齐方法的基础上，对其内部表征进行编辑已被证明能有效减少此类行为。我们提出了一种新颖的推理时编辑方法，即激活频谱编辑法（SEA），将输入表征投射到与正面演示（如真实）具有最大协方差的方向，同时最小化与负面演示（如幻觉）的协方差。我们还利用特征函数将我们的方法扩展到非线性编辑。我们使用六个不同规模和模型系列的开源 LLM 对真实性和偏差基准进行了广泛的实验。结果表明，SEA 在有效性、对类似任务的通用性以及计算和数据效率方面都具有优势。我们还表明，SEA 编辑对其他模型能力的负面影响有限。

12.A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

标题:大型语言模型和多模态大型语言模型在医学中的应用综述

author:Hanguang Xiao, Feizhong Zhou, Xingyue Liu, Tianqi Liu, Zhipeng Li, Xin Liu, Xiaoxuan Huang

date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08603v1

摘要：
自 ChatGPT 和 GPT-4 发布以来，大型语言模型（LLM）和多模态大型语言模型（MLLM）因其在理解、推理和生成方面强大的通用能力而备受关注，从而为人工智能与医学的结合提供了新的范式。本调查全面概述了 LLM 和 MLLM 的发展背景和原理，并探讨了它们在医学中的应用场景、挑战和未来发展方向。具体来说，本研究首先关注范式的转变，追溯从传统模型到 LLMs 和 MLLMs 的演变过程，总结模型结构，提供详细的基础知识。随后，调查以清晰的逻辑详细介绍了从构建、评估到使用 LLM 和 MLLM 的整个过程。随后，为了强调 LLM 和 MLLM 在医疗保健领域的重要价值，我们调查并总结了 6 个在医疗保健领域有前景的应用。最后，调查探讨了医学 LLM 和 MLLM 所面临的挑战，并为后续人工智能与医学的结合提出了可行的方法和方向。因此，本调查旨在从 LLMs 和 MLLMs 的背景、原理和临床应用的角度，为研究人员提供一份有价值的综合参考指南。

13.SpeechVerse: A Large-scale Generalizable Audio Language Model

标题:SpeechVerse：大规模通用音频语言模型

author:Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

publish:Single Column, 13 page

date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08295v1

摘要：
大型语言模型（LLM）在执行需要对自然语言指令进行语义理解的任务时表现出了惊人的能力。最近，许多工作进一步扩展了这一能力，以感知多模态音频和文本输入，但它们的能力往往仅限于特定的微调任务，如自动语音识别和翻译。因此，我们开发了 SpeechVerse，这是一个强大的多任务训练和课程学习框架，通过一小组可学习的参数将预训练的语音和文本基础模型结合起来，同时在训练过程中保持预训练模型的冻结状态。利用从语音基础模型中提取的连续潜表征对模型进行指令微调，从而在使用自然语言指令的各种语音处理任务中实现最佳的归零性能。我们进行了广泛的基准测试，包括在多个数据集和任务中将我们的模型性能与传统基准进行比较。此外，我们还通过在域外数据集、新颖提示和未见任务上进行测试，评估了该模型的通用指令跟踪能力。实证实验表明，我们的多任务 SpeechVerse 模型在 11 个任务中的 9 个任务上甚至优于传统的特定任务基线。

14.Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

标题:提示调整中更好的文本语义能否改善 VLM 的泛化？

author:Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian

date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07921v1

摘要：
除了对视觉语言模型（VLMs）进行微调之外，可学习的提示调整已成为一种有前途、节省资源的替代方法。尽管具有潜力，但有效学习提示符仍面临以下挑战：(i) 在低射场景中进行训练会导致过度拟合，从而限制了适应性，并在更新的类别或数据集上产生较弱的性能；(ii) 提示符调整的功效在很大程度上依赖于标签空间，在大类空间中性能下降，这表明在连接图像和类别概念方面存在潜在差距。在这项工作中，我们提出了这样一个问题：更好的文本语义是否有助于解决这些问题。特别是，我们引入了一种提示调整方法，该方法利用了从大型语言模型（LLM）中获得的类描述。我们的方法构建了图像和文本特征的部分级描述指导视图，随后对其进行调整，以学习更具通用性的提示语。我们在 11 个基准数据集上进行了全面的实验，结果表明我们的方法优于既有方法，取得了显著的改进。

15.RLHF Workflow: From Reward Modeling to Online RLHF

标题:RLHF 工作流程：从奖励建模到在线 RLHF

author:Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

publish:26 pages, 8 figures

date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07863v1

摘要：
我们在这份技术报告中介绍了从人类反馈中进行在线迭代强化学习（RLHF）的工作流程，据广泛报道，在最近的大型语言模型（LLM）文献中，RLHF 的性能远远超过离线学习。然而，现有的开源 RLHF 项目在很大程度上仍局限于离线学习环境。在本技术报告中，我们旨在填补这一空白，并为在线迭代 RLHF 提供易于复制的详细方法。特别是，由于在线人工反馈对于资源有限的开源社区来说通常是不可行的，因此我们首先使用一组不同的开源数据集构建偏好模型，并使用所构建的代理偏好模型来近似人工反馈。然后，我们讨论了在线迭代 RLHF 背后的理论见解和算法原理，接着是详细的实际应用。我们训练的 LLM（SFR-Iterative-DPO-LaMA-3-8B-R）在 LLM 聊天机器人基准（包括 AlpacaEval-2、Arena-Hard 和 MT-Bench）以及其他学术基准（如 HumanEval 和 TruthfulQA）上取得了令人印象深刻的性能。我们已经证明，监督微调（SFT）和迭代 RLHF 可以在完全开源的数据集上获得最先进的性能。此外，我们还公开了我们的模型、数据集和全面的分步代码指南。更多详细信息，请参阅 https://github.com/RLHFlow/RLHF-Reward-Modeling 和 https://github.com/RLHFlow/Online-RLHF。

16.News Recommendation with Category Description by a Large Language Model

标题:利用大语言模型进行分类描述的新闻推荐

author:Yuki Yada, Hayato Yamana

publish:5 pages, 5 figures

date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.13007v1

摘要：
个性化新闻推荐对于在线新闻平台来说至关重要，它可以帮助用户从海量在线内容中发现符合其兴趣的新闻文章。适当编码的内容特征（如文本、类别和图片）对于推荐至关重要。在这些特征中，新闻类别（如电视-金球奖、金融-房地产和新闻-政治）在理解新闻内容方面发挥着重要作用，启发我们加强类别描述。在本文中，我们提出了一种新颖的方法，利用大语言模型（LLM）自动生成翔实的类别描述，无需人工或特定领域的知识，并将其作为附加信息纳入推荐模型。在我们使用 MIND 数据集进行的综合实验评估中，对于最先进的基于内容的推荐模型（包括 NAML、NRMS 和 NPA），与没有使用 LLM 生成类别描述的基线方法相比，我们的方法成功地将 AUC 最多提高了 5.8%。这些结果验证了我们方法的有效性。代码见 https://github.com/yamanalab/gpt-augmented-news-recommendation。

17.Evaluating large language models in medical applications: a survey

标题:评估医疗应用中的大型语言模型：一项调查

author:Xiaolan Chen, Jiayang Xiang, Shanfu Lu, Yexin Liu, Mingguang He, Danli Shi

publish:4 figures, 1 table

date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07468v1

摘要：
大型语言模型（LLMs）已成为强大的工具，在包括医疗保健和医学在内的众多领域具有变革潜力。在医疗领域，从临床决策支持到患者教育，大型语言模型都大有可为。然而，由于医疗信息的复杂性和关键性，评估 LLM 在医疗环境中的性能面临着独特的挑战。本文全面概述了医疗 LLM 的评估情况，综合了现有研究的见解，重点介绍了评估数据来源、任务场景和评估方法。此外，本文还指出了医学 LLM 评估中的主要挑战和机遇，强调了持续研究和创新的必要性，以确保负责任地将 LLM 融入临床实践。

18.MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation

标题:MCS-SQL：利用多重提示和多选选择进行文本到 SQL 生成

author:Dongjun Lee, Choongwon Park, Jaehyuk Kim, Heesoo Park

date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07467v1

摘要：
大型语言模型（LLM）的最新进展使得基于上下文学习（ICL）的方法在文本到 SQL 任务中的性能明显优于微调方法。然而，在包括复杂模式和查询的基准（如 BIRD）上，它们的性能仍然大大低于人类专家。本研究考虑了 LLM 对提示的敏感性，并引入了一种新方法，利用多个提示来探索更广阔的搜索空间，寻找可能的答案，并有效地汇总这些答案。具体来说，我们通过使用多重提示进行模式链接，稳健地完善数据库模式。然后，我们根据完善的模式和不同的提示生成各种候选 SQL 查询。最后，根据置信度得分对候选查询进行过滤，并通过多选选择获得最优查询，然后提交给 LLM。在 BIRD 和 Spider 基准上进行评估时，所提出的方法的执行准确率分别达到了 65.5% 和 89.6%，明显优于之前基于 ICL 的方法。此外，就生成查询的准确性和效率而言，我们在 BIRD 上创造了新的 SOTA 性能。

19.DuetRAG: Collaborative Retrieval-Augmented Generation

标题:DuetRAG：协作检索-增强生成

author:Dian Jiao, Li Cai, Jingsheng Huang, Wenqiao Zhang, Siliang Tang, Yueting Zhuang

publish:5 pages

date Time:2024-05-12

paper pdf:http://arxiv.org/pdf/2405.13002v1

摘要：
检索增强生成（RAG）方法利用相关检索段落增强大语言模型（LLM）的输入，从而减少知识密集型任务中的事实错误。然而，由于缺乏相应的领域知识，当代的 RAG 方法在复杂的领域问题（如 HotPot QA）中存在不相关的知识检索问题，导致生成质量低下。为解决这一问题，我们提出了一种新颖的协作检索-增强生成框架 DuetRAG。我们的引导理念是同时整合领域微调和 RAG 模型，提高知识检索质量，从而提高生成质量。最后，我们展示了 DuetRAG 与人类专家研究人员在 HotPot QA 上的匹配情况。

20.Combining multiple post-training techniques to achieve most efficient quantized LLMs

标题:结合多种后训练技术，实现最高效的量化 LLM

author:Sayeh Sharify, Zifei Xu, Wanzin Yazar, Xin Wang

date Time:2024-05-12

paper pdf:http://arxiv.org/pdf/2405.07135v1

摘要：
大型语言模型（LLM）在复杂的语言建模任务中表现出色，但在计算和存储方面却面临着巨大的挑战。本文探讨了量化在缓解这些挑战方面的潜力。我们系统地研究了两种著名的后训练技术（SmoothQuant 和 GPTQ）的组合应用，并全面分析了它们之间的相互作用以及对推进 LLM 量化的影响。我们增强了这两种技术的通用性，使其能够量化到微缩（MX）格式，从而将其适用范围扩展到最初的定点格式目标之外。我们的研究表明，通过应用 GPTQ 和 SmoothQuant，并采用 MX 格式对模型进行量化，我们可以将 OPT 模型的大小显著减少 4 倍，将 LLaMA 模型的大小显著减少 3 倍，而复杂度的增加仅为 1-3%，可以忽略不计。

21.Large Language Models for Education: A Survey

标题:大型教育语言模型：调查

author:Hanyi Xu, Wensheng Gan, Zhenlian Qi, Jiayang Wu, Philip S. Yu

publish:Journal of Machine Learning and Cybernetics. 4 tables, 6 figures

date Time:2024-05-12

paper pdf:http://arxiv.org/pdf/2405.13001v1

摘要：
人工智能（AI）对传统教育有着深远的影响。近年来，大型语言模型（LLM）越来越多地应用于自然语言处理、计算机视觉、语音识别和自动驾驶等各种领域。LLM 还被应用于推荐、金融、政府、教育、法律事务和财务等多个领域。作为强大的辅助工具，LLM 融合了深度学习、预训练、微调和强化学习等多种技术。将 LLMs 用于智能教育（LLMEdu）已成为世界各国的重要战略方向。尽管 LLMs 在提高教学质量、改变教育模式、修正教师角色等方面已显示出巨大的前景，但该技术仍面临着一些挑战。在本文中，我们对 LLMEdu 进行了系统回顾，重点关注当前技术、挑战和未来发展。我们首先总结了 LLMEdu 的现状，然后介绍了 LLM 与教育的特点，以及将 LLM 纳入教育的好处。我们还回顾了将法律硕士融入教育行业的过程，以及相关技术的引入。最后，我们讨论了法律硕士教育面临的挑战和问题，以及对法律硕士教育未来优化的展望。

22.Linearizing Large Language Models

标题:大型语言模型线性化

author:Jean Mercat, Igor Vasiljevic, Sedrick Keh, Kushal Arora, Achal Dave, Adrien Gaidon, Thomas Kollar

date Time:2024-05-10

paper pdf:http://arxiv.org/pdf/2405.06640v1

摘要：
线性变换器已成为软最大关注度的亚二次方程时间替代方案，并因其固定大小的循环状态可降低推理成本而备受关注。然而，它们的原始表述存在扩展性差的问题，性能低于计算匹配变换器。最近的线性模型，如 RWKV 和 Mamba，试图通过提出新颖的时间混合和门控架构来解决这些缺点，但预训练大型语言模型需要大量的数据和计算投资。因此，对亚二次架构的探索受到了计算能力和高质量预训练数据集可用性的限制。作为预训练线性变换器的一种具有成本效益的替代方案，我们提出了可扩展的递归注意向上训练（SUPRA）。我们提出了一种将现有的大型预训练变换器升级训练为循环神经网络（RNN）的方法，只需少量计算预算。这使我们能够利用现有变压器 LLM 的强大预训练数据和性能，同时只需 5% 的训练成本。我们发现，我们的线性化技术能在标准基准上实现有竞争力的性能，但我们发现，即使是最大的线性模型，也存在持续的上下文学习和长上下文建模缺陷。我们的代码和模型可在 https://github.com/TRI-ML/linear_open_lm 上找到。

23.Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval

标题:通过自我定义增强型知识检索减少大型语言模型中的幻觉

author:Mengjia Niu, Hao Li, Jie Shi, Hamed Haddadi, Fan Mo

date Time:2024-05-10

paper pdf:http://arxiv.org/pdf/2405.06545v1

摘要：
大型语言模型（LLMs）在各个领域都表现出了非凡的能力，尽管它们容易产生幻觉，这给它们在医疗保健等关键领域的应用带来了巨大挑战。为解决这一问题，从知识图谱（KG）中检索相关事实被认为是一种很有前途的方法。现有的知识图谱增强方法往往是资源密集型的，需要对每个事实进行多轮检索和验证，这阻碍了它们在现实世界中的应用。在本研究中，我们提出了自我定义增强型知识图谱检索（Re-KGR），在医疗领域以较少的检索工作量增强 LLMs 响应的事实性。我们的方法利用不同标记的下一个标记预测概率分布和各种模型层，主要识别幻觉可能性高的标记，通过完善与这些标记相关的知识三元组来减少验证轮次。此外，我们还在后处理阶段利用检索到的知识纠正不准确的内容，从而提高了生成回复的真实性。在一个医疗数据集上的实验结果表明，我们的方法可以提高 LLM 在各种基础模型中的事实能力，这一点可以从最高的真实性得分中得到证明。

24.Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts

标题:用知识图谱提示大型语言模型，用于涉及长尾事实的问题解答

author:Wenyu Huang, Guancheng Zhou, Mirella Lapata, Pavlos Vougiouklis, Sebastien Montella, Jeff Z. Pan

date Time:2024-05-10

paper pdf:http://arxiv.org/pdf/2405.06524v1

摘要：
尽管大型语言模型（LLM）在执行各种 NLP 任务时非常有效，但在处理需要大量真实世界知识的任务时，尤其是在处理长尾事实（与长尾实体相关的事实）时，它们仍然显得力不从心。这一局限性凸显了利用非参数知识对 LLM 进行补充的必要性。为了解决这个问题，我们分析了不同类型的非参数知识的效果，包括文本段落和知识图谱（KGs）。由于 LLM 可能已经见过了大多数事实性问题解答数据集，为了便于分析，我们提出了一个全自动管道，用于创建一个需要长尾事实知识才能回答相关问题的基准。利用这一流程，我们推出了 LTGen 基准。我们使用提出的基准在不同的知识设置中评估了最先进的 LLM。我们的实验表明，单靠 LLM 难以回答这些问题，尤其是在长尾水平较高或需要丰富知识的情况下。然而，在使用非参数知识的情况下，相同模型的性能有了显著提高。我们观察到，在大多数情况下，用 KG 三元组提示 LLM 超越了使用最先进的检索器进行的基于段落的提示。此外，虽然用 KG 三元组和文档来提示 LLM 并不能持续提高知识覆盖率，但它可以显著减少生成内容中的幻觉。

25.A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models

标题:关于 RAG 与 LLM 相结合的调查：实现检索增强大型语言模型

author:Yujuan Ding, Wenqi Fan, Liangbo Ning, Shijie Wang, Hengyun Li, Dawei Yin, Tat-Seng Chua, Qing Li

date Time:2024-05-10

paper pdf:http://arxiv.org/pdf/2405.06211v1

摘要：
作为人工智能领域最先进的技术之一，检索增强生成（RAG）技术可以提供可靠的最新外部知识，为众多任务提供巨大便利。特别是在人工智能生成内容（AIGC）的时代，RAG 中的检索在提供额外知识方面的强大能力使检索增强生成技术能够帮助现有的生成式人工智能产生高质量的输出。最近，大型语言模型（LLMs）在语言理解和生成方面展现出了革命性的能力，但仍面临着固有的局限性，如幻觉和过时的内部知识。鉴于 RAG 在提供最新和有用的辅助信息方面的强大能力，检索增强大型语言模型应运而生，它利用外部权威知识库，而不是仅仅依靠模型内部知识，来提高 LLM 的生成质量。在本调查中，我们全面回顾了现有的检索增强大型语言模型（RA-LLMs）研究，涵盖了三个主要技术视角：架构、训练策略和应用。作为初步知识，我们简要介绍了 LLM 的基础和最新进展。然后，为了说明 RAG 对 LLMs 的实际意义，我们按应用领域对主流相关工作进行了分类，具体详述了每个应用领域所面临的挑战以及 RA-LLMs 的相应能力。最后，为了提供更深入的见解，我们讨论了当前的局限性和未来研究的几个有前途的方向。