AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.01-2024.11.05

文章目录~

1.Long Context RAG Performance of Large Language Models

标题:大型语言模型的长语境 RAG 性能

author:Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michael Carbin

publish:2024 NeurIPS workshop on Adaptive Foundation Models: Evolving AI for
Personalized and Efficient Learning

date Time:2024-11-05

paper pdf:http://arxiv.org/pdf/2411.03538v1

摘要
检索增强生成(RAG)已成为通过整合外部信息来提高大型语言模型(LLM)准确性的重要技术。随着支持越来越长上下文长度的 LLM 的出现,人们越来越有兴趣了解这些模型在 RAG 场景中的表现。这些新的长语境模型能否提高 RAG 性能?本文对 20 种流行的开源和商业 LLM 进行了全面研究,探讨了增加上下文长度对 RAG 性能的影响。我们在三个特定领域的数据集上运行了 RAG 工作流,同时将上下文总长度从 2,000 到 128,000 个标记(在可能的情况下为 2 百万个标记)不等,并报告了有关 RAG 应用中长上下文的优势和局限性的重要见解。我们的研究结果表明,虽然检索更多文档可以提高性能,但只有少数最新的 LLM 可以在超过 64k 标记的长上下文中保持稳定的准确性。我们还确定了长上下文场景中的不同故障模式,并提出了未来研究的领域。

2.Change Is the Only Constant: Dynamic LLM Slicing based on Layer Redundancy

标题:万变不离其宗基于层冗余的动态 LLM 切片

author:Razvan-Gabriel Dumitru, Paul-Ioan Clotan, Vikas Yadav, Darius Peteleaza, Mihai Surdeanu

publish:Accepted at EMNLP Findings 2024

date Time:2024-11-05

paper pdf:http://arxiv.org/pdf/2411.03513v1

摘要
本文通过在大型语言模型(LLM)中对特定层进行动态剪枝,引入了一种新颖的模型压缩方法,从而增强了 SliceGPT 所建立的传统方法。通过从恒定切分过渡到动态切分,我们的方法利用了新提出的层冗余(LR)分数,该分数通过测量输入与层输出的余弦相似度来评估各层对其输入的改变程度。我们使用这个分数来根据冗余度修剪单个层的部分内容,这样所有层的平均修剪百分比就是一个固定值。我们使用 Llama3-8B 和 Mistral-7B 等模型在多个数据集上进行了大量实验,评估了不同的切分基础和百分比,以确定兼顾效率和性能的最佳配置。我们的研究结果表明,与恒定切片方法相比,我们的动态切片方法不仅能保持模型性能,而且在很多情况下还能提高模型性能。例如,在一些设置中,我们发现与 SliceGPT 基线相比,性能最多可提高 5%。此外,我们还在多个基准测试中观察到迷惑性降低了 7%,验证了我们方法的有效性。代码、模型权重和数据集开源于 https://github.com/RazvanDu/DynamicSlicing。

3.Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology

标题:利用教育技术中的大语言模型自动生成数学问题提示

author:Junior Cedric Tonga, Benjamin Clement, Pierre-Yves Oudeyer

publish:Accepted at NeurIPS 2024 Workshop on Large Foundation Models for
Educational Assessment (FM-Assess)

date Time:2024-11-05

paper pdf:http://arxiv.org/pdf/2411.03495v1

摘要
智能辅导系统(ITS)中的大型语言模型(LLM)自动生成提示的功能已经显示出提高学生学习效果的潜力。然而,要生成能解决学生误解并符合特定教育目标的、在教学上合理的提示仍具有挑战性。这项工作探讨了如何利用 LLM(GPT-4o 和 Llama-3-8B-instruct)作为教师,为通过 LLM(GPT-3.5-turbo、Llama-3-8B-Instruct 或 Mistral-7B-instruct-v0.3 )模拟的学生生成有效的提示,以解决为人类高中生设计的数学练习,这些练习是利用认知科学原理设计的。我们在此介绍几个方面的研究:1)确定模拟学生在中学数学练习中的错误模式;2)为作为教师的 GPT-4o 开发各种提示,并评估它们在生成提示以帮助模拟学生进行自我纠正方面的有效性;3)根据生成相关提示和促进纠错的能力,用作为教师的 Llama-3-8B-Instruct 测试表现最佳的提示,以便与 GPT-4o 进行性能比较。结果表明,温度设置越高,模型错误越多。值得注意的是,当 GPT-4o 生成提示时,最有效的提示包括针对特定错误的提示以及基于常见数学错误的一般提示。有趣的是,作为教师的 Llama-3-8B-Instruct 显示出比 GPT-4o 更好的整体性能。此外,作为学生的 LLMs,特别是 GPT-3.5-turbo 在收到提示后,解决问题和修改答案的能力也有了显著提高,尤其是在较低的温度设置下。然而,随着温度的升高,Mistral-7B-Instruct 等模型的性能有所下降。

4.Extracting Unlearned Information from LLMs with Activation Steering

标题:通过激活引导从 LLM 中提取未学习信息

author:Atakan Seyitoğlu, Aleksei Kuvshinov, Leo Schwinn, Stephan Günnemann

publish:Accepted at NeurIPS 2024 Workshop Safe Generative AI

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02631v1

摘要
对大型语言模型(LLM)进行大量预训练的一个意外后果,就是逐字记忆训练数据的片段,这些片段可能包含敏感信息或版权信息。近年来,“非学习”(unlearning)作为一种解决方案应运而生,它能在训练后有效删除模型中的敏感知识。然而,最近的研究表明,恶意行为者仍然可以通过各种攻击提取所谓被删除的信息。尽管如此,目前的攻击仍会检索可能的候选代集,而无法精确定位包含实际目标信息的输出。我们提出了激活引导法,作为一种从未学过的 LLM 中精确检索信息的方法。我们引入了一种生成转向向量的新方法,命名为匿名激活转向。此外,我们还开发了一种简单的词频法,以便在检索未学习信息时从一组候选词中找出正确答案。我们对多种未学习技术和数据集进行的评估表明,激活转向成功地恢复了一般知识(如广为人知的虚构人物),同时也揭示了在检索特定信息(如有关非公众人物的详细信息)时的局限性。总之,我们的研究结果表明,从未学过的模型中进行精确的信息检索是可能的,这也凸显了当前未学过技术的一个严重弱点。

5.TeleOracle: Fine-Tuned Retrieval-Augmented Generation with Long-Context Support for Network

标题:TeleOracle:支持网络长文本的微调检索-增强生成

author:Nouf Alabbasi, Omar Erak, Omar Alhussein, Ismail Lotfi, Sami Muhaidat, Merouane Debbah

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02617v1

摘要
电信行业的快速发展要求智能系统能够管理复杂的网络并适应新兴技术。虽然大型语言模型(LLM)在应对这些挑战方面大有可为,但由于边缘设备的限制和文档的不一致,它们在电信环境中的部署面临着巨大的限制。为了弥补这一差距,我们推出了基于 Phi-2 小语言模型(SLM)的电信专用检索增强生成(RAG)系统 TeleOracle。为了改进上下文检索,TeleOracle 采用了两阶段检索器,其中包括语义分块以及关键词和语义混合搜索。此外,我们还在推理过程中扩展了上下文窗口,以提高模型在开放式查询中的性能。我们还采用了低等级自适应技术,以实现高效微调。对模型性能的全面分析表明,在下游问答(QnA)任务中,我们的 RAG 框架能有效地将 Phi-2 与电信领域相匹配,与基础 Phi-2 模型相比,准确率提高了 30%,总体准确率达到 81.20%。值得注意的是,我们的研究表明,我们的模型不仅与更大型的 LLMs 性能相当,而且还获得了更高的忠实度分数,这表明我们的模型更贴近检索到的上下文。

6.MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs

标题:MM-Embed:利用多模态 LLM 进行通用多模态检索

author:Sheng-Chieh Lin, Chankyu Lee, Mohammad Shoeybi, Jimmy Lin, Bryan Catanzaro, Wei Ping

publish:We release the model weights at:
https://huggingface.co/nvidia/MM-Embed

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02571v1

摘要
最先进的检索模型通常针对的是直接搜索场景,在这种场景中,检索任务是固定的(例如,找到一段话来回答一个特定的问题),查询和检索结果都只支持单一的模式。本文介绍了利用多模态大语言模型(MLLM)推进信息检索的技术,从而实现更广泛的搜索场景,即通用多模态检索,在这种搜索场景中,多种模态和不同的检索任务都能得到满足。为此,我们首先研究了将 MLLM 作为双编码器检索器在 10 个数据集和 16 个检索任务上进行微调的问题。我们的实证结果表明,经过微调的 MLLM 检索器能够理解由文本和图像组成的高难度查询,但由于 MLLM 的模态偏差,在跨模态检索任务中的表现不如较小的 CLIP 检索器。为了解决这个问题,我们提出了模式感知硬负挖掘,以减轻 MLLM 检索器表现出的模式偏差。其次,我们建议不断微调通用多模态检索器,以增强其文本检索能力,同时保持多模态检索能力。因此,我们的模型 MM-Embed 在跨越多个领域和任务的多模态检索基准 M-BEIR 上取得了最先进的性能,同时在 MTEB 检索基准上也超过了最先进的文本检索模型 NV-Embed-v1。最后,我们还探索了将现成的 MLLMs 作为 "0-shot reerankers "来提示多模态检索器中的候选者,以完善候选者的排名。我们发现,当用户查询(如文本-图像组成的查询)更复杂、更难理解时,通过提示-重排,MLLMs 可以进一步改进多模态检索。这些发现也为未来推进通用多模态检索铺平了道路。

7.Enhancing Table Representations with LLM-powered Synthetic Data Generation

标题:用 LLM 驱动的合成数据生成增强表格表示法

author:Dayu Yang, Natawut Monaikul, Amanda Ding, Bozhao Tan, Kishore Mosaliganti, Giri Iyengar

publish:the Thirty-Eighth Annual Conference on Neural Information Processing
Systems Table Representation Workshop

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.03356v1

摘要
在数据驱动决策的时代,准确的表格级表示和高效的表格推荐系统对于改进表格管理、发现和分析越来越重要。然而,现有的表格数据表示方法往往面临局限性,这主要是由于它们侧重于单元级任务和缺乏高质量的训练数据。为了应对这些挑战,我们首先在数据驱动型企业的数据转换活动中为表格相似性制定了明确的定义。这一定义是合成数据生成的基础,而合成数据生成需要一个定义明确的数据生成过程。在此基础上,我们提出了一个新颖的合成数据生成管道,利用大型语言模型(LLM)的代码生成和数据操作能力,创建一个为表级表示学习量身定制的大规模合成数据集。通过对表格推荐任务的人工验证和性能比较,我们证明了我们的管道生成的合成数据符合我们提出的表格相似性定义,并显著增强了表格表示,从而提高了推荐性能。

8.Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models

标题:利用基于知识的大型语言模型改进科学假设的生成

author:Guangzhi Xiong, Eric Xie, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02382v1

摘要
从自然语言处理到复杂的问题解决任务,大型语言模型(LLM)在各个科学领域都展现出了非凡的能力。它们理解和生成类人文本的能力为推进科学研究开辟了新的可能性,使数据分析、文献综述甚至实验设计等任务成为可能。在这方面,LLM 最有前途的应用之一是假设生成,它可以通过分析现有知识确定新的研究方向。然而,尽管 LLMs 潜力巨大,但它也容易产生 “幻觉”,即听起来可信但实际上不正确的输出。在要求严格准确性和可验证性的科学领域,这样的问题带来了巨大的挑战,有可能导致错误或误导性的结论。为了克服这些挑战,我们提出了 KG-CoI(知识基础思想链),这是一个新颖的系统,通过整合知识图谱(KGs)中的外部结构化知识来增强 LLM 假设的生成。KG-CoI 通过结构化的推理过程引导 LLM,将其输出组织为一个想法链(CoI),并包括一个由 KG 支持的幻觉检测模块。通过在新构建的假设生成数据集上进行实验,我们证明了 KG-CoI 不仅提高了 LLM 生成假设的准确性,还减少了其推理链中的幻觉,突出了其在推进现实世界科学研究方面的有效性。

9.“Give Me BF16 or Give Me Death”? Accuracy-Performance Trade-Offs in LLM Quantization

标题:"给我 BF16 还是给我死亡?LLM 量化中的精度与性能权衡

author:Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02355v1

摘要
尽管用于推理加速的大型语言模型(LLM)量化很受欢迎,但与各种量化格式相关的准确性-性能权衡仍存在很大的不确定性。我们在整个 Llama-3.1 模型系列上,通过学术基准和实际任务,对流行的量化格式(FP8、INT8、INT4)进行了评估,并对量化精度进行了全面的实证研究。此外,我们的研究还考察了量化模型生成的文本与未压缩模型生成的文本之间的差异。除了基准之外,我们还介绍了一些量化改进,这些改进使我们获得了最先进的准确度恢复结果。我们的研究涵盖了 500,000 多项单独评估,得出了几个重要发现:(1) FP8 权重和激活量化 (W8A8-FP) 在所有模型规模中都是无损的;(2) INT8 权重和激活量化 (W8A8-INT) 如果调整得当,准确度下降的幅度会出奇地低,仅为 1-3%;(3) INT4 仅权重量化 (W4A16-INT) 与 8 位整数权重和激活量化相比具有竞争力。为了解决特定部署环境下的 "最佳 "格式问题,我们在各种 GPU 架构上使用流行的开源 vLLM 框架进行了推理性能分析。我们发现,W4A16 为同步部署和中层 GPU 上的异步部署提供了最佳成本效益。同时,W8A8 格式在高端 GPU 上对中型和大型模型进行异步 "连续批处理 "部署时表现出色。我们的研究结果为在不同规模和性能要求下部署量化 LLM 提供了一套实用指南。

10.Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

标题:稀疏法:实现具有更大激活稀疏性的大型语言模型

author:Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

publish:23 pages, 13 figures, 6 tables

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02335v1

摘要
激活稀疏性表示激活输出中存在大量弱贡献元素,这些元素可以被消除,从而使许多与大型语言模型(LLM)相关的重要应用受益。虽然在 LLMs 中提高激活稀疏性值得深入研究,但现有的工作缺乏对激活稀疏性和潜在影响因素之间相关性的全面定量研究。在本文中,我们对基于解码器的纯变换器 LLM 中激活稀疏性的定量扩展特性和影响因素进行了全面研究。具体来说,我们提出了 PPL- p % p\% p% 稀疏度,这是一种精确且性能感知的激活稀疏度量,适用于任何激活函数。通过大量实验,我们发现了几个重要现象。首先,不同的激活函数表现出相似的性能,但训练时间的稀疏性趋势却相反。对于 SiLU 激活的 LLM 和 ReLU 激活的 LLM,激活比(即 1-\mathrm{sparsity\ratio}$)随着训练数据量的增加,分别呈收敛上升幂律和对数空间下降幂律。这表明,ReLU 作为激活函数比 SiLU 更有效,可以利用更多的训练数据来提高激活稀疏性。其次,在某个瓶颈点以下,激活比随宽度-深度比线性增加,这表明在固定参数范围内,深度架构具有潜在优势。最后,在宽度-深度比相似的情况下,我们意外地发现激活稀疏性的极限值随参数标度的变化很微弱,也就是说,LLM 内部的激活模式对参数标度不敏感。这些关于激活稀疏性更高的 LLM 的经验规律对于提高 LLM 的效率和可解释性具有重要意义。

11.Evaluating Creative Short Story Generation in Humans and Large Language Models

标题:评估人类和大型语言模型的创意短篇小说生成能力

author:Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas

publish:14 pages

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02316v2

摘要
讲故事是人类交流的一个基本方面,它在很大程度上依赖于创造力来产生新颖、恰当和令人惊讶的叙述。虽然大型语言模型(LLMs)最近已证明有能力生成高质量的故事,但它们的创造能力仍未得到充分探索。以往的研究要么侧重于需要简短回答的创造力测试,要么主要是将模型在生成故事方面的表现与专业作家进行比较。然而,法学硕士在撰写短篇故事时是否表现出与普通人同等的创造力,这个问题仍然没有答案。在这项研究中,我们对法学硕士和普通人在短篇小说创作中的创造力进行了系统分析。我们使用心理学中常用来评估人类创造力的五句创意故事任务,从新颖性、惊喜和多样性等多个创造力维度对模型和人类生成的故事进行自动评估。我们的研究结果表明,虽然 LLM 可以生成风格复杂的故事,但与普通人类作家相比,他们在创造力方面往往有所欠缺。

12.Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention

标题:利用低维投射注意力对大型语言模型进行可扩展的高效训练

author:Xingtai Lv, Ning Ding, Kaiyan Zhang, Ermo Hua, Ganqu Cui, Bowen Zhou

publish:Accepted to EMNLP 2024 (Main Conference)

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02063v1

摘要
同时提高大型语言模型(LLM)的有效性和效率是一个关键而又具有挑战性的研究目标。在本文中,我们发现低阶预训练通常被认为是会影响性能的高效方法,但当精确瞄准减少参数时,低阶预训练也能产生可扩展的效果。具体来说,将低维模块仅应用于注意力层–解决了这一问题,同时提高了效果和效率。我们将这种结构称为低维投射注意力(LPA),并提供了解释性分析。通过在 1.3 亿、3.7 亿和扩展到 3B 的参数范围内进行大量实验,我们验证了 LPA 的有效性和可扩展性。我们的结果表明,与 vanilla Transformer 相比,LPA 模型可以节省多达 12.4% 的时间,同时在测试复杂度 (ppl) 和下游任务方面实现约 5% 的改进。

13.TableGPT2: A Large Multimodal Model with Tabular Data Integration

标题:TableGPT2:表格式数据集成的大型多模态模型

author:Aofeng Su, Aowen Wang, Chao Ye, Chen Zhou, Ga Zhang, Gang Chen, Guangcheng Zhu, Haobo Wang, Haokai Xu, Hao Chen, Haoze Li, Haoxuan Lan, Jiaming Tian, Jing Yuan, Junbo Zhao, Junlin Zhou, Kaizhe Shou, Liangyu Zha, Lin Long, Liyao Li, Pengzuo Wu, Qi Zhang, Qingyi Huang, Saisai Yang, Tao Zhang, Wentao Ye, Wufang Zhu, Xiaomeng Hu, Xijun Gu, Xinjie Sun, Xiang Li, Yuhang Yang, Zhiqing Xiao

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.02059v3

摘要
GPT、Claude、LLaMA 和 Qwen 等模型的出现重塑了人工智能应用,为各行各业带来了大量新机遇。然而,尽管表格数据在现实世界的众多领域中发挥着基础性作用,但其集成仍然明显不足。 这一差距之所以至关重要,主要有三个原因。首先,数据库或数据仓库的数据集成对于高级应用来说至关重要;其次,表格数据资源庞大且基本未被开发,为分析提供了巨大的潜力;第三,商业智能领域特别需要适应性强的精确解决方案,而目前的许多 LLM 可能难以提供这种解决方案。 为此,我们推出了 TableGPT2,这是一个经过严格预训练和微调的模型,使用了超过 593.8K 个表和 236 万个高质量的查询-表-输出图元,这是以往研究中前所未有的表相关数据规模。这种广泛的训练使 TableGPT2 能够在以表为中心的任务中表现出色,同时保持强大的通用语言和编码能力。 TableGPT2 的主要创新之一是其新颖的表编码器,专门用于捕捉模式级和单元级信息。该编码器增强了模型处理含糊查询、缺失列名以及实际应用中常见的不规则表格的能力。与视觉语言模型类似,这种开创性的方法与解码器集成在一起,形成了一个强大的大型多模态模型。 我们相信结果是令人信服的:在 23 个基准指标中,TableGPT2 在 7B 模型和 72B 模型中的平均性能比之前的基准中立 LLM 分别提高了 35.20% 和 49.32%,同时还保持了强大的通用功能。

14.Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification

标题:利用标签语义和元标签细化进行多标签问题分类

author:Shi Dong, Xiaobei Niu, Rui Zhong, Zhifeng Wang, Mingzhang Zuo

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.01841v1

摘要
由于内容的复杂性和海量性,在快速发展的在线教育领域,对教育资源进行准确标注至关重要。现有的分类方法面临着多标签背景下标签语义重叠和分布不平衡的挑战,这阻碍了有效的个性化学习和资源推荐。本文介绍了一种新颖的检索重排方法 RR2QC,这是一种利用标签语义和元标签细化实现多标签问题分类的检索重排方法。首先,RR2QC 利用标签组内和标签组间的语义关系来加强多标签背景下的预训练策略。其次,引入类中心学习任务,将标签文本整合到下游训练中,确保问题与标签语义一致,检索出最相关的标签序列。最后,该方法将标签分解为元标签,并训练元标签分类器对检索到的标签序列进行重新排序。这样,RR2QC 通过学习其他标签中经常出现的元标签,增强了对长尾标签的理解和预测能力。此外,RR2QC 还利用数学 LLM 生成问题解决方案,提取潜在信息,进一步完善模型的洞察力。实验结果表明,在多个教育数据集上,RR2QC 的 Precision@k 和 F1 分数均优于现有的分类方法,使其成为在线教育内容利用的有效增强工具。

15.SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

标题:SALSA:基于汤的对齐学习,增强 RLHF 的适应性

author:Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.01798v1

摘要
在大型语言模型(LLM)开发过程中,从人类反馈中强化学习(RLHF)对于使模型符合人类的价值观和偏好至关重要。RLHF 传统上依赖于当前策略与冻结的初始策略之间的库尔贝克-莱伯勒(KL)发散度作为参考,该发散度会作为一种惩罚添加到策略优化算法中,如 “近端策略优化”(PPO)。虽然这种约束可以防止模型偏离初始检查点太远,但它限制了对奖励景观的探索,降低了模型发现更高质量解决方案的能力。因此,策略优化通常会被困在参数空间的一个狭窄区域,从而导致次优的排列和性能。本文介绍了 SALSA(基于汤的更强适应性对齐学习),这是一种新颖的方法,旨在通过对两个独立的监督微调(SFT)模型进行权重空间平均,创建一个更灵活、定位更准确的参考模型,从而克服这些局限性。这种模型汤允许更大的 KL 发散偏差,并在不牺牲稳定性的情况下探索解空间的前景区域。通过利用这种更稳健的参考模型,SALSA 可促进更好的探索,获得更高的回报,并提高模型的稳健性、分布外泛化和性能。我们在各种基准(MT-Bench、Arena-Hard、UltraFeedback)上对流行的开放模型(Llama2-7B、Mistral-7B 和 Gemma-2B)进行了广泛的实验,验证了 SALSA 的有效性。

16.A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

标题:大型语言模型时代的小型语言模型综合调查:技术、改进、应用、与 LLM 的合作以及可信度

author:Fali Wang, Zhiwei Zhang, Xianren Zhang, Zongyu Wu, Tzuhao Mo, Qiuhao Lu, Wanjing Wang, Rui Li, Junjie Xu, Xianfeng Tang, Qi He, Yao Ma, Ming Huang, Suhang Wang

publish:76 pages, 26 figures, 14 tables

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.03350v1

摘要
大型语言模型(LLM)在文本生成、问题解答和推理方面展现出了新的能力,为各种任务和领域提供了便利。尽管 LLM(如 LaPM 540B 和 Llama-3.1 405B)在各种任务中表现出色,但由于参数规模大、计算需求高,它们面临着种种限制,通常需要使用云 API,这就引发了隐私问题,限制了边缘设备上的实时应用,并增加了微调成本。此外,由于特定领域知识不足,LLM 在医疗保健和法律等专业领域往往表现不佳,这就需要建立专门的模型。因此,小型语言模型(SLM)因其推理延迟低、成本效益高、开发效率高、易于定制和适应性强而越来越受到青睐。这些模型尤其适用于资源有限的环境和领域知识获取,解决了 LLMs 面临的挑战,并被证明是需要本地化数据处理以保护隐私、最小推理延迟以提高效率以及通过轻量级微调获取领域知识的应用的理想选择。对 SLM 不断增长的需求刺激了广泛的研究和开发。然而,对 SLM 的定义、获取、应用、增强和可靠性等相关问题的全面调查仍然缺乏,这促使我们对这些主题进行详细调查。SLM 的定义差异很大,因此为了统一定义,我们建议根据 SLM 执行专门任务的能力和是否适合资源受限的环境来定义 SLM,并根据新兴能力的最小规模和资源受限条件下可持续的最大规模设定边界。在其他方面,我们对相关模型/方法进行了分类,并为每一类模型/方法制定了通用框架,以便有效地增强和利用 SLM。

17.RAGViz: Diagnose and Visualize Retrieval-Augmented Generation

标题:RAGViz:诊断和可视化检索增强生成

author:Tevin Wang, Jingyuan He, Chenyan Xiong

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.01751v1

摘要
检索增强生成(RAG)将特定领域来源的知识结合到大型语言模型中,从而为生成答案奠定基础。当前的 RAG 系统缺乏对上下文文档和模型对这些文档的关注度的可定制可见性。我们提出的 RAGViz 是一种 RAG 诊断工具,可视化生成的标记在检索文档中的关注度。通过内置的用户界面、检索索引和大语言模型(LLM)骨干,RAGViz 提供了两个主要功能:(1)标记和文档级注意力可视化;(2)上下文文档添加和删除时的生成比较。作为一个开源工具包,RAGViz 可通过自定义嵌入模型和 HuggingFace 支持的 LLM 骨干轻松托管。RAGViz 使用混合 ANN(近似近邻)索引、内存效率高的 LLM 推断工具和自定义上下文片段方法,在中等 GPU 节点上的中位查询时间约为 5 秒,运行效率很高。我们的代码见 https://github.com/cxcscmu/RAGViz。RAGViz 的演示视频请访问 https://youtu.be/cTAbuTu6ur4。

18.RuAG: Learned-rule-augmented Generation for Large Language Models

标题:RuAG:大型语言模型的学习规则增强生成

author:Yudi Zhang, Pei Xiao, Lu Wang, Chaoyun Zhang, Meng Fang, Yali Du, Yevgeniy Puzyrev, Randolph Yao, Si Qin, Qingwei Lin, Mykola Pechenizkiy, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

date Time:2024-11-04

paper pdf:http://arxiv.org/pdf/2411.03349v1

摘要
上下文学习(ICL)和检索增强生成(RAG)因其通过纳入外部知识来增强 LLMs 的推理能力而备受关注,但它们却因上下文窗口大小有限而导致信息注入不足。为此,我们提出了一个新颖的框架–RuAG,用于自动将大量离线数据提炼为可解释的一阶逻辑规则,并将其注入 LLM,以增强其推理能力。我们的方法首先根据 LLM 的常识制定搜索过程,LLM 自动定义头部和主体谓词。然后,RuAG 应用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)来处理组合搜索空间,并有效地从数据中发现逻辑规则。由此产生的逻辑规则被翻译成自然语言,从而可以有针对性地注入知识,并无缝集成到 LLM 提示中,用于 LLM 的下游任务推理。我们在公共和私人工业任务(包括自然语言处理、时间序列、决策和工业任务)中对我们的框架进行了评估,证明它能有效增强 LLM 在不同任务中的能力。

19.High-performance automated abstract screening with large language model ensembles

标题:利用大型语言模型集进行高性能自动摘要筛选

author:Rohan Sanghera, Arun James Thirunavukarasu, Marc El Khoury, Jessica O’Logbon, Yuqing Chen, Archie Watt, Mustafa Mahmood, Hamid Butt, George Nishimura, Andrew Soltan

publish:RS and AJT are joint-first authors

date Time:2024-11-03

paper pdf:http://arxiv.org/pdf/2411.02451v1

摘要
大型语言模型(LLM)在需要处理和解释输入文本的任务中表现出色。摘要筛选是系统性综述的一项劳动密集型工作,需要对文献检索中发现的大量研究重复应用纳入和排除标准。在此,我们在《科克伦图书馆》(Cochrane Library)的一期系统综述中试用了 LLM(GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、Llama 3 70B、Gemini 1.5 Pro 和 Claude Sonnet 3.5),以评估它们在摘要筛选中进行零次二元分类的准确性。对 800 条记录子集进行的试验确定了最佳提示策略,并证明 LLM 在灵敏度(LLMmax = 1.000,humanmax = 0.775)、精确度(LLMmax = 0.927,humanmax = 0.911)和平衡精确度(LLMmax = 0.904,humanmax = 0.865)方面的表现优于人类研究人员。在每个重复搜索结果(n = 119,691)中试用了性能最佳的 LLM 提示组合,结果显示出一致的灵敏度(范围 0.756-1.000),但精确度有所降低(范围 0.004-0.096)。66 个 LLM-人类和 LLM-LLM 组合表现出完美的灵敏度,最大精确度为 0.458,在较大的试验中观察到的性能下降较少。不同综述之间的性能差异很大,这凸显了在部署前进行特定领域验证的重要性。LLM 可在保持或提高准确性和灵敏度的同时,降低系统性回顾的人力成本。系统性综述是循证医学的基础,而 LLM 可以帮助提高这种研究模式的效率和质量。

20.One Arrow, Many Targets: Probing LLMs for Multi-Attribute Controllable Text Summarization

标题:一箭多靶:探究多属性可控文本摘要的 LLMs

author:Tathagato Roy, Rahul Mishra

date Time:2024-11-02

paper pdf:http://arxiv.org/pdf/2411.01213v1

摘要
文本摘要是自然语言处理(NLP)界一项成熟的任务。然而,针对用户需求的可控摘要直到最近才逐渐受到重视。虽然有很多人在探索文本摘要的可控性,但对多属性可控摘要(MACS)的研究仍然有限。为了弥补这一不足,本研究通过大语言模型(LLM)的视角,利用各种学习范式,特别是低阶适配器,对 MACS 任务进行了研究。我们尝试了不同的流行适配器微调策略,以评估由此产生的模型在保留与多种可控属性相关的线索和模式方面的有效性。此外,我们还提出并评估了一种新颖的分层适配器融合技术,以整合来自两个不同可控属性的学习结果。随后,我们介绍了研究结果,讨论了遇到的挑战,并提出了推进 MACS 任务的潜在途径。

21.Towards Multi-Source Retrieval-Augmented Generation via Synergizing Reasoning and Preference-Driven Retrieval

标题:通过协同推理和偏好驱动检索实现多源检索-增强生成

author:Qingfei Zhao, Ruobing Wang, Xin Wang, Daren Zha, Nan Mu

publish:5 pages, 1 figure

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00689v1

摘要
检索增强生成(RAG)已成为一种可靠的外部知识增强技术,可缓解大型语言模型(LLM)中的幻觉问题和参数化知识限制。现有的自适应 RAG(ARAG)系统由于无法在正确的时间选择正确的检索源,很难有效地探索多个检索源。为了解决这个问题,我们提出了一个多源 ARAG 框架(称为 MSPR),它将推理和偏好驱动检索协同起来,以适应性地决定 "何时检索、检索什么 "以及 “使用哪个检索源”。为了更好地适应不同特征的检索源,我们还采用了检索行动调整和答案反馈策略。它们使我们的框架能够充分探索高质量的主要来源,同时在适当的时候使用次要来源进行补充。在三个数据集上进行的大量多维实验证明了 MSPR 的优越性和有效性。

22.Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model

标题:通过对基于词嵌入的检索增强型大语言模型进行指令调试,改进少量跨域命名实体识别能力

author:Subhadip Nandi, Neeraj Agrawal

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00451v1

摘要
少量跨域 NER 是利用数据丰富的源域知识对数据匮乏的目标域进行实体识别的过程。以前大多数先进的 (SOTA) 方法都使用预先训练好的语言模型 (PLM) 进行跨域 NER。然而,这些模型通常是针对特定领域的。为了成功地将这些模型用于新的目标领域,我们需要修改模型架构,或者使用新领域的数据对模型进行微调。这两种方法都会导致为每个目标领域创建全新的 NER 模型,这在实际应用中是不可行的。最近,有几项研究尝试使用 LLMs 来解决 Few-Shot 跨域 NER 问题。然而,这些方法大多过于昂贵,不适合实际应用,或者难以遵循 LLM 的提示指令。在本文中,我们提出了 IF-WRANER(基于词嵌入的检索增强命名实体识别大语言模型),这是一种检索增强 LLM,针对 NER 任务进行了微调。凭借在 LLM 微调过程中使用的正则化技术,以及在检索提示中示例时采用词级嵌入而非句子级嵌入,IF-WRANER 能够超越以前的 SOTA Few-Shot 跨域 NER 方法。我们在开源的 CrossNER 数据集上对该模型的性能进行了基准测试,证明了该模型的有效性,与之前的 SOTA 模型相比,该模型的 F1 分数提高了 2% 以上。我们已在一家企业的多个客户服务领域部署了该模型。通过 IF-WRANER 进行准确的实体预测,有助于将客户引导到这些领域的自动化工作流中,从而将人工座席的升级率降低了近 15%,每年为公司节省数百万美元。

23.Self-Evolved Reward Learning for LLMs

标题:LLM 的自我进化奖励学习

author:Chenghua Huang, Zhizhen Fan, Lu Wang, Fangkai Yang, Pu Zhao, Zeqi Lin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

publish:19 pages,6 figures

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00418v1

摘要
从人类反馈中强化学习(RLHF)是使语言模型与人类偏好相一致的关键技术,在 GPT-4、ChatGPT 和 Llama 2 等会话模型的成功中发挥着举足轻重的作用。采用 RLHF 的核心挑战在于训练可靠的奖励模型(RM),这依赖于通常由人类专家或高级人工智能系统提供的高质量标签。这些方法成本高昂,而且可能会引入影响语言模型响应的偏差。随着语言模型的改进,人类输入对进一步提高其性能的作用可能会减弱。在本文中,我们提出了自进化奖励学习(SER),这是一种新颖的方法,在这种方法中,RM 会生成额外的训练数据来迭代改进自身。我们使用 Mistral 和 Llama 3 等模型在 HH-RLHF 和 UltraFeedback 等多个数据集上进行了广泛的实验,并将 SER 与各种基线进行了比较。我们的结果表明,即使人类标注的数据有限,从自我反馈中学习也能稳健地提高 RM 性能,从而提升大型语言模型 (LLM) 的能力。

24.MoD: A Distribution-Based Approach for Merging Large Language Models

标题:MoD:基于分布的大型语言模型合并方法

author:Quy-Anh Dang, Chris Ngo

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00406v1

摘要
大型语言模型(LLMs)使得许多专门的、针对特定任务的变体得以开发。然而,这些单个模型的维护和部署在资源利用和运行效率方面提出了巨大挑战。在这项工作中,我们提出了 \textit{Mixture of Distributions (MoD)} 框架,这是一种用于合并 LLM 的新方法,它直接针对 LLM 的输出概率分布而不是模型权重进行操作。与传统的权重平均法不同,MoD 有效地保留了单个模型的专业能力,同时实现了跨任务的高效知识共享。通过在使用 Qwen2.5 模型的数学推理基准上进行大量实验,我们证明了 MoD 在多个基准上的表现明显优于现有的模型合并技术。所有代码、数据和实验材料均发布于 https://github.com/knovel-eng/mod。

25.Rationale-Guided Retrieval Augmented Generation for Medical Question Answering

标题:医学问题解答的理性引导检索增强生成

author:Jiwoong Sohn, Yein Park, Chanwoong Yoon, Sihyeon Park, Hyeon Hwang, Mujeen Sung, Hyunjae Kim, Jaewoo Kang

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00300v1

摘要
大型语言模型(LLM)在生物医学领域的应用具有巨大潜力,但它们却与幻觉和过时知识作斗争。虽然检索增强生成(RAG)通常被用来解决这些问题,但它也有自己的一系列挑战:(1) LLM 容易受到不相关或不正确上下文的影响;(2) 医学查询通常不能很好地定位有用信息;(3) 检索器容易偏向于它们所训练的特定源语料库。在本研究中,我们提出了 RAG 2 ^2 2(RAtionale-Guided RAG),这是一个在生物医学环境中提高 RAG 可靠性的新框架。RAG 2 ^2 2 融合了三个关键的创新点:一个小型过滤模型,该模型根据基于易错性的理由标签进行训练,在过滤掉干扰项的同时,有选择性地增加文档中的信息片段;LLM 生成的理由作为查询,以提高检索片段的效用;设计了一个结构,从四个生物医学语料库的综合集合中均匀检索片段,有效地减轻了检索器的偏差。我们的实验证明,RAG 2 ^2 2改进了不同规模的最先进LLM,改进幅度高达6.1%,在三个医疗问题解答基准中,它比之前最好的医疗RAG模型高出5.6%。我们的代码见 https://github.com/dmis-lab/RAG2。

26.LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models

标题:LLM-Ref:利用大型语言模型加强技术写作中的参考文献处理

author:Kazi Ahmed Asif Fuad, Lizhong Chen

publish:20 pages, 7 figures

date Time:2024-11-01

paper pdf:http://arxiv.org/pdf/2411.00294v2

摘要
大型语言模型(LLM)在数据合成方面表现出色,但在特定领域的任务中可能不准确,而检索增强生成(RAG)系统可利用用户提供的数据来解决这一问题。然而,RAG 需要在检索和生成阶段进行优化,这会影响输出质量。在本文中,我们介绍了 LLM-Ref,它是一种写作助手工具,可帮助研究人员从多个源文件中撰写文章,并具有增强的参考文献合成和处理能力。与使用分块和索引的传统 RAG 系统不同,我们的工具直接从文本段落中检索和生成内容。这种方法有利于从生成的输出中直接提取参考文献,这是我们工具的独特之处。此外,我们的工具还采用了迭代响应生成技术,可在语言模型的限制条件下有效管理冗长的上下文。与基于 RAG 的基线系统相比,我们的方法在 Ragas 分数上提高了 3.25 倍到 6.26 倍,Ragas 分数是一个综合指标,可全面反映 RAG 系统生成准确、相关和语境适当的回复的能力。这一改进表明,我们的方法提高了写作辅助工具的准确性和上下文相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值