文章目录~
- 1.Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM
- 2.Aligning Language Models Using Follow-up Likelihood as Reward Signal
- 3.Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology
- 4.Do language models practice what they preach? Examining language ideologies about gendered language reform encoded in LLMs
- 5.FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs
- 6.ShizishanGPT: An Agricultural Large Language Model Integrating Tools and Resources
- 7.EMMeTT: Efficient Multimodal Machine Translation Training
- 8.Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts
- 9.Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey
- 10.Recent Advancement of Emotion Cognition in Large Language Models
- 11.Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection
- 12.RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion
- 13.Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
- 14.CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance
- 15. SKIntern \textit{SKIntern} SKIntern: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models
- 16.Are Large Language Models Good Essay Graders?
- 17.TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
- 18.MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
- 19.Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
- 20.Training Language Models to Self-Correct via Reinforcement Learning
- 21.Knowledge-Based Domain-Oriented Data Augmentation for Enhancing Unsupervised Sentence Embedding
- 22.Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models
- 23.Exploring Large Language Models for Product Attribute Value Identification
- 24.RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues
- 25.RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models
- 26.ARTICLE: Annotator Reliability Through In-Context Learning
- 27.Finetuning Language Models to Emit Linguistic Expressions of Uncertainty
- 28.VERA: Validation and Enhancement for Retrieval Augmented systems
- 29.Using Large Language Models to Generate Clinical Trial Tables and Figures
- 30.From Lists to Emojis: How Format Bias Affects Model Alignment
- 31.RUIE: Retrieval-based Unified Information Extraction using Large Language Model
- 32.Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5
- 33.Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models
- 34.GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models
1.Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM
标题:Mufu:利用 LLM 进行低资源翻译的多语言融合学习
author:Zheng Wei Lim, Nitish Gupta, Honglin Yu, Trevor Cohn
publish:29 pages
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13949v1
摘要:
多语言大型语言模型(LLM)是出色的翻译工具,但这在很大程度上仅限于高资源语言。对于许多 LLM 来说,翻译低资源语言仍然是一项具有挑战性的任务。为了在这种低资源环境下最大限度地提高数据效率,我们引入了 Mufu,其中包括自动生成的多语种候选语种选择,以及在提示中纠正不准确翻译的指令。Mufu 提示将翻译任务转化为贴片翻译任务,并试图利用 LLM 的推理能力和辅助翻译候选语,要求模型从中评估输入质量、跨语言对齐语义、从相关输入中复制并覆盖不正确的实例。我们在 Flores-200 数据集上对 En-XX 翻译进行的实验表明,根据 Mufu 风格提示进行微调的 LLM 对劣质辅助候选翻译具有很强的鲁棒性,在 64% 的低资源和极低资源语言对中,其性能优于 NLLB 1.3B 提炼模型。然后,我们对这些模型进行了精馏,以降低推理成本,同时在低资源翻译中比仅进行微调的基线平均提高 3.1chrF。
2.Aligning Language Models Using Follow-up Likelihood as Reward Signal
标题:使用后续可能性作为奖励信号对齐语言模型
author:Chen Zhang, Dading Chong, Feng Jiang, Chengguang Tang, Anningzhe Gao, Guohua Tang, Haizhou Li
publish:16 pages, reward model, LLM Alignment
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13948v1
摘要:
在人与人的自然对话中,参与者往往会根据自己的后续反应接收到来自对方的反馈信号。这些反应包括语言回应、面部表情、情绪状态变化和其他非语言线索。同样,在人机交互中,机器可以利用用户的后续言语作为反馈信号,以评估自己是否恰当地处理了用户的请求。因此,我们建议使用后续话语的可能性作为奖励,以区分首选回应和次选回应,而无需依赖人类或基于 LLM 的商业偏好注释。我们提出的奖励机制–“作为奖励的跟进可能性”(FLR)–在 8 个成对偏好和 4 个基于评级的基准上,与在大规模人类或 GPT-4 注释数据上训练的强奖励模型的性能相匹配。在 FLR 机制的基础上,我们建议从基础策略模型的在线生成中自动挖掘偏好数据。随后,通过直接偏好优化(DPO)等直接偏好调整(DAP)方法,利用偏好数据提高基础模型的有用性。最后,我们证明了通过自然语言反馈微调提供后续可能性的语言模型,可以显著提高 FLR 在奖励建模基准上的性能,以及在调整基础政策模型的有用性方面的有效性。
3.Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology
标题:利用特定领域检索增强生成增强大型语言模型:眼科长篇消费者健康问题解答案例研究
author:Aidan Gilson, Xuguang Ai, Thilaka Arunachalam, Ziyou Chen, Ki Xiong Cheong, Amisha Dave, Cameron Duic, Mercy Kibe, Annette Kaminaka, Minali Prasad, Fares Siddig, Maxwell Singer, Wendy Wong, Qiao Jin, Tiarnan D. L. Keenan, Xia Hu, Emily Y. Chew, Zhiyong Lu, Hua Xu, Ron A. Adelman, Yih-Chung Tham, Qingyu Chen
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13902v1
摘要:
尽管大语言模型(LLM)在医学领域具有巨大潜力,但它们可能会生成缺乏支持证据或基于幻觉证据的回复。虽然检索增强生成(RAG)是解决这一问题的流行方法,但很少有研究在下游特定领域应用中实施和评估 RAG。我们开发了一个包含 70,000 份眼科特定文档的 RAG 管道,在推理过程中检索相关文档以增强 LLM。在一项关于长式消费者健康问题的案例研究中,我们系统地评估了 10 位医疗保健专业人士对 100 个问题的回答,包括 500 多条有 RAG 和无 RAG 的 LLM 参考资料。评估的重点是证据的真实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。未使用 RAG 的法律硕士共提供了 252 个参考文献。其中,45.3%出现幻觉,34.1%有轻微错误,20.6%正确。相比之下,使用 RAG 的法律硕士明显提高了准确率(54.5% 为正确),降低了错误率(18.8% 有轻微幻觉,26.7% 有错误)。在 RAG 检索到的前 10 篇文献中,62.5% 被选为法律硕士答辩中的首要参考文献,平均排名为 4.9。使用 RAG 还改善了证据归属(在 5 分制中从 1.85 提高到 2.49,P<0.001),尽管准确性(从 3.52 到 3.23,P=0.03)和完整性(从 3.47 到 3.27,P=0.17)略有下降。结果表明,LLMs 在回答中经常出现幻觉和错误证据,这引起了对医疗领域下游应用的担忧。RAG 大幅减少了此类证据的比例,但也遇到了挑战。
4.Do language models practice what they preach? Examining language ideologies about gendered language reform encoded in LLMs
标题:语言模式是否言行一致?考察语言教学大纲中编码的有关性别语言改革的语言意识形态
author:Julia Watson, Sophia Lee, Barend Beekhuizen, Suzanne Stevenson
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13852v1
摘要:
我们通过对英语性别化语言改革(与议员/妇女/男子等角色名词以及单数 "他们 "有关)的案例研究,研究了语言学硕士所撰写文本中的语言意识形态。首先,我们发现了政治偏见:当要求使用 "正确 "或 "自然 "的语言时,法律硕士使用的语言与要求符合保守(与进步)价值观时使用的语言最为相似。这表明,即使在看似非政治的语境中,语言学硕士的金属语言偏好也能隐含地传达特定政治团体的语言意识形态。其次,我们发现本地语言使用者表现出内部不一致性:当提供更明确的金属语言环境时,语言学家更常使用性别中性变体。这说明了 LLMs 在文本中表达的语言意识形态是如何变化的,这可能出乎用户的意料。我们将讨论这些发现对价值调整的广泛影响。
5.FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs
标题:FullAnno:增强 MLLM 图像理解能力的数据引擎
author:Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang
publish:7 pages, 5 figures, 2 tables
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13540v1
摘要:
多模态大语言模型(MLLM)具有强大的推理和概括能力,在广泛的视觉语言任务中大有可为。然而,它们在很大程度上依赖于监督微调(SFT)阶段的高质量数据。现有的方法旨在通过 GPT-4V 收集高质量数据,但由于 GPT-4V 的商业性质和用于指导模型的提示的简单性,这些方法无法扩展。为此,我们设计了 FullAnno 系统,它是一个数据引擎,可以生成大规模、高质量和细粒度的图像注释,包括对象的类别和位置、区域描述、文本信息以及图像密集标题。该引擎的特点是其级联注释流程,涉及多个专家模型,并采用丰富的提示来指导 LLM 生成密集的图像标题。我们使用 FullAnno 系统对 COCO 和 Visual Genome 数据集进行了重新标注,对象标注的数量增加了两倍,原始图像标题的长度增加了 15 倍。实验表明,重新生成的注释可以显著提高 LLaVA-v1.5 在多个基准测试中的性能。重新标注的数据可在以下网址获取: https://arcana-project-page.github.io
6.ShizishanGPT: An Agricultural Large Language Model Integrating Tools and Resources
标题:ShizishanGPT:整合工具和资源的农业大语言模型
author:Shuting Yang, Zehui Liu, Wolfgang Mayer
publish:15 pages,3 figures, WISE2024
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13537v1
摘要:
大型语言模型(LLMs)的最新发展大大提高了智能对话系统处理复杂问题的能力。然而,目前的大型语言模型在专业领域知识方面仍然存在局限性,尤其是在农业等技术领域。为了解决这个问题,我们提出了基于检索增强生成(RAG)框架和代理架构的农业智能问题解答系统 ShizishanGPT。ShizishanGPT 由五个关键模块组成:包括一个基于 GPT-4 的通用模块,用于回答一般问题;一个搜索引擎模块,用于弥补大语言模型自身知识无法及时更新的问题;一个农业知识图谱模块,用于提供领域事实;一个检索模块,利用 RAG 补充领域知识;以及一个农业代理模块,用于调用专业模型进行作物表型预测、基因表达分析等。我们使用为本研究专门设计的包含 100 个农业问题的数据集对 ShizishanGPT 进行了评估。实验结果表明,由于该工具采用了模块化设计并整合了不同的领域知识源,它能提供更准确、更详细的答案,因此明显优于一般的 LLM。我们的源代码、数据集和模型权重可通过 https://github.com/Zaiwen/CropGPT 公开获取。
7.EMMeTT: Efficient Multimodal Machine Translation Training
标题:EMMeTT:高效多模态机器翻译训练
author:Piotr Żelasko, Zhehuai Chen, Mengru Wang, Daniel Galvez, Oleksii Hrinchuk, Shuoyang Ding, Ke Hu, Jagadeesh Balam, Vitaly Lavrukhin, Boris Ginsburg
publish:4 pages, submitted to ICASSP 2025
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13523v1
摘要:
人们对基础语言模型的模态扩展越来越感兴趣,因此需要讨论最有效和高效的多模态训练方法。本研究侧重于神经机器翻译 (NMT),并提出了包括自动语音翻译 (AST) 在内的 Speech-LLM 联合多模态训练机制。我们研究了两种不同的基础模型架构:纯解码器 GPT 和编码器-解码器 T5,并使用 Canary-1B 语音编码器进行了扩展。为了处理多模态联合训练,我们提出了一种名为 EMMeTT 的新型训练框架。EMMeTT 通过以下方法提高了训练效率:跨语言、数据集和模态的均衡采样;高效的顺序数据迭代;针对多模态数据的新型二维分组方案,并辅以批量大小优化器(OOMptimizer)。我们的研究表明,多模态训练对这两种架构都有帮助。此外,在 FLORES 和 FLEURS 的四种语言子集中,使用 EMMeTT 训练的 SALM-T5 保留了原有的 NMT 能力,同时表现优于 AST 基线。由此产生的多模态翻译模型可同时产生强大的文本和语音翻译结果。
8.Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts
标题:Minstrel:面向非人工智能专家的多代理协调结构性提示生成
author:Ming Wang, Yuanzhong Liu, Xiaoyu Liang, Yijie Huang, Daling Wang, Xiaocui Yang, Sijia Shen, Shi Feng, Xiaoming Zhang, Chaofeng Guan, Yifei Zhang
publish:arXiv admin note: text overlap with arXiv:2402.16929
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13449v1
摘要:
LLM 在不同领域的表现值得称赞。然而,对于非人工智能专家来说,如何制定高质量的提示来帮助他们完成工作是一项挑战。现有的提示工程研究提出了一些零散的优化原则,并设计了依赖经验的提示优化器。遗憾的是,这些研究缺乏结构性设计,学习成本较高,不利于提示语的迭代更新,尤其是对非人工智能专家而言。受结构化可重用编程语言的启发,我们提出了结构化提示设计框架 LangGPT。此外,我们还介绍了一个多生成代理系统 Minstrel,它具有反射功能,可以自动生成结构化提示。实验和案例研究表明,由 Minstrel 生成或人工编写的结构提示都能显著提高 LLM 的性能。此外,我们还通过在线社区的用户调查分析了结构提示的易用性。
9.Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey
标题:大型语言模型检索增强生成中的语境压缩:调查
author:Sourav Verma
publish:Ongoing Work
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13385v1
摘要:
大型语言模型(LLMs)展示了非凡的能力,但它们也存在一些局限性,如幻觉、知识过时、不透明和无法解释的推理。为了应对这些挑战,检索增强生成(RAG)已被证明是一种可行的解决方案,它利用外部数据库来提高生成内容的一致性和连贯性,这对于复杂、知识丰富的任务尤为重要,并通过利用特定领域的洞察力来促进持续改进。通过将 LLM 的固有知识与外部数据库庞大的动态资源库相结合,RAG 实现了协同效应。然而,RAG 并非没有局限性,包括有限的上下文窗口、不相关的信息以及大量上下文数据的高处理开销。在这部综合性著作中,我们探讨了上下文压缩范例的演变,对该领域进行了深入研究。最后,我们概述了当前面临的挑战,并提出了潜在的研究和发展方向,为该领域未来的进步铺平了道路。
10.Recent Advancement of Emotion Cognition in Large Language Models
标题:大型语言模型中情感认知的最新进展
author:Yuyan Chen, Yanghua Xiao
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13354v1
摘要:
大型语言模型(LLM)中的情感认知对于提高社交媒体、人机交互和心理健康评估等各种应用的性能至关重要。我们探讨了当前的研究现状,主要围绕情感分类、情感丰富的响应生成和心智理论评估展开,同时也承认情感处理过程中存在的挑战,如对注释数据的依赖性和复杂性。在本文中,我们详细介绍了情感认知 LLM 的最新进展。我们探讨了主要的研究、方法、成果和资源,并将其与 Ulric Neisser 的认知阶段相结合。此外,我们还概述了这一不断发展的领域未来的潜在研究方向,包括无监督学习方法和开发更复杂、更可解释的情绪认知 LLM。我们还讨论了用于提高 LLMs 情绪认知能力的对比学习等先进方法。
11.Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection
标题:在嵌入式中应用预训练多语种 BERT 改进恶意提示注入攻击检测
author:Md Abdur Rahman, Hossain Shahriar, Fan Wu, Alfredo Cuzzocrea
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13331v1
摘要:
大型语言模型(LLM)以其卓越的能力而闻名,并被广泛应用于各种领域。然而,这种广泛应用也带来了巨大的漏洞。此外,人们还注意到,针对大型语言模型中的恶意提示注入攻击的有效检测和缓解策略存在巨大缺口,因为当前的方法可能无法充分解决实际应用中这些漏洞的复杂性和不断演变的性质。因此,本研究将重点放在恶意提示注入攻击的影响上,这是实际 LLMs 应用中最危险的漏洞之一。它研究了各种 BERT(来自变换器的双向编码器表示法)的应用,如多语言 BERT、DistilBert,以对恶意提示和合法提示进行分类。此外,我们还观察了使用多语种 BERT 标记提示文本和生成嵌入如何有助于提高各种机器学习方法的性能:高斯奈维贝叶斯、随机森林、支持向量机和逻辑回归。每种模型的性能都通过各种参数进行了严格分析,以改进二元分类,从而发现恶意提示。嵌入提示的多语言 BERT 方法明显改善并超越了现有作品,通过逻辑回归达到了 96.55% 的出色准确率。此外,我们还调查了模型的错误预测,以深入了解其局限性。这些发现可以指导研究人员调整各种 BERT,为各种 LLMs 漏洞找到最合适的模型。
12.RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion
标题:RLHFuse:利用阶段间和阶段内融合为大型语言模型提供高效的 RLHF 训练
author:Yinmin Zhong, Zili Zhang, Bingyang Wu, Shengyu Liu, Yukun Chen, Changyi Wan, Hanpeng Hu, Lei Xia, Ranchen Ming, Yibo Zhu, Xin Jin
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13221v2
摘要:
从人类反馈中强化学习(RLHF)增强了 LLM 与人类偏好之间的一致性。RLHF 的工作流程通常涉及一系列不同阶段中的多个模型和任务。现有的 RLHF 训练系统将每个任务视为最小的执行单元,从而忽略了子任务级优化的机会。由于 RLHF 训练的内在性质,即生成阶段的数据偏差和训练阶段的管道气泡,现有的 RLHF 系统在生产部署中 GPU 利用率很低。 RLHFuse 打破了将 RLHF 工作流视为单个任务组成的传统观点,将每个任务拆分为更细粒度的子任务,并进行阶段融合以提高 GPU 利用率。RLHFuse 包含两个关键理念。首先,对于生成和推理任务,RLHFuse 将其拆分为样本级子任务,从而实现高效的阶段间融合,缓解由长尾样本主导的原始生成瓶颈。其次,对于训练任务,RLHFuse 将其分解为微批次的子任务。利用流水线执行基本上可以由另一条流水线补充的直觉,RLHFuse 执行阶段内融合,在训练阶段以融合的流水线计划同时执行这些子任务,从而减少流水线泡沫。此外,RLHFuse 还针对 RLHF 的每个阶段进行了一系列系统优化,使其在我们的内部产品使用中具有高效性和可扩展性。我们在各种流行的 LLM 上对 RLHFuse 进行了评估,结果表明,与现有的最先进系统相比,RLHFuse 的训练吞吐量最多提高了 3.7 倍。
13.Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
标题:神经符号协作蒸馏:推进复杂推理任务的小型语言模型
author:Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13203v1
摘要:
在本文中,我们提出了
Ne
\textbf{Ne}
Neural-
Sy
\textbf{Sy}
Symbolic
C
\textbf{C}
Ccollaborative
D
\textbf{D}
Distillation(
NesyCD
\textbf{NesyCD}
NesyCD)–一种用于学习大型语言模型(LLMs,例如:\textgreater 13B)复杂推理能力的新型知识提炼方法。我们认为,复杂的推理任务对于小语言模型(SLMs,例如:
≤
\leq
≤ 7B)来说是很困难的,因为这些任务不仅需要一般的认知能力,还需要专业知识,而这些知识往往是稀疏的,这些基于神经的小语言模型很难有效地捕捉到。因此,NesyCD 采用不同的方式提炼了 LLM 中的一般能力和专业知识。一方面,我们只将教师 LLM 中的一般能力提炼到参数化神经网络的学生 SLM 中。另一方面,对于复杂推理任务中的专门能力和非常见知识,我们采用符号知识提炼法,在符号知识库(KB)中获取并存储专门的知识。通过将通用能力和专用能力解耦,所提出的 NesyCD 可以利用较小的模型并将参数化神经网络与符号知识库融合在一起,从而经济高效地实现卓越性能。此外,专用知识库还能很好地泛化,并为人类所理解和操作。我们的实验表明,NesyCD 显著提高了 SLM 在域内(BBH、GSM8K)和域外(AGIEval、ARC)数据集上的复杂推理性能。值得注意的是,我们的方法使 LLaMA3-8B 和 Qwen2-7B 的性能超过了 GPT-3.5-turbo,并接近于 LLaMA3-70B,尽管后者的参数是前者的九倍。我们的代码将发布在 https://github.com/Xnhyacinth/NesyCD 网站上。
14.CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance
标题:CITI:增强工具在大型语言模型中的利用能力,同时不牺牲一般性能
author:Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, Yubo Chen, Kang Liu, Jun Zhao
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13202v2
摘要:
工具学习使大型语言模型(LLM)能够通过调用工具与外部环境进行交互,从而丰富 LLM 的准确性和能力范围。然而,以往的工作主要集中在提高模型利用工具的准确性和泛化到新的、未见过的工具的能力上,过度强迫 LLM 调整特定的工具调用模式,而不考虑对模型总体性能的损害。这偏离了实际应用和整合工具以增强模型的初衷。为了解决这个问题,我们通过研究模型组件的隐藏表示变化和基于梯度的重要性得分来剖析能力权衡。根据分析结果,我们提出了基于组件重要性的工具利用能力注入方法(CITI)。该方法根据不同组件的梯度重要性得分,对不同组件采用不同的训练策略,从而缓解微调过程中产生的能力冲突。CITI 对重要组件采用 MOLoRA(Mixture-Of-LoRA)。同时,它还会微调 LLM 骨干中被认为不太重要的少数组件的参数,同时冻结其他参数。CITI 可以有效增强模型的工具利用能力,而不会过度影响其总体性能。实验结果表明,我们的方法在一系列评估指标上都取得了出色的性能。
15. SKIntern \textit{SKIntern} SKIntern: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models
标题: t e x t i t S K I n t e r n textit{SKIntern} textitSKIntern:将符号知识内化,以便在小语言模型中提炼出更好的协同工作能力
author:Huanxuan Liao, Shizhu He, Yupu Hao, Xiang Li, Yuanzhe Zhang, Kang Liu, Jun Zhao
date Time:2024-09-20
paper pdf:http://arxiv.org/pdf/2409.13183v1
摘要:
由于大型语言模型(LLM)的高计算要求和隐私问题,小型语言模型(SLM)备受关注。一些研究利用从 LLMs 中提炼出的思维链(CoT)数据对 SLMs 进行微调,旨在增强其推理能力。此外,有些 CoT 提炼方法在生成过程中引入了外部符号知识,以改善 SLM 的有限知识记忆、推理能力和域外(OOD)泛化能力。然而,符号知识的引入会增加计算开销并带来潜在噪声。在本文中,我们引入了
SKIntern
\textit{SKIntern}
SKIntern,这是一种创新方法,它能在课程学习的预定线性衰减时间表的指导下,通过渐进微调过程,使 SLMs 逐步内化符号知识和少量实例。通过有效地内化知识,
t
e
x
t
i
t
S
K
I
n
t
e
r
n
textit{SKIntern}
textitSKIntern 在推理过程中只关注问题,从而减少了计算开销,加快了推理过程。它的性能比最先进的基线高出5%以上,同时在广泛的领域内(ID)和领域外(OOD)任务的SLMs中,推理成本(以FLOPs衡量)最高降低了4\times$。我们的代码将在(url{https://github.com/Xnhyacinth/SKIntern}.
16.Are Large Language Models Good Essay Graders?
标题:大语文模式是好的作文评分标准吗?
author:Anindita Kundu, Denilson Barbosa
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.13120v1
摘要:
我们评估了大语言模型(LLMs)在评估论文质量方面的有效性,重点关注它们与人工评分的一致性。更确切地说,我们评估了 ChatGPT 和 Llama 在自动作文评分(AES)任务中的表现,这是自然语言处理(NLP)在教育领域的一项重要应用。我们考虑了零分学习和少分学习以及不同的提示方法。我们利用 ASAP 数据集(AES 任务的著名基准)将 LLM 提供的数字分数与人类评分员提供的分数进行了比较。我们的研究发现,与人类评分员提供的分数相比,两种 LLM 给出的分数普遍较低;而且,这些分数与人类评分员提供的分数关联度不高。特别是,ChatGPT 比 Llama 更加苛刻,与人类的评价更加不一致。我们还尝试了以前的 AES 方法常用的一些文章特征,涉及长度、连接词和过渡词的使用,以及可读性指标,包括拼写和语法错误的数量。我们发现,一般来说,这些特征都不会与人类或 LLM 分数有很强的相关性。最后,我们报告了 Llama 3 的结果,正如我们所预期的那样,Llama 3 的表现普遍较好。总的来说,虽然 LLM 似乎并不能完全替代人工评分,但我们的结果还是在一定程度上鼓励了将来将 LLM 用作辅助人工评分的工具。
17.TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
标题:TACO-RL:利用强化学习进行任务感知提示压缩优化
author:Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.13035v2
摘要:
随着 GPT-4 等大型语言模型(LLM)在各种应用中的日益普及,为获得最佳性能所需的提示符大小也随之激增,这给计算效率带来了挑战。提示压缩的目的是在不影响任务性能的前提下,通过尽量减少输入标记来降低推理成本。然而,现有的提示压缩技术要么依赖于次优指标(如信息熵),要么将其建模为任务无关的标记分类问题,无法捕捉特定任务的信息。为解决这些问题,我们提出了一种基于强化学习(RL)的新型高效任务感知提示压缩方法。为了确保低延迟要求,我们利用了现有的基于 Transformer 编码器的标记分类模型,同时使用轻量级 REINFORCE 算法通过任务特定的奖励信号来指导学习过程。我们在文本摘要、问题解答和代码摘要等三个不同的挑战性任务中评估了我们方法的性能。我们证明,在满足相同压缩率和延迟要求的情况下,我们的 RL 引导压缩方法在这三种情况下比最先进的压缩技术提高了 8% - 260% 的任务性能。
18.MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
标题:MMSearch:对大型模型作为多模式搜索引擎的潜力进行基准测试
author:Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
publish:Project Page: https://mmsearch.github.io
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12959v1
摘要:
大型语言模型(LLM)的出现为人工智能搜索引擎(如 SearchGPT)的发展铺平了道路,展示了人网交互的新范式。然而,目前大多数人工智能搜索引擎仅限于纯文本设置,忽略了用户的多模态查询和网站信息的文本图像交错性质。最近,大型多模态模型(LMM)取得了令人瞩目的进展。然而,它们是否能发挥人工智能搜索引擎的功能仍未得到充分探索,这使得 LMM 在多模态搜索中的潜力成为一个未决问题。为此,我们首先设计了一个精巧的管道–MMSearch-Engine,以增强任何 LMM 的多模态搜索能力。在此基础上,我们引入了 MMSearch,这是一个用于评估 LMM 多模态搜索性能的综合评估基准。策划的数据集包含 300 个人工收集的实例,横跨 14 个子领域,与当前 LMM 的训练数据没有任何重叠,确保只有在搜索过程中才能获得正确答案。通过使用 MMSearch-Engine,我们对 LMM 进行了评估,包括执行三个单独任务(重新查询、重新排名和总结),以及一个具有挑战性的完整搜索过程的端到端任务。我们对闭源和开源 LMM 进行了广泛的实验。在所有测试模型中,使用 MMSearch-Engine 的 GPT-4o 取得了最好的结果,在端到端任务中超过了商业产品 Perplexity Pro,这证明了我们提出的管道的有效性。我们进一步提出了误差分析,揭示了当前的 LMM 仍然难以完全掌握多模态搜索任务,并进行了消融研究,指出了人工智能搜索引擎扩展测试时间计算的潜力。我们希望 MMSearch 能为未来多模态人工智能搜索引擎的发展提供独特的见解。项目页面: https://mmsearch.github.io
19.Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
标题:事实、获取和推理:检索增强生成的统一评估
author:Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
publish:Arxiv Preprint
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12941v1
摘要:
大型语言模型(LLM)在各种认知任务中的表现都有显著提高。一种新兴的应用是使用 LLMs 增强检索增强生成(RAG)能力。这些系统需要 LLMs 理解用户查询、检索相关信息并合成连贯而准确的回复。鉴于这类系统在现实世界中的部署越来越多,全面评估变得至关重要。为此,我们提出了 FRAMES(事实性、检索和推理测量集),这是一个高质量的评估数据集,旨在测试 LLM 提供事实性响应、评估检索能力以及评估生成最终答案所需的推理能力。虽然以前的工作提供了数据集和基准来单独评估这些能力,但 FRAMES 提供了一个统一的框架,可以更清晰地反映 LLM 在端到端 RAG 场景中的性能。我们的数据集包含具有挑战性的多跳问题,需要整合来自多个来源的信息。我们提供的基线结果表明,即使是最先进的 LLM 也很难完成这项任务,其准确率仅为 0.40,而且没有检索。而我们提出的多步骤检索管道则大大提高了准确率,准确率达到了 0.66(提高了 50%)。我们希望我们的工作将有助于弥合评估差距,并帮助开发更强大、更有能力的 RAG 系统。
20.Training Language Models to Self-Correct via Reinforcement Learning
标题:通过强化学习训练语言模型进行自我纠正
author:Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12917v1
摘要:
自我纠错是大型语言模型(LLM)的一项非常理想的功能,但在现代 LLM 中却一直被发现基本无效。现有的自我修正训练方法要么需要多个模型,要么依赖于能力更强的模型或其他形式的监督。为此,我们开发了一种多轮在线强化学习(RL)方法 SCoRe,它能利用完全自生成的数据显著提高 LLM 的自我修正能力。为了建立 SCoRe,我们首先证明了在离线模型生成的修正轨迹上进行监督微调(SFT)的变体不足以灌输自我修正行为。特别是,我们观察到,通过 SFT 进行的训练要么存在训练数据与模型自身响应之间的分布不匹配问题,要么只隐含地偏好某种修正行为模式,而这种模式在测试时往往并不有效。SCoRe 解决了这些难题,它在模型自身生成的修正轨迹分布下进行训练,并使用适当的正则化引导学习过程学习在测试时有效的自我修正策略,而不是简单地针对给定提示拟合高回报反应。这种正则化规定在基础模型上运行第一阶段的 RL,以生成不易崩溃的策略初始化,然后在训练过程中使用奖励奖金来放大自我修正。当应用于 Gemini 1.0 Pro 和 1.5 Flash 模型时,我们发现 SCoRe 实现了最先进的自我修正性能,在 MATH 和 HumanEval 基准测试中,基础模型的自我修正性能分别提高了 15.6% 和 9.1%。
21.Knowledge-Based Domain-Oriented Data Augmentation for Enhancing Unsupervised Sentence Embedding
标题:基于知识的领域导向数据扩充,用于增强无监督句子嵌入功能
author:Peichao Lai, Zhengfeng Zhang, Bin Cui
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12887v1
摘要:
最近,无监督句子嵌入模型在下游自然语言处理任务中受到了极大关注。在以往的研究中,使用大型语言模型(LLM)进行数据扩增已经取得了相当大的进步。然而,这些策略强调使用大量通用语料库进行数据扩增,而忽略了对少量领域数据的考虑。合成数据缺乏细粒度信息,并可能引入负样本噪声。本研究介绍了一种基于流水线的新型数据增强方法,该方法利用 LLM 来合成特定领域的数据集。它通过实体和数量感知扩增产生正负样本,利用实体知识图谱合成具有精细语义区分的样本,从而提高训练样本的多样性和相关性。然后,我们提出了一种高斯衰减梯度辅助对比句嵌入(GCSE)模型,以减少合成数据噪声,并提高模型辨别能力,从而减少负样本噪声。实验结果表明,我们的方法以较少的合成数据样本和较低的 LLM 参数实现了最先进的语义文本相似性性能,证明了它在不同骨干网中的效率和鲁棒性。
22.Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models
标题:利用检索增强生成和大型语言模型加强电子商务产品标题翻译
author:Bryan Zhang, Taichi Nakatani, Stephan Walter
publish:6 Pages,In Proceedings of ACM CIKM Workshop on Data-Centric AI (CIKM
DCAI 2024)
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12880v1
摘要:
电子商务商店提供多语言产品发现功能,这就需要准确的产品标题翻译。多语言大型语言模型(LLMs)在执行机器翻译任务方面已显示出良好的能力,它还可以一步到位地增强和跨语言翻译产品标题。然而,由于标题简短、缺乏语境且包含专业术语,因此产品标题翻译通常需要的不仅仅是语言转换。本研究提出了一种检索增强生成(RAG)方法,该方法利用电子商务中现有的双语产品信息,检索类似的双语示例,并将其作为少量提示来增强基于 LLM 的产品标题翻译。实验结果表明,我们提出的 RAG 方法提高了产品标题的翻译质量,对于 LLM 能力有限的语言对,chrF 分数最高提高了 15.3%。
23.Exploring Large Language Models for Product Attribute Value Identification
标题:探索用于产品属性价值识别的大型语言模型
author:Kassem Sabeh, Mouna Kacimi, Johann Gamper, Robert Litschko, Barbara Plank
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12695v1
摘要:
产品属性值识别(PAVI)涉及从产品信息中自动识别属性及其值,从而实现产品搜索、推荐和比较等功能。现有的方法主要依赖于微调预先训练好的语言模型,如 BART 和 T5,这些模型需要大量特定任务的训练数据,而且很难泛化到新的属性。本文探讨了大型语言模型 (LLM),如 LLaMA 和 Mistral,作为 PAVI 数据效率高且稳健的替代方法。我们提出了各种策略:在零镜头设置中比较基于提示的一步法和两步法,并通过上下文学习示例利用参数和非参数知识。我们还引入了基于预训练 T5 模型的密集演示检索器,并进行了指令微调,以在特定任务指令上明确训练 LLM。在两个产品基准上进行的广泛实验表明,我们的两步方法显著提高了零点击设置下的性能,而指令微调则进一步提高了使用训练数据时的性能,从而证明了将 LLM 用于 PAVI 的实际优势。
24.RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues
标题:RAD-Bench:评估大型语言模型在检索增强对话中的能力
author:Tzu-Lin Kuo, Feng-Ting Liao, Mu-Wei Hsieh, Fu-Chieh Chang, Po-Chun Hsu, Da-Shan Shiu
date Time:2024-09-19
paper pdf:http://arxiv.org/pdf/2409.12558v1
摘要:
在使用大型语言模型(LLMs)的实际应用中,外部检索机制(如搜索增强生成(SAG)、工具利用和检索增强生成(RAG))经常被用来提高对话中增强生成的质量。这些方法通常伴随着多轮对话,其中每次交互都会通过从外部来源检索相关信息来充实。现有的基准要么是评估 LLM 在多轮对话中的聊天能力,要么是评估他们在单轮设置中使用检索进行增强回应的能力。但是,在评估本地语言管理员利用检索在多轮对话中做出更精确回应的能力方面还存在差距。为了解决这一局限性,我们推出了 RAD-Bench(检索增强对话),它是一种基准测试,旨在评估 LLM 在检索后进行多轮对话的能力,这对于在语境丰富的应用中部署 LLM 至关重要。RAD-Bench 评估了 LLM 的两项关键能力:检索合成和检索推理。这两项能力通过辨别性问题和检索语境以及相应的参考答案来衡量,评估 LLM 如何有效地整合语境并进行推理,从而在多个回合中保持并提高对话质量。我们对常用 LLM 的评估结果表明,即使提供了准确的检索上下文,随着在对话回合中应用更多层条件或限制,模型的性能也会下降。
25.RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models
标题:RAG-Modulo:利用经验、评论家和语言模型解决序列任务
author:Abhinav Jain, Chris Jermaine, Vaibhav Unhelkar
publish:8 pages, 5 figures
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.12294v1
摘要:
大型语言模型(LLMs)近来已成为解决具有挑战性的机器人任务的有前途的工具,即使在存在行动和观察不确定性的情况下也是如此。最近出现的基于 LLM 的决策方法(也称为基于 LLM 的代理),如果搭配适当的批评者,在解决交互相对较少的复杂、长期任务方面已显示出潜力。然而,大多数现有的基于 LLM 的代理都缺乏保留并从过去的交互中学习的能力,而这正是基于学习的机器人系统的基本特征。我们提出的 RAG-Modulo 是一个框架,它增强了基于 LLM 的代理对过去交互的记忆,并结合了评论来评估代理的决策。记忆组件允许代理自动检索和整合相关的过往经验,将其作为情境中的实例,提供情境感知反馈,从而做出更明智的决策。此外,通过更新记忆,代理还能随着时间的推移提高其性能,从而表现出学习能力。通过在具有挑战性的 BabyAI 和 AlfWorld 领域进行实验,我们证明了任务成功率和效率的显著提高,表明所提出的 RAG-Modulo 框架优于最先进的基线。
26.ARTICLE: Annotator Reliability Through In-Context Learning
标题:文章:通过上下文学习提高注释器可靠性
author:Sujan Dutta, Deepak Pandita, Tharindu Cyril Weerasooriya, Marcos Zampieri, Christopher M. Homan, Ashiqur R. KhudaBukhsh
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.12218v2
摘要:
确保训练和评估数据中注释者的质量是 NLP 机器学习的关键部分。情感分析和攻击性语音检测等任务本质上是主观的,这给传统的质量评估方法带来了挑战,因为很难区分因工作不力而产生的分歧和因真诚的注释者之间意见分歧而产生的分歧。为了在确保一致性的同时增加注释中的不同观点,我们提出了一个上下文学习(ICL)框架,即通过自一致性来估计注释质量的 \texttt{ARTICLE}。我们使用多个 LLM 在两个攻击性语音数据集上对该框架进行了评估,并将其性能与传统方法进行了比较。我们的研究结果表明,\texttt{ARTICLE}可以作为一种稳健的方法来识别可靠的注释者,从而提高数据质量。
27.Finetuning Language Models to Emit Linguistic Expressions of Uncertainty
标题:微调语言模型以发出不确定性的语言表达
author:Arslan Chaudhry, Sridhar Thiagarajan, Dilan Gorur
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.12180v1
摘要:
大语言模型(LLM)越来越多地被用于信息搜索和决策任务中。尽管大型语言模型具有广泛的用途,但其生成的信息往往与现实世界中的事实相冲突,而且其具有说服力的风格会让这些不准确的信息显得信心十足、令人信服。因此,最终用户很难将 LLM 所表达的信心与其预测的准确性保持一致,这往往会导致对所有输出结果的盲目信任或对其可靠性的完全漠视。在这项工作中,我们探索了对不确定性增强预测进行有监督微调的方法,以此来开发能对不确定性进行语言表达的模型。具体来说,我们测量预训练模型的校准,然后对语言模型进行微调,以生成经过校准的不确定性语言表达。通过在各种问题解答数据集上的实验,我们证明了 LLM 在评估其预测时具有良好的校准性,而基于模型自身置信度的监督微调则会产生良好校准的不确定性表达,尤其是对于单项声明的答案。
28.VERA: Validation and Enhancement for Retrieval Augmented systems
标题:VERA:检索增强系统的验证与增强
author:Nitin Aravind Birur, Tanay Baswa, Divyanshu Kumar, Jatan Loya, Sahil Agarwal, Prashanth Harshangi
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.15364v1
摘要:
大型语言模型(LLMs)显示出非凡的能力,但往往会产生不准确的响应,因为它们完全依赖于其内在知识。检索增强生成(RAG)通过结合外部信息检索系统来增强 LLM,与查询一起提供额外的上下文,以减少特定上下文的不准确性。但是,准确性问题依然存在,因为模型可能依赖于不相关的文档,或者从其训练知识中进行错误的推断。为了在 RAG 框架下评估并提高检索系统和 LLM 的性能,我们提出了 \textbf{VERA} (textbf{V}validation and \textbf{E}nhancement for \textbf{R}etrieval \textbf{A}ugmented systems),该系统的目的是: 1:该系统旨在:1)在生成响应之前对检索到的上下文进行评估和增强;2)对 LLM 生成的响应进行评估和改进,以确保精确性并尽量减少错误。VERA 采用了一个评估器兼增强器 LLM,它首先检查外部检索是否必要,评估检索上下文的相关性和冗余性,并对其进行改进以消除非必要信息。生成响应后,VERA 会将响应分割成原子语句,评估它们与查询的相关性,并确保与上下文保持一致。我们的实验证明,VERA 不仅在提高小型开源模型的性能方面效果显著,在提高大型先进模型的性能方面也是如此。这些改进凸显了 VERA 在生成准确、相关的响应方面的潜力,推动了检索增强语言建模技术的发展。VERA 稳健的方法结合了多个评估和改进步骤,有效地减少了幻觉,改进了检索和响应过程,使其成为要求高准确性和可靠性的信息生成应用的重要工具。.
29.Using Large Language Models to Generate Clinical Trial Tables and Figures
标题:使用大型语言模型生成临床试验表格和图表
author:Yumeng Yang, Peter Krusche, Kristyn Pantoja, Cheng Shi, Ethan Ludmir, Kirk Roberts, Gen Zhu
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.12046v2
摘要:
表格、数字和列表(TFL)是总结临床试验数据的重要工具。为报告活动创建 TFL 通常是临床试验执行过程中经常遇到的耗时任务。本研究探索了如何使用大型语言模型(LLM),通过提示工程和少量迁移学习自动生成 TFL。通过使用 ADaM 格式的公开临床试验数据,我们的研究结果表明,LLM 可以通过提示指令高效生成 TFL,从而展示了其在该领域的潜力。此外,我们还开发了一个名为 "临床试验 TFL 生成代理 "的保守代理:该应用程序可将用户查询与预定义提示相匹配,从而生成定制程序,生成特定的预定义 TFL。
30.From Lists to Emojis: How Format Bias Affects Model Alignment
标题:从列表到表情符号:格式偏差如何影响模型对齐
author:Xuanchang Zhang, Wei Xiong, Lichang Chen, Tianyi Zhou, Heng Huang, Tong Zhang
publish:Working in progress
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.11704v1
摘要:
本文研究了人类反馈强化学习(RLHF)中的格式偏差。我们观察到,许多广泛使用的偏好模型,包括人类评估者、GPT-4 和 RewardBench 基准上排名靠前的模型,都表现出对特定格式模式的强烈偏好,如列表、链接、粗体文字和表情符号。此外,大型语言模型(LLM)可以利用这些偏差在 AlpacaEval 和 LMSYS Chatbot Arena 等流行基准上获得更高的排名。其中一个明显的例子就是语料偏差,当前的偏好模型偏爱看起来更全面的长回复,即使其质量等同于或低于较短的竞争回复。然而,文献中对除语词量之外的格式偏差大多仍未进行深入探讨。在这项工作中,我们将偏好学习中的偏差研究扩展到了公认的长度偏差之外,对更广泛的格式偏差进行了全面分析。此外,我们还证明,只需少量有偏差的数据(小于 1%),我们就能为奖励模型注入显著的偏差。此外,这些格式偏差也很容易被下游配准算法(如 best-of-n 抽样和在线迭代 DPO)利用,因为操纵格式通常比提高响应质量更容易。我们的研究结果表明,在设计配准算法和评估模型时,有必要将格式和内容区分开来。
31.RUIE: Retrieval-based Unified Information Extraction using Large Language Model
标题:RUIE:使用大型语言模型进行基于检索的统一信息提取
author:Xincheng Liao, Junwen Duan, Yixi Huang, Jianxin Wang
publish:14 pages, 3 figures
date Time:2024-09-18
paper pdf:http://arxiv.org/pdf/2409.11673v1
摘要:
统一信息提取(UIE)旨在使用单一模型或框架完成所有信息提取任务。以往的工作主要集中在利用构建的数据集对大型语言模型(LLM)进行指令调整,但这些方法需要大量的计算资源,而且很难推广到未见过的任务中。为了解决这些局限性,我们提出了 RUIE(基于检索的统一信息提取),这是一种利用上下文学习实现快速泛化,同时降低计算成本的框架。RUIE 面临的主要挑战是为 LLM 选择最有利的演示,以有效处理各种 IE 任务。为此,我们整合了 LLM 对候选演示排序的偏好,并设计了一个关键字增强奖励模型来捕捉查询和演示之间的细粒度关系。然后,我们通过对比学习和知识提炼来训练一个用于 UIE 的双编码器检索器。据我们所知,RUIE 是第一个可训练的 UIE 检索框架。在 8 个保留数据集上的实验结果表明,RUIE 在泛化到未见任务方面非常有效,与指令调整方法和其他检索器相比,平均 F1 分数分别提高了 19.22 和 3.13。进一步的分析证实了 RUIE 对不同规模 LLM 的适应性及其关键组件的重要性。
32.Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5
标题:利用蒸馏技术理解文档:FLAN-T5 案例研究
author:Marcel Lamott, Muhammad Armaghan Shakir
publish:Presented at AI@WORK-Workshop / Informatik-Festival (GI-Jahrestagung)
(Wiesbaden, Germany, 2024)
date Time:2024-09-17
paper pdf:http://arxiv.org/pdf/2409.11282v1
摘要:
各种格式的数字文档(包括商业报告和环境评估等标准化程度较低的文档)激增,凸显了文档理解的重要性与日俱增。虽然大型语言模型(LLMs)在各种自然语言处理任务中大显身手,但将其直接应用于文档理解仍是一项挑战。以前的研究已经证明了 LLM 在这一领域的实用性,但其巨大的计算需求使其难以有效部署。此外,专有黑盒 LLM 的性能往往优于开源 LLM,这对其普及构成了障碍。在本文中,我们将深入研究文档理解领域,利用蒸馏方法来利用大型 LLM 的强大功能,同时兼顾计算限制。具体来说,我们提出了一种新颖的方法,将专有 LLM ChatGPT 中的文档理解知识提炼到 FLAN-T5 中。我们的方法整合了标签和课程学习机制,以促进高效的知识转移。这项工作提供了一种可扩展的解决方案,缩小了资源密集型 LLM 与实际应用之间的差距,从而推动了文档理解方法学的发展。我们的研究结果强调了蒸馏技术在促进复杂语言模型在现实世界场景中的部署方面的潜力,从而促进了自然语言处理和文档理解领域的进步。
33.Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models
标题:评估压缩技术对大型语言模型特定任务性能的影响
author:Bishwash Khanal, Jeffery M. Capone
date Time:2024-09-17
paper pdf:http://arxiv.org/pdf/2409.11233v1
摘要:
大型语言模型(LLM)具有强大的功能,但会产生大量计算成本,因此需要高效的压缩技术。本研究评估了流行的压缩方法–Magnitude Pruning、SparseGPT 和 Wanda–对 LLaMA-2-7B 模型的影响,重点是模型大小缩减、下游任务性能和校准数据作用之间的权衡。我们的研究结果表明,虽然 SparseGPT 和 Wanda 在稀疏度为 50% 时仍能保持可知度,但它们在下游任务中的表现却大不如前,这凸显了将可知度作为唯一评价指标的不足。为了解决这个问题,我们引入了詹森-香农(Jensen-Shannon,JS)发散度作为更全面的指标,以捕捉压缩后模型行为的细微变化。我们进一步证明,与一般校准数据相比,特定任务校准数据能显著提高压缩模型的下游性能。这项研究强调,要充分了解 LLM 压缩的复杂性及其对实际应用的影响,就必须采用不同的评估指标并谨慎选择校准数据。
34.GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models
标题:GEIC: 利用大型语言模型进行通用多语言命名实体识别
author:Hanjun Luo, Yingbin Jin, Xuecheng Liu, Tong Shang, Ruizhe Chen, Zuozhu Liu
date Time:2024-09-17
paper pdf:http://arxiv.org/pdf/2409.11022v3
摘要:
在许多自然语言处理任务中,大型语言模型(LLM)已经取代了传统方法。然而,在命名实体识别(NER)中,现有的基于 LLM 的方法与基线方法相比表现不佳,而且需要更多的计算资源,限制了它们的应用。在本文中,我们介绍了基于生成的提取和上下文分类(GEIC)任务,旨在利用 LLM 的先验知识和自我注意机制来完成 NER 任务。然后,我们提出了 CascadeNER,这是一个通用的多语种 GEIC 框架,适用于少拍和零拍 NER。CascadeNER 采用模型级联技术,利用两个小参数 LLM 进行独立提取和分类,在提高准确性的同时减少了资源消耗。我们还介绍了首个专为 LLMs 设计的 NER 数据集 AnythingNER,其中包括 8 种语言、155 种实体类型和一个新颖的动态分类系统。实验表明,CascadeNER 在低资源和细粒度场景下(包括 CrossNER 和 FewNERD)实现了最先进的性能。我们的工作可以公开访问。