AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.08.10-2024.08.15

小小帅AIGC

于 2024-09-02 12:48:25 发布

阅读量380

点赞数 20

分类专栏： LLMs论文时报文章标签：人工智能语言模型自然语言处理 LLM 大语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141753770

版权

LLMs论文时报专栏收录该内容

45 篇文章 21 订阅

订阅专栏

文章目录～

1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering
2.Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models
3.FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models
4.RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science
5.MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU
6.Graph Retrieval-Augmented Generation: A Survey
7.Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
8.Instruct Large Language Models to Generate Scientific Literature Survey Step by Step
9.MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis
10.The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models
11.Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
12.WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs
13.Large Language Models Prompting With Episodic Memory
14.ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area
15.Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach
16.LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
17.Leveraging Language Models for Emotion and Behavior Analysis in Education
18.LoRA $^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models
19.Unlock the Power of Frozen LLMs in Knowledge Graph Completion
20.Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data
21.Cross-Lingual Conversational Speech Summarization with Large Language Models
22.Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering

标题:W-RAG：开放域问题解答 RAG 中的弱监督密集检索

author:Jinming Nian, Zhiyuan Peng, Qifan Wang, Yi Fang

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08444v1

摘要：
在开放领域问题解答（OpenQA）等知识密集型任务中，大型语言模型（LLM）往往难以仅依靠其内部（参数）知识生成符合事实的答案。为解决这一局限性，检索增强生成（RAG）系统通过从外部来源检索相关信息来增强 LLM，从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能，但其训练却面临着挑战，原因是地面实况证据稀缺，这主要归咎于人工标注的高成本。在本文中，我们提出了 W-RAG，利用 LLM 的排名功能创建弱标签数据，用于训练高密度检索器。具体来说，我们通过评估 LLMs 根据问题和每个段落生成正确答案的概率，对通过 BM25 检索到的前 $K$ 段落进行重新排序。然后，排名最高的段落被用作高密度检索的正面训练示例。我们在四个公开的 OpenQA 数据集上进行的综合实验表明，与基线模型相比，我们的方法提高了检索和 OpenQA 的性能。

2.Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models

标题:在大型语言模型上进行有效情感分析微调的动态自适应优化

author:Hongcheng Ding, Xuanze Zhao, Shamsul Nahar Abdullah, Deshinta Arrova Dewi, Zixiao Jiang

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.11856v1

摘要：
情感分析在商业智能和金融预测等多个领域发挥着至关重要的作用。大语言模型（LLM）利用多任务学习同时处理特定任务，已成为情感分析的流行范式。然而，用于情感分析的微调 LLMs 通常表现不佳，这是因为在管理各种任务复杂性方面存在固有的挑战。此外，多任务学习中的恒定权重方法难以适应数据特征的变化，从而使模型的有效性变得更加复杂。为了解决这些问题，我们提出了一种带有动态自适应优化（DAO）模块的新型多任务学习框架。该模块被设计成一个即插即用的组件，可以无缝集成到现有模型中，为多任务学习提供了一个有效而灵活的解决方案。DAO 模块的关键组件是动态自适应损失，它可以在训练过程中根据不同任务的相对重要性和数据特征动态调整分配给它们的权重。对标准和定制的金融文本数据集进行的情感分析表明，所提出的框架具有卓越的性能。具体来说，与之前的工作相比，这项工作将平均平方误差（MSE）和准确率（ACC）分别提高了 15.58% 和 1.24%。

3.FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models

标题:FactorLLM：通过大型语言模型的专家混合物对知识进行因式分解

author:Zhongyu Zhao, Menghang Dong, Rongyu Zhang, Wenzhao Zheng, Yunpeng Zhang, Huanrui Yang, Dalong Du, Kurt Keutzer, Shanghang Zhang

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.11855v1

摘要：
最近的研究表明，大型语言模型（LLM）中的前馈网络（FFN）在存储各种语言和事实知识方面发挥着举足轻重的作用。传统方法由于其单一和冗余的架构而经常面临知识混淆的挑战，这就需要更高效的解决方案，同时将计算开销降至最低，尤其是对于 LLM。在本文中，我们探讨了 LLM 中的 FFN 计算范式，并介绍了 FactorLLM，这是一种新颖的方法，它能将训练有素的密集 FFN 分解为稀疏子网络，无需做任何进一步修改，同时保持相同的性能水平。此外，我们还嵌入了一个来自专家混合（MoE）的路由器，结合我们设计的先验近似（PA）损失项，促进了专家的动态激活和知识适应，从而利用最少的训练数据和微调步骤加速了计算过程并提高了性能。因此，FactorLLM 可以实现高效的知识因式分解，并激活专门针对指定任务的精选专家群，模拟人脑的交互式功能分割。各种基准的广泛实验证明了我们提出的 FactorLLM 的有效性，它的性能与源模型不相上下，确保了高达 85% 的模型性能，同时推理速度提高了 30% 以上。代码：https://github.com/zhenwuweihe/FactorLLM。

4.RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science

标题:RED-CT：使用 LLM 标注数据为计算社会科学训练和部署边缘分类器的系统设计方法论

author:David Farr, Nico Manzonelli, Iain Cruickshank, Jevin West

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08217v1

摘要：
大型语言模型（LLM）提高了我们快速分析和分类非结构化自然语言数据的能力。然而，由于成本、网络限制和安全约束等方面的原因，将 LLM 集成到工作流程中面临着挑战。在本研究中，我们采用了一种系统设计方法，将 LLMs 作为下游监督学习任务的不完美数据注释器，引入了旨在提高分类性能的新型系统干预措施。我们的方法在八项测试中的七项都优于 LLM 生成的标签，证明了将 LLM 纳入许多行业用例中的专业监督学习模型的设计和部署的有效策略。

5.MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU

标题:MIDAS：用于多轮 NLU 的多层次意图、领域和插槽知识提炼

author:Yan Li, So-Eon Kim, Seong-Bae Park, Soyeon Caren Han

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08144v1

摘要：
虽然大型语言模型（LLM）可以生成连贯且与上下文相关的文本，但它们往往难以识别人类用户查询背后的意图。然而，自然语言理解（NLU）模型可以解释用户输入的目的和关键信息，从而实现响应式交互。现有的自然语言理解（NLU）模型通常将单个语句映射到双层语义框架中，包括句子层面的意图和单词层面的插槽标签。然而，现实生活中的对话主要由多轮对话组成，涉及复杂和扩展对话的解释。研究人员在使用统一的单一 NLU 模型处理多轮对话会话的所有方面时遇到了挑战。本文介绍了一种新颖的方法 MIDAS，它利用多层次的意图、领域和插槽知识提炼来实现多轮 NLU。为此，我们为不同层次的对话知识构建了不同的教师，即句子级意图检测、单词级槽填充和对话级领域分类。然后对这些教师进行微调，以获取指定级别的特定知识。我们提出了一种多教师损耗，以促进这些多级教师的组合，在多轮对话任务中指导学生模型。实验结果表明，我们的模型能有效提高多轮对话的整体理解能力，并通过多层次对话知识提炼技术的应用，展示了无语言单元模型的发展潜力。

6.Graph Retrieval-Augmented Generation: A Survey

标题:图检索-增强生成：调查

author:Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang

publish:Ongoing work

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.08921v1

摘要：
最近，检索增强生成（RAG）在应对大型语言模型（LLM）的挑战方面取得了显著成功，而无需重新训练。通过参考外部知识库，RAG 完善了 LLM 的输出，有效缓解了 “幻觉”、特定领域知识缺乏和信息过时等问题。然而，数据库中不同实体之间复杂的关系结构给 RAG 系统带来了挑战。为此，GraphRAG 利用实体间的结构信息，实现更精确、更全面的检索，捕捉关系知识，促进更准确的、上下文感知的响应。鉴于 GraphRAG 的新颖性和潜力，对当前技术进行系统回顾势在必行。本文首次全面概述了 GraphRAG 方法。我们将 GraphRAG 工作流程正规化，包括基于图形的索引、图形引导的检索和图形增强的生成。然后，我们概述了每个阶段的核心技术和训练方法。此外，我们还研究了 GraphRAG 的下游任务、应用领域、评估方法和工业用例。最后，我们探讨了未来的研究方向，以激发进一步的探索并推动该领域的进步。

7.Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

标题:在医学问题解答中利用人类启发学习策略微调大型语言模型

author:Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.07888v1

摘要：
训练大型语言模型（LLMs）会产生大量与数据相关的成本，因此需要通过优化数据排序和选择来开发数据效率高的训练方法。受人类启发的学习策略，如课程学习，通过根据人类常见的学习实践来组织数据，为高效训练提供了可能性。尽管有证据表明，通过课程学习进行微调可以提高 LLM 在自然语言理解任务中的性能，但其有效性通常是通过单一模型来评估的。在这项工作中，我们扩展了之前的研究，使用人类定义的和自动生成的医疗问题解答数据标签，在多个 LLM 中评估了基于课程和非基于课程的学习策略。我们的结果表明，使用人类启发的学习策略对 LLM 进行微调的影响适中，每个模型和每个数据集的最高准确率分别提高了 1.77% 和 1.81%。重要的是，我们证明了这些策略的有效性在不同的模型-数据集组合中存在显著差异，从而强调了特定的人类启发策略在微调 LLM 方面的优势并不具有普遍性。此外，我们发现有证据表明，使用 LLM 定义的问题难度进行课程学习的效果优于人类定义的难度，这凸显了使用模型生成的衡量标准进行优化课程设计的潜力。

8.Instruct Large Language Models to Generate Scientific Literature Survey Step by Step

标题:指导大型语言模型逐步生成科学文献调查报告

author:Yuxuan Lai, Yupeng Wu, Yidan Wang, Wenpeng Hu, Chen Zheng

publish:NLPCC 2024

date Time:2024-08-15

paper pdf:http://arxiv.org/pdf/2408.07884v1

摘要：
摘要自动生成科学文献调查是一项有价值的任务，可以显著提高研究效率。然而，文献调查中信息的多样性和复杂性给生成模型带来了巨大挑战。在本文中，我们设计了一系列提示，以系统地利用大型语言模型（LLM），通过循序渐进的方法创建全面的文献调查。具体来说，我们设计了提示语来引导 LLM 依次生成标题、摘要、分层标题和文献调查的主要内容。我们认为，这种设计能够从高层次的角度生成标题。在内容生成过程中，这种设计通过限制 LLM 查询中输入和输出内容的长度，有效地利用了相关信息，同时最大限度地降低了成本。在 NLPCC 2024 科学文献调查生成评估任务中，我们的 Qwen-long 实现获得了第三名，总分仅比第二名低 0.03%。此外，我们的软标题召回率高达 95.84%，在参赛作品中名列第二。得益于高效的提示设计和低成本的 "问文龙 "API，我们的方法将生成每份文献调查的费用降低到了0.1元人民币，提高了我们方法的实用价值。

9.MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis

标题:MedTsLLM：利用 LLM 进行多模态医学时间序列分析

author:Nimeesha Chan, Felix Parker, William Bennett, Tianyi Wu, Mung Yao Jia, James Fackler, Kimia Ghobadi

publish:published in Proceedings of Machine Learning Research, MLHC 2024

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07773v1

摘要：
在现实世界的许多应用中，数据的复杂性和异质性给传统的机器学习和信号处理技术带来了巨大挑战。例如，在医学领域，有效分析各种生理信号对于患者监测和临床决策至关重要，但同时也极具挑战性。我们介绍的 MedTsLLM 是一种通用的多模态大语言模型（LLM）框架，它能有效地整合时间序列数据和文本形式的丰富上下文信息来分析生理信号，执行与临床相关的三项任务：时间序列中的语义分割、边界检测和异常检测。这些关键任务能够对生理信号进行更深入的分析，并为临床医生提供可操作的见解。我们利用重编程层将时间序列补丁的嵌入与预训练 LLM 的嵌入空间相一致，并结合文本上下文有效利用原始时间序列。鉴于医疗数据集的多变量性质，我们开发了处理多个协变量的方法。此外，我们还对文本提示进行了定制，以包含患者的特定信息。我们的模型在多个医疗领域（特别是心电图和呼吸波形）的表现优于最先进的基线，包括深度学习模型、其他 LLM 和临床方法。MedTsLLM 为利用 LLM 的力量进行医学时间序列分析迈出了充满希望的一步，它可以提升临床医生的数据驱动工具，改善患者的治疗效果。

10.The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models

标题:模式链接之死？合理语言模型时代的文本到 SQL

author:Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07702v2

摘要：
模式链接是文本到 SQL 管道中的一个关键步骤。其目的是为用户的查询检索目标数据库中的相关表和列，同时忽略不相关的表和列。然而，不完善的模式链接往往会排除准确生成查询所需的列。在这项工作中，我们重新审视了使用最新一代大型语言模型（LLM）时的模式链接问题。我们通过经验发现，即使存在大量不相关的模式元素，最新的模型也能在生成过程中善于利用相关的模式元素。因此，在模式符合模型上下文窗口的情况下，我们的文本到 SQL 管道会完全放弃模式链接，以最大限度地减少因过滤所需模式元素而产生的问题。此外，我们强调增强、选择和校正等技术，而不是过滤上下文信息，并采用这些技术来提高文本到 SQL 管道的准确性。我们的方法在 BIRD 基准测试中排名第一，准确率达到 71.83%。

11.Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

标题:LLMs, MLLMs 及其他中的模型合并：方法、理论、应用和机遇

author:Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07666v3

摘要：
模型合并是机器学习领域一种高效的授权技术，它不需要收集原始训练数据，也不需要昂贵的计算。随着模型合并在各个领域日益盛行，全面了解现有的模型合并技术至关重要。然而，在对这些技术进行系统而全面的综述方面，文献中还存在很大的空白。本调查全面概述了模型合并方法和理论、它们在不同领域和环境中的应用以及未来的研究方向。具体来说，我们首先提出了一种新的分类方法，详尽讨论了现有的模型合并方法。其次，我们讨论了模型合并技术在大型语言模型、多模态大型语言模型以及10多个机器学习子领域的应用，包括持续学习、多任务学习、少量学习等。最后，我们强调了模型合并仍面临的挑战，并讨论了未来的研究方向。有关模型合并的综合论文列表请访问 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}。

12.WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs

标题:WeKnow-RAG：整合网络搜索和知识图谱的检索增强生成自适应方法

author:Weijian Xie, Xuefeng Liang, Yuhui Liu, Kaihua Ni, Hong Cheng, Zetian Hu

publish:8 pages, 2 figures, technical report for 3rd place in Task 3 of Meta
KDD Cup 2024 CRAG Challenge

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07611v1

摘要：
大型语言模型（LLM）为自适应智能代理的发展做出了巨大贡献，并被定位为实现人工通用智能（AGI）的重要途径。然而，大型语言模型容易产生与事实不符的信息，并经常产生 "幽灵 "内容，从而削弱了其可靠性，这对其在现实世界场景中的部署提出了严峻挑战。通过结合外部数据库和信息检索机制来增强 LLM 是一条有效的途径。针对上述挑战，我们提出了一种名为 WeKnow-RAG 的新方法，它将网络搜索和知识图谱整合成一个 "检索增强生成（RAG）"系统。首先，通过将知识图谱的结构化表示与密集向量检索的灵活性相结合，提高了 LLM 响应的准确性和可靠性。然后，WeKnow-RAG 利用特定领域的知识图谱来满足各种查询和领域，从而通过使用稀疏和密集检索方法的多阶段网页检索技术，提高了事实信息和复杂推理任务的性能。我们的方法有效地平衡了信息检索的效率和准确性，从而改进了整个检索过程。最后，我们还为 LLM 集成了自我评估机制，以评估其生成的答案的可信度。我们的方法在广泛的离线实验和在线提交中证明了其出色的有效性。

13.Large Language Models Prompting With Episodic Memory

标题:用外显记忆提示大语言模型

author:Dai Do, Quan Tran, Svetha Venkatesh, Hung Le

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07465v1

摘要：
在一系列自然语言处理（NLP）任务中，提示优化对于提高大型语言模型（LLM）的性能至关重要，尤其是在将训练示例直接纳入提示的少量学习场景中。尽管人们对使用少量示例优化提示语的兴趣与日俱增，但现有的提示语优化方法往往需要耗费大量资源，或者效果不佳。在这项工作中，我们提出了一种新颖的提示优化技术–外显记忆提示优化技术（POEM），该技术简单、高效，并具有很强的泛化能力。我们将提示优化作为一项强化学习（RL）挑战，利用外显记忆将输入数据的组合、少量示例的排列组合以及训练期间观察到的奖励存档。在测试阶段，我们为每个测试查询优化示例序列，从外显记忆中最相似的前 k 个训练示例中选择总奖励最高的序列。我们的研究结果表明，在各种文本分类任务中，POEM 的性能比 TEMPERA 和 RLPrompt 等最新技术高出 5.3% 以上。此外，我们的方法还能很好地适应更广泛的语言理解任务，在实例排序方面始终优于传统的启发式方法。

14.ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

标题:ChemVLM：探索化学领域多模态大语言模型的力量

author:Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Yaotian Yang, Xinrui Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

publish:11 pages, updated version

date Time:2024-08-14

paper pdf:http://arxiv.org/pdf/2408.07246v2

摘要：
大型语言模型（LLM）已经取得了巨大成功，并被应用于包括化学在内的各个科学领域。然而，许多化学任务需要处理视觉信息，而现有的化学大型语言模型无法成功处理这些信息。因此，人们越来越需要能够整合化学领域多模态信息的模型。本文介绍了专为化学应用设计的开源化学多模态大语言模型 ChemVLM。ChemVLM 在精心策划的双语多模态数据集上进行了训练，从而增强了其理解文字和视觉化学信息的能力，包括分子结构、反应和化学考试问题。我们开发了三个数据集进行综合评估，分别针对化学光学字符识别（OCR）、多模态化学推理（MMCR）和多模态分子理解任务。我们在各种任务中将ChemVLM与一系列开源和专有的多模态大型语言模型进行比较。实验结果表明，ChemVLM 在所有评估任务中都取得了具有竞争力的性能。我们的模型可在 https://huggingface.co/AI4Chem/ChemVLM-26B 上找到。

15.Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach

标题:使用高级 LLM 增强小型 LLM：可解释的知识提炼方法

author:Tong Wang, K. Sudhir, Dat Hong

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.07238v1

摘要：
GPT-4 或 LlaMa 3 等先进的大型语言模型（LLM）可在复杂的类人交互中提供卓越的性能。但这些模型成本高昂，或者对于智能手机等边缘设备来说过于庞大，而且难以自我托管，从而导致安全和隐私问题。本文介绍了一种新颖的可解释知识提炼方法，以提高企业可自行托管的更小、更经济的 LLM 的性能。我们在构建客户服务代理的背景下研究了这一问题，旨在通过目标导向的对话实现高客户满意度。与 "学生 "模型通过微调直接从 "教师 "模型的回应中学习知识的传统知识提炼方法不同，我们的可解释 "策略 "教学方法涉及教师提供策略，以提高学生在各种情景中的表现。这种方法在 "情景生成 "步骤和 "改进策略 "步骤之间交替进行，为自动提示创建了一个定制的情景和优化策略库。该方法只需黑盒访问学生和教师模型，因此无需操作模型参数即可使用。在我们的客户服务应用中，该方法提高了性能，而且学到的策略可用于训练集之外的其他 LLM 和场景。该方法的可解释性有助于防止人为审计造成的潜在危害。

16.LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

标题:LongWriter：从长语境 LLM 中生成 10,000+ 个单词

author:Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.07055v1

摘要：
目前的长语境大型语言模型（LLM）可以处理多达 10 万个词块的输入，但却很难生成长度超过 2000 个单词的输出。通过对照实验，我们发现该模型的有效生成长度受到其在监督微调（SFT）过程中所见样本的固有限制。换句话说，其输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。为了解决这个问题，我们引入了 AgentWrite，这是一种基于代理的管道，它能将超长生成任务分解为子任务，使现成的 LLM 能够生成超过 20,000 字的连贯输出。利用 AgentWrite，我们构建了 LongWriter-6k，这是一个包含 6000 个 SFT 数据的数据集，输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练，我们成功地将现有模型的输出长度扩展到了 10,000 字以上，同时保持了输出质量。我们还开发了用于评估超长生成能力的综合基准 LongBench-Write。我们的 9B 参数模型经过 DPO 的进一步改进，在这一基准上达到了最先进的性能，甚至超过了更大的专有模型。总的来说，我们的工作表明，现有的长语境 LLM 已经具备了更大输出窗口的潜力–你所需要的只是在模型对齐过程中扩展输出的数据，以释放这种能力。我们的代码和模型见：https://github.com/THUDM/LongWriter.

17.Leveraging Language Models for Emotion and Behavior Analysis in Education

标题:利用语言模型进行教育领域的情绪和行为分析

author:Kaito Tanaka, Benjamin Tan, Brian Wong

publish:8 pages

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06874v1

摘要：
分析学生的情绪和行为对于提高学习效果和个性化教育体验至关重要。传统的方法通常依赖于侵入性的视觉和生理数据收集，会带来隐私问题和可扩展性问题。本文提出了一种利用大型语言模型（LLM）和提示工程来分析学生文本数据的新方法。我们的方法利用量身定制的提示来引导 LLM 检测情绪和参与状态，提供了一种非侵入式和可扩展的解决方案。我们使用 Qwen、ChatGPT、Claude2 和 GPT-4 进行了实验，将我们的方法与基线模型和思维链（CoT）提示进行了比较。结果表明，我们的方法在准确性和上下文理解方面都明显优于基线方法。这项研究凸显了 LLM 与提示工程相结合，为教育情绪和行为分析提供实用有效工具的潜力。

18.LoRA $^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models

标题:LoRA $^2$ ：用于微调大型语言模型的多尺度低函近似法

author:Jia-Chen Zhang, Yu-Jie Xiong, He-Xi Qiu, Dong-Hai Zhu, Chun-Ming Xia

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06854v1

摘要：
针对下游任务对大型语言模型（LLM）进行参数效率高的微调已成为一种新模式。低级适应（Low-Rank Adaptation，LoRA）大大减少了用于微调的可训练参数的数量。在本文中，我们将 LoRA 扩展到多个尺度，称为 LoRA $^2$ 。我们首先结合正交投影理论，在两个相互正交的平面上训练一组 LoRA。然后，我们改进了重要度得分算法，将参数灵敏度得分计算减少了约 98.5%。通过修剪重要性得分较低的奇异值，从而增强了对各种下游任务的适应性。为了验证 LoRA $^2$ 的有效性，我们在两个广泛使用的预训练模型上进行了大量实验。结果表明，与完全微调相比，LoRA $^2$ 大大减少了可训练参数的数量，仅为0.72/%，同时仍能提供非常出色的性能。即使将参数进一步减少到 0.17M，它仍能取得与参数多 8 倍的基线相当的结果。我们的代码可在这里获取： https://anonymous.4open.science/r/LoRA-2-5B4C

19.Unlock the Power of Frozen LLMs in Knowledge Graph Completion

标题:在知识图谱补全中释放冰冻 LLM 的力量

author:Bo Xue, Yi Xu, Yunchong Song, Yiming Pang, Yuyang Ren, Jiaxin Ding, Luoyi Fu, Xinbing Wang

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06787v1

摘要：
经典的知识图谱补全（KGC）方法仅依赖于结构信息，难以解决知识图谱（KG）固有的稀疏性问题。大型语言模型（LLM）通过强大的上下文建模功能从大型语料库中学习广泛的知识，是缓解以往方法局限性的理想选择。直接对 LLMs 进行微调具有很强的能力，但代价是需要消耗大量的时间和内存，而利用冻结的 LLMs 则会产生次优结果。在这项工作中，我们旨在有效利用 LLMs 进行 KGC。我们通过使用提示来刺激 LLMs 的中间层，从而捕捉知识三元组的上下文感知隐藏状态。然后，我们在这些隐藏状态上训练数据高效的分类器，以便在 KGC 中利用冻结 LLM 的固有功能。我们还在 KG 上通过子图采样生成实体描述，从而减少了三元组的模糊性，丰富了知识表征。在标准基准上进行的广泛实验展示了我们方法的效率和有效性。我们在大多数数据集上的表现都优于经典的 KGC 方法，并与微调 LLM 的表现不相上下。此外，与微调 LLMs 相比，我们将 GPU 内存效率提高了 \textbf{ $188\times$ } 并将训练+推理速度提高了 \textbf{ $13.48\times$ } 。

20.Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data

标题:介绍 NewsPaLM MBR 和 QE 数据集：LLM 生成的高质量并行数据优于传统的网络抓取数据

author:Mara Finkelstein, David Vilar, Markus Freitag

date Time:2024-08-13

paper pdf:http://arxiv.org/pdf/2408.06537v4

摘要：
神经机器翻译（NMT）领域的最新研究表明，在高质量机器生成的数据上进行训练的效果优于在人工生成的数据上进行训练的效果。这项研究首次发布了由 LLM 生成、MBR 解码和 QE 评级的数据集，其中包含句子级和多句子示例。我们进行了广泛的实验，从数据集对 NMT 模型性能的下游影响方面证明了数据集的质量。我们发现，在我们的（机器生成的）数据集上从头开始进行训练的效果优于在（网络抓取的）WMT’23 训练数据集上进行训练的效果（WMT’23 数据集比我们的数据集大 300 倍），也优于在 WMT’23 训练数据集的高质量子集上进行训练的效果。我们还发现，通过对生成该数据集的 LLM 进行微调来执行自馏分，效果优于 LLM 强大的少量基线。这些发现证实了我们数据集的质量，并证明了高质量机器生成数据在提高 NMT 模型性能方面的价值。

21.Cross-Lingual Conversational Speech Summarization with Large Language Models

标题:利用大型语言模型进行跨语言会话语音总结

author:Max Nelson, Shannon Wotherspoon, Francis Keith, William Hartmann, Matthew Snover

date Time:2024-08-12

paper pdf:http://arxiv.org/pdf/2408.06484v1

摘要：
跨语言会话语音摘要是一个重要问题，但却缺乏相关资源。虽然许多语言都有转录，但会话语音翻译却很少见，包含摘要的数据集也不存在。我们以现有的 Fisher 和 Callhome 西班牙语-英语语音翻译语料库为基础，用摘要对翻译进行补充。摘要使用 GPT-4 从参考译文中生成，并被视为基本事实。我们的任务是在存在转录和翻译错误的情况下生成类似的摘要。我们使用开源语音识别和机器翻译模型构建了一个基于级联的基线系统。我们测试了一系列用于摘要的 LLM，并分析了转录和翻译错误的影响。针对这项任务调整 Mistral-7B 模型的性能明显优于现成的模型，与 GPT-4 的性能不相上下。

22.Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

标题:相互推理使小型 LLM 更好地解决问题

author:Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang

date Time:2024-08-12

paper pdf:http://arxiv.org/pdf/2408.06195v1

摘要：
本文介绍的 rStar 是一种自我游戏相互推理方法，它能显著提高小语言模型（SLM）的推理能力，而无需微调或高级模型。首先，一个目标小语言模型通过丰富的类人推理动作集来增强蒙特卡洛树搜索（MCTS），从而构建出更高质量的推理轨迹。接下来，另一个与目标 SLM 功能相似的 SLM 作为判别器，验证目标 SLM 生成的每个轨迹。相互认可的推理轨迹被认为是相互一致的，因此更有可能是正确的。对五种 SLM 的广泛实验表明，rStar 可以有效解决各种推理问题，包括 GSM8K、GSM-Hard、MATH、SVAMP 和 StrategyQA。值得注意的是，在 LLaMA2-7B 中，rStar 将 GSM8K 的准确率从 12.51% 提高到 63.91%；在 Mistral-7B 中，rStar 将准确率从 36.46% 提高到 81.88%；在 LLaMA3-8B-Instruct 中，rStar 将准确率从 74.53% 提高到 91.13%。代码可从 https://github.com/zhentingqi/rStar 网站获取。

小小帅AIGC

关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.08.10-2024.08.15

在开放领域问题解答（OpenQA）等知识密集型任务中，大型语言模型（LLM）往往难以仅依靠其内部（参数）知识生成符合事实的答案。为解决这一局限性，检索增强生成（RAG）系统通过从外部来源检索相关信息来增强 LLM，从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能，但其训练却面临着挑战，原因是地面实况证据稀缺，这主要归咎于人工标注的高成本。在本文中，我们提出了 W-RAG，利用 LLM 的排名功能创建弱标签数据，用于训练高密度检索器。
复制链接

扫一扫

专栏目录

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.08.10-2024.08.15

文章目录～

1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering

2.Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models

3.FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models

4.RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science

5.MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU

6.Graph Retrieval-Augmented Generation: A Survey

7.Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

8.Instruct Large Language Models to Generate Scientific Literature Survey Step by Step

9.MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis

10.The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models

11.Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

12.WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs

13.Large Language Models Prompting With Episodic Memory

14.ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

15.Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach

16.LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

17.Leveraging Language Models for Emotion and Behavior Analysis in Education

18.LoRA 2 ^2 2 : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models

19.Unlock the Power of Frozen LLMs in Knowledge Graph Completion

20.Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data

21.Cross-Lingual Conversational Speech Summarization with Large Language Models

22.Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

18.LoRA $^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models