文章目录~
- 1.Gender Bias in Decision-Making with Large Language Models: A Study of Relationship Conflicts
- 2.Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
- 3.Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs
- 4.WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs
- 5.DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
- 6.Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning
- 7.Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification
- 8.NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models
- 9.Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning
- 10.Beyond Right and Wrong: Mitigating Cold Start in Knowledge Tracing Using Large Language Model and Option Weight
- 11.Federated Data-Efficient Instruction Tuning for Large Language Models
- 12.Model-Based Differentially Private Knowledge Transfer for Large Language Models
- 13.Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?
- 14.KBLaM: Knowledge Base augmented Language Model
- 15.Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs
- 16.Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement
- 17.CoMAT: Chain of Mathematically Annotated Thought Improves Mathematical Reasoning
- 18.GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs
- 19.EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
- 20.Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies
- 21.Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations
- 22.LoRE: Logit-Ranked Retriever Ensemble for Enhancing Open-Domain Question Answering
- 23.Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization
- 24.RMB: Comprehensively Benchmarking Reward Models in LLM Alignment
- 25.Taming Overconfidence in LLMs: Reward Calibration in RLHF
- 26.Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?
- 27.Enhanced Electronic Health Records Text Summarization Using Large Language Models
- 28.Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
- 29.LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning
- 30.Boosting Deductive Reasoning with Step Signals In RLHF
- 31.Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models
- 32.SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins
- 33.ELICIT: LLM Augmentation via External In-Context Capability
- 34.LLM × \times ×MapReduce: Simplified Long-Sequence Processing using Large Language Models
- 35.Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization
- 36.ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs
- 37.LLMD: A Large Language Model for Interpreting Longitudinal Medical Records
- 38.Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism
- 39.P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains
- 40.Automated Rewards via LLM-Generated Progress Functions
- 41.MiRAGeNews: Multimodal Realistic AI-Generated News Detection
- 42.Optimized Biomedical Question-Answering Services with LLM and Multi-BERT Integration
- 43.Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference
- 44.Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective
- 45.Language Imbalance Driven Rewarding for Multilingual Self-improving
- 46.Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies
- 47.Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation
- 48.Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers
- 49.QEFT: Quantization for Efficient Fine-Tuning of LLMs
- 50.Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning
- 51.Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both
1.Gender Bias in Decision-Making with Large Language Models: A Study of Relationship Conflicts
标题:大型语言模型决策中的性别偏见:关系冲突研究
author:Sharon Levy, William D. Adler, Tahilin Sanchez Karver, Mark Dredze, Michelle R. Kaufman
publish:EMNLP Findings 2024
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.11084v1
摘要:
大型语言模型(LLMs)从训练数据中获得有关性别的信念,因此可以生成具有性别刻板印象的文本。之前的研究已经证明了模型生成偏向于一种性别或表现出对性别的刻板印象,但还没有研究影响涉及性别的模型推理和决策的复杂动态。我们通过一个新的数据集 DeMET Prompts(包含与亲密、浪漫关系相关的场景),从决策角度研究了 LLM 中的性别平等问题。我们通过三个姓名列表(男性、女性、中性)中的姓名对,探索了九种关系配置。我们从多个角度研究了性别角色背景下的公平问题:典型姓名和性别中性姓名、有模型安全性增强和无模型安全性增强、同性和混合性别关系,以及各种主题下的平等主义和传统情景。虽然所有模型都表现出相同的偏差(女性更受欢迎,然后是那些采用性别中性名称的模型,最后是男性),但安全防护措施减少了偏差。此外,模型倾向于规避传统的男性主导刻板印象,更多地站在 "传统女性 "一边,这表明模型将人际关系视为女性的领域。
2.Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
标题:利用强化学习提高大型语言模型的语言理解能力
author:Bokai Hu, Sai Ashish Somayajula, Xin Pan, Zihan Huang, Pengtao Xie
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.11020v3
摘要:
建立在纯解码器转换器上的大型语言模型(LLM)在自然语言生成方面表现出色,并能通过零镜头和少镜头提示适应各种任务。然而,这些提示方法在自然语言理解(NLU)任务中往往力不从心,在 GLUE 和 SuperGLUE 等基准测试中,BERT-base 等纯编码器模型的表现要优于 LLM。本文探讨了两种方法–监督微调(SFT)和近端策略优化(PPO)–以增强 LLM 的 NLU 能力。为了降低全模型微调的成本,我们整合了低秩适应(LoRA)层,在 SFT 和 PPO 期间限制这些层的更新。在 SFT 中,特定任务的提示与输入查询和地面实况标签连接在一起,通过下一个标记预测进行优化。尽管如此,与 BERT-base 等模型相比,LLM 在多个 NLU 任务中的表现仍然不佳。为了缩小这一差距,我们采用了强化学习技术 PPO,该技术将每个标记的生成视为一个动作,并根据与地面实况答案的一致性使用奖励函数。然后,PPO 更新模型,使这些奖励最大化,从而使输出与正确的标签保持一致。我们对 LLAMA2-7B 的实验表明,PPO 提高了性能,在 GLUE 上比 SFT 提高了 6.3 分。在 GLUE 上,PPO 比 zero-shot 高出 38.7 分,比 few-shot 高出 26.1 分;在 SuperGLUE 上,PPO 比 zero-shot 高出 28.8 分,比 few-shot 高出 28.5 分。此外,PPO 在 GLUE 上比 BERT-large 高 2.7 分,在 SuperGLUE 上比 BERT-large 高 9.3 分。这些改进在 Qwen2.5-7B 和 MPT-7B 等模型上是一致的,这突出表明 PPO 在增强 LLM 的 NLU 能力方面具有很强的鲁棒性。
3.Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs
标题:记录之图:利用图表促进检索增强生成长语境摘要
author:Haozhen Zhang, Tao Feng, Jiaxuan You
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.11001v1
摘要:
检索增强生成(RAG)通过注入非参数事实知识,振兴了大型语言模型(LLM)。与长上下文 LLM 相比,RAG 被认为是一种有效的摘要工具,它更加简洁、轻便,可以使用不同的查询与 LLM 进行多次交互,以获得全面的回复。然而,LLM 生成的历史回复包含潜在的有洞察力的信息,但现有方法大多忽略和丢弃了这些信息,导致结果不理想。在本文中,我们提出了 \textit{graph of records}(\textbf{GoR}),它利用 LLM 生成的历史响应来增强 RAG 的长上下文全局摘要功能。受 RAG 的 \textit{retrieve-then-generate} 范式的启发,我们通过在检索到的文本块和相应的 LLM 生成的响应之间建立边来构建图。为了进一步揭示它们之间错综复杂的相关性,GoR 进一步采用了一个 \textit{图神经网络}和一个精心设计的基于 \textit{BERTScore}目标的自监督模型训练,从而实现了参考摘要和节点嵌入之间的无缝监督信号反向传播。我们在四个长文本摘要数据集上对 GoR 和 12 个基线进行了全面比较,结果表明我们提出的方法达到了最佳性能,例如,在 WCEP 数据集上,与 Rouge-L、Rouge-1 和 Rouge-2 相比,GoR 的性能分别提高了 15%、8% 和 19%。)大量实验进一步证明了 GoR 的有效性。代码见 https://github.com/ulab-uiuc/GoR
4.WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs
标题:WILT:用于 LLM 的多轮、记忆可靠的归纳逻辑基准
author:Eryk Banatt, Jonathan Cheng, Skanda Vaidyanath, Tiffany Hwu
publish:Submitted to ICLR 2025. Preprint version 1
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10998v1
摘要:
虽然大型语言模型在众多领域都表现出了令人印象深刻的能力,但在推理任务中,它们仍然遇到了巨大的挑战,因为推理任务需要在多个回合中收集证据并得出合乎逻辑的结论。这些挑战给 LLM 聊天用户界面带来了巨大障碍,因为聊天用户界面依赖多轮交互来促进有效协作。这种限制导致了现实世界中的问题;例如,服务聊天机器人必须多次从客户那里收集必要的信息,才能有效地诊断和解决问题。尽管现实世界中的许多 LLM 用例都具有多轮性质,但大多数现有基准都依赖于精心策划的单轮测试,这往往模糊了记忆与真正推理之间的界限。为了解决这个问题,我们引入了瓦森归纳逻辑测试(WILT),这是一个简单但具有挑战性的多轮推理基准,旨在防止死记硬背。WILT 受瓦森 2-4-6 任务的启发,参与者必须通过提出测试用例(如
(
2
,
4
,
6
)
(2,4,6)
(2,4,6))来推断涉及三个变量的布尔函数(如
x
<
y
<
z
x < y < z
x<y<z)。在 WILT 中,每次测试都是从零开始,只提供初始指令,防止模型依赖预先学习的反应。在几个回合中,模型必须与环境互动,提出测试案例以缩小可能的假设范围,并最终根据结果推断出隐藏函数。我们的研究结果表明,LLMs 在这项任务中表现出了明显的优缺点:一些 LLMs 更擅长通过提出有价值的测试案例来缩小假设空间,而另一些则更擅长从观察到的案例中推断出隐藏函数。尽管存在这些差异,表现最好的模型也只达到了 28% 的准确率,这凸显了 LLM 在复杂的多轮推理任务中表现的巨大差距。
5.DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
标题:DuoAttention:带检索和流媒体头的高效长上下文 LLM 推理
author:Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10819v1
摘要:
部署长上下文大型语言模型(LLM)至关重要,但也带来了巨大的计算和内存挑战。缓存所有注意头的所有键和值(KV)状态需要消耗大量内存。现有的 KV 缓存剪枝方法要么破坏了 LLM 的长语境能力,要么只能有限地提高效率。在本文中,我们发现只有一小部分注意力头(又称检索头)对处理长语境至关重要,需要对所有标记进行全神贯注。与此相反,所有其他的注意力头(主要集中在最近的标记和注意力汇)–被称为 “流注意力头”–不需要全神贯注。基于这一见解,我们推出了 DuoAttention,这是一种只对检索头应用完整 KV 缓存,而对流媒体头使用轻量级、恒定长度 KV 缓存的框架,它既减少了 LLM 的解码和预填充内存以及延迟,又不影响其长上下文能力。DuoAttention 使用基于优化的轻量级算法和合成数据来准确识别检索头。我们的方法大大减少了长上下文推理内存,MHA 模型减少了 2.55 倍,GQA 模型减少了 1.67 倍,同时加快了解码速度,MHA 模型和 GQA 模型分别加快了 2.18 倍和 1.50 倍,预填充速度分别加快了 1.73 倍和 1.63 倍,与全注意力相比,精度损失极小。值得注意的是,结合量化,DuoAttention 可在单个 A100 GPU 上实现 Llama-3-8B 解码,上下文长度为 330 万。代码见 https://github.com/mit-han-lab/duo-attention。
6.Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning
标题:混合数据还是合并模型?优化多样化多任务学习
author:Aakanksha, Arash Ahmadian, Seraphina Goldfarb-Tarrant, Beyza Ermis, Marzieh Fadaee, Sara Hooker
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10801v1
摘要:
大型语言模型(LLM)已在全球范围内被广泛采用和部署。然而,确保其安全使用仍然是一项重大挑战。偏好训练和安全措施往往过度适应以西方为中心的数据集中普遍存在的危害,而且安全协议经常无法扩展到多语言环境。在这项工作中,我们探索了在多样化多任务环境下的模型合并,在多语言背景下将安全任务和通用任务相结合。每种语言都为不同任务带来了独特而多样的学习挑战。我们发现,基于目标的合并比混合数据更有效,一般性能和安全性分别提高了 8%和 10%。我们还发现,基于语言的合并也非常有效–通过合并单语微调模型,在使用相同可用数据的情况下,我们在所有语言中的总体性能提高了 4%,危害降低了 7%。总之,我们对合并方法的全面研究为建立强大而安全的多语言模型提供了一个有用的框架。
7.Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification
标题:现在就使用随机选择:基于 LLM 的文本扩增分类中的少量选择策略研究
author:Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10756v1
摘要:
生成式大语言模型(LLMs)越来越多地用于数据扩增任务,在这种任务中,文本样本被转述(或重新生成),然后用于分类器微调。现有的扩增工作利用的是 "少量样本 "场景,将样本作为提示的一部分提供给 LLM,从而获得更好的扩增效果。然而,样本大多是随机选择的,缺乏对其他(更 "知情 "的)样本选择策略效果的全面概述。在这项工作中,我们比较了少量学习文献中现有的样本选择策略,并研究了它们在基于 LLM 的文本扩增中的效果。我们对分布内和分布外分类器的性能进行了评估。结果表明,虽然某些 "知情 "选择策略能提高模型的性能,特别是对于分布外数据,但这种情况很少发生,而且性能提高有限。除非有进一步的进展,否则对于增强实践者来说,默认的随机样本选择仍然是一个不错的选择。
8.NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models
标题:NT-LLM:将图结构整合到大型语言模型中的新型节点标记器
author:Yanbiao Ji, Chang Liu, Xin Chen, Yue Ding, Dan Luo, Mei Li, Wenqing Lin, Hongtao Lu
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10743v1
摘要:
图是表示现实世界场景中各种关系的基本数据结构。随着大型语言模型(LLMs)在各种自然语言处理(NLP)任务中取得成功,人们对将 LLMs 集成到图学习中的兴趣与日俱增。然而,将 LLMs 应用于图相关任务面临着巨大的挑战,因为这些模型本身并不是为了捕捉图中存在的复杂结构信息而设计的。现有的方法通过两种策略来应对这一挑战:任务链方法,该方法使用图神经网络(GNN)对图结构进行编码,从而使 LLMs 从理解空间位置中解脱出来;图到文本转换,该方法将图结构转换为 LLMs 可以处理的语义文本表示。尽管这些方法取得了进展,但它们往往难以完全保留图的拓扑信息,或者需要大量的计算资源,从而限制了它们的实际应用。 在这项工作中,我们引入了大型语言模型节点标记器(NT-LLM),这是一个新颖的框架,通过选择关键节点作为锚点,并根据每个节点与这些锚点的相对距离来表示每个节点,从而有效地对图结构进行编码。这种位置锚定编码能有效捕捉图拓扑结构,从而增强 LLM 对图数据的推理能力。此外,我们还实施了针对特定任务的调整程序,以进一步提高 LLM 的结构理解能力。通过广泛的经验评估,NT-LLM 在各种与图相关的任务中表现出了显著的性能提升。
9.Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning
标题:将自我修正作为固有能力嵌入大型语言模型以增强数学推理能力
author:Kuofeng Gao, Huanqia Cai, Qingyao Shuai, Dihong Gong, Zhifeng Li
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10735v1
摘要:
利用大型语言模型(LLMs)进行精确的数学推理,对于彻底改变严重依赖此类推理的领域至关重要。然而,LLM 在数学推理的某些方面经常遇到困难,导致推理错误和结果错误。为了缓解这些问题,我们引入了一种新颖的机制–自我修正链(CoSC),专门用于将自我修正作为一种固有能力嵌入 LLM,使它们能够验证和修正自己的结果。CoSC 机制通过一系列自我纠正阶段来运作。在每个阶段,LLM 生成一个程序来解决给定的问题,使用基于程序的工具执行该程序以获得输出,然后验证该输出。根据验证结果,LLM 要么进入下一个修正阶段,要么最终确定答案。这种迭代式的自我修正过程可以让 LLMs 完善其推理步骤,提高数学推理的准确性。为了以较低的成本启用 CoSC 机制,我们采用了两阶段微调方法。在第一阶段,利用 GPT-4 生成的相对较少的种子数据对 LLMs 进行训练,从而建立起初步的 CoSC 能力。在第二阶段,利用第一阶段训练好的模型,不依赖付费的 GPT-4,使用更大量的自生成数据进行训练,从而进一步增强 CoSC 能力。我们的综合实验证明,在现有的开源 LLM 中,CoSC 显著提高了传统数学数据集的性能。值得注意的是,我们的 CoSC-Code-34B 模型在公共领域最具挑战性的数学推理数据集 MATH 上取得了 53.5% 的得分,超过了 ChatGPT、GPT-4 等成熟模型,甚至超过了 GPT-4V、Gemini-1.0 Pro 和 Gemini-1.0 Ultra 等多模式 LLM。
10.Beyond Right and Wrong: Mitigating Cold Start in Knowledge Tracing Using Large Language Model and Option Weight
标题:超越对错:利用大型语言模型和选项权重缓解知识追踪中的冷启动问题
author:JongWoo Kim, SeongYeub Chu, Bryan Wong, Mun Yi
publish:11 pages
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.12872v1
摘要:
知识追踪(Knowledge Tracing,KT)在教育数据挖掘中至关重要,它通过追踪学习者的知识状态并预测其学习成绩,从而实现个性化学习。本研究引入了 LOKT(大语言模型期权加权知识追踪)模型,以解决使用大语言模型(LLM)时历史数据有限的冷启动问题。传统的知识追踪模型包含期权权重,而我们的研究则将这些权重整合到了基于 LLM 的知识追踪框架中。我们超越了正确和错误回答的二元分类,强调不同类型的错误回答能为学习者的知识状态提供有价值的见解。通过将这些回答转换为基于文本的序数类别,我们使 LLM 能够更清晰地评估学习者的理解能力,尽管我们的方法侧重于最终的知识状态,而不是随时间推移的学习进展。通过使用五个公共数据集,我们证明了 LOKT 模型即使在数据有限的情况下也能保持较高的预测准确性,从而有效地解决了 "学习者冷启动 "和 "系统冷启动 "两种情况。这些发现展示了 LOKT 在增强基于 LLM 的学习工具和支持早期个性化方面的潜力。
11.Federated Data-Efficient Instruction Tuning for Large Language Models
标题:针对大型语言模型的联合数据高效指令调整
author:Zhen Qin, Zhaomin Wu, Bingsheng He, Shuiguang Deng
publish:11 pages. Ongoing work
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10926v1
摘要:
指令调整有助于提高预训练的大型语言模型(LLM)对人类指令的响应速度,而这得益于多样化的指令数据。联合学习通过利用多样化的客户端数据扩展了指令数据的来源,使其在 LLM 的调优方面越来越受欢迎。现有的联合 LLM 调整方法通常会在本地训练期间遍历所有本地数据,从而带来过多的计算开销,并带来过度拟合本地数据的风险。因此,我们需要一种联合数据高效指令调整方法,这种方法从整个数据集中消耗的数据相对较少。为此,本研究提出了一种针对 LLM 的联合数据高效指令调整方法–FedHDS,它利用边缘数据的代表性子集(coreset)来调整 LLM。它通过分层数据选择框架,在不共享原始数据的情况下,共同选择少量有代表性的数据样本进行本地训练,从而减少了客户端内和客户端间数据样本的冗余。使用各种 LLM、数据集和数据分区在六个场景中进行的广泛实验表明,FedHDS 显著减少了微调所需的数据量,同时提高了指令调整 LLM 对未知任务的响应速度。
12.Model-Based Differentially Private Knowledge Transfer for Large Language Models
标题:基于模型的大型语言模型差异化私有知识转移
author:Zhaomin Wu, Jizhou Guo, Junyi Hou, Bingsheng He, Lixin Fan, Qiang Yang
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10481v1
摘要:
随着大型语言模型(LLMs)在网络服务中日益普及,有效利用特定领域的知识并同时确保隐私变得至关重要。现有的方法,如检索增强生成(RAG)和差异化隐私数据合成,往往会损害领域知识的实用性或敏感数据的隐私性,从而限制了它们在专业领域的适用性。为了应对这些挑战,我们提出了一个新颖的框架–textit{Llamdex},它将保护隐私的特定领域模型集成到了 LLMs 中。我们的方法大大提高了特定领域任务的准确性,在相同的差异隐私约束条件下,与现有方法相比最多可提高 26%。实验结果表明,Llamdex 不仅提高了 LLM 响应的准确性,还保持了与原始 LLM 相当的推理效率,突出了其在现实世界应用中的潜力。
13.Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?
标题:在时空关系分类中,LLM 是否会取代仅编码器模型?
author:Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10476v2
摘要:
对事件间时间关系的自动检测主要是通过编码器模型(如 RoBERTa)进行研究的。大型语言模型(LLM)最近在时态推理任务(如时态问题解答)中表现出了良好的性能。然而,最近的研究只测试了 LLM 在检测封闭源模型的时态关系方面的性能,从而限制了这些结果的可解释性。在这项工作中,我们研究了 LLMs 在时态关系分类任务中的表现和决策过程。首先,我们评估了七个开放和闭源 LLM 的性能,并尝试了上下文学习和轻量级微调方法。结果表明,采用上下文学习的 LLM 明显低于基于 RoBERTa 的较小的纯编码器模型。然后,我们通过应用可解释的方法深入探讨了造成这种差距的可能原因。结果表明,LLM 在这项任务中的局限性在于其自回归性质,这导致它们只关注序列的最后一部分。此外,我们还对这两个模型的词嵌入进行了评估,以更好地了解它们在训练前的差异。代码和微调模型可分别在 GitHub 上找到。
14.KBLaM: Knowledge Base augmented Language Model
标题:KBLaM:知识库增强语言模型
author:Xi Wang, Liana Mikaelyan, Taketomo Isazawa, James Hensman
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10450v1
摘要:
在本文中,我们提出了知识库增强语言模型(KBLaM),这是一种利用外部知识增强大型语言模型(LLM)的新方法。KBLaM 使用从文件语料库中构建的知识库 (KB),通过带有线性适配器的预训练句子编码器将知识库中的每一条知识转化为连续的键值向量对,并通过专门的矩形关注机制将它们集成到预训练的 LLM 中。与检索增强生成不同,KBLaM 不需要外部检索模块,而且与上下文学习不同,它的计算开销与知识库大小成线性关系,而不是四次方关系。我们的方法可以在单个 A100 80GB GPU 上将超过 10K 个三元组的大型 KB 集成到仅有 8K 上下文窗口的 8B 预训练 LLM 中,并允许动态更新,而无需对模型进行微调或重新训练。实验证明了 KBLaM 在各种任务(包括问题解答和开放式推理)中的有效性,同时还提供了关于使用增强知识的可解释性见解。
15.Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs
标题:免费视频 LLM:针对高效免训练视频 LLM 的提示引导式视觉感知
author:Kai Han, Jianyuan Guo, Yehui Tang, Wei He, Enhua Wu, Yunhe Wang
publish:Tech report
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10441v2
摘要:
视觉语言大型模型在各种多模态任务中取得了巨大成功,但由于视频数据固有的复杂性和计算需求,将其应用于视频理解仍具有挑战性。虽然基于训练的视频 LLM 性能很高,但它们往往需要大量资源进行训练和推理。相反,免训练方法提供了一种更高效的替代方法,即无需额外训练即可针对视频任务调整预先训练好的图像-LLMs 模型,但由于视频帧会生成大量视觉标记,因此这些方法面临推理效率瓶颈。在这项工作中,我们提出了一种新颖的提示引导视觉感知框架(简称为自由视频-LLM),用于高效推理免训练视频 LLM。所提出的框架将空间和时间维度分离开来,并根据特定任务的提示分别执行时间帧采样和空间 RoI 裁剪。我们的方法有效地减少了视觉标记的数量,同时在多个视频问题解答基准测试中保持了较高的性能。广泛的实验证明,我们的方法能以明显更少的标记获得有竞争力的结果,与最先进的视频 LLM 相比,在准确性和计算效率之间实现了最佳权衡。代码将发布在 https://github.com/contrastive/FreeVideoLLM 网站上。
16.Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement
标题:通过自动数据标记和完善增强 LLM 中的上下文学习
author:Joseph Shtok, Amit Alfassy, Foad Abo Dahood, Eliyahu Schwartz, Sivan Doveh, Assaf Arbelle
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10348v1
摘要:
研究表明,使用思维链(CoT)或上下文学习(ICL)可以提高大型语言模型(LLM)在许多任务中的性能,其中包括使用几个示例演示解决任务所需的步骤。然而,虽然输入输出对的数据集相对容易制作,但提供包含中间步骤的演示却需要繁琐的手工工作。这些步骤可以是可执行程序(如代理流程),也可以是逐步推理(如 CoT)。在这项工作中,我们提出了自动数据标注和提炼(Automatic Data Labeling and Refinement,ADLR),这是一种自动生成和过滤包含上述中间步骤的演示的方法,从一小部分人工制作的示例开始。我们展示了 ADLR 在基于代码的表格质量保证和数学推理中的优势,实现了高达 5.5% 的增益。我们将在补充材料中提供实现我们方法的代码。
17.CoMAT: Chain of Mathematically Annotated Thought Improves Mathematical Reasoning
标题:CoMAT:数学注释思维链可提高数学推理能力
author:Joshua Ong Jun Leang, Aryo Pradipta Gema, Shay B. Cohen
publish:8 pages, 12 figures
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10336v1
摘要:
尽管在思维链(CoT)等提示技术方面取得了进展,但数学推理仍然是大型语言模型(LLM)面临的一项重大挑战。我们提出了数学注释思维链(CoMAT),它通过两个阶段来增强推理能力:符号转换(将自然语言查询转换为符号形式)和推理执行(从符号表示中得出答案)。CoMAT 完全通过单个 LLM 运行,无需外部求解器。在四个 LLM 中,CoMAT 在七项基准测试中的六项都优于传统的 CoT,在 MMLU-Redux (MATH) 和 GaoKao MCQ 中分别提高了 4.48% 和 4.58%。除了提高性能外,CoMAT 还确保了忠实性和可验证性,为复杂的数学任务提供了透明的推理过程
18.GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs
标题:GraphCLIP:增强文本属性图的图基础模型的可转移性
author:Yun Zhu, Haizhou Shi, Xiaotang Wang, Yongchao Liu, Yaoke Wang, Boci Peng, Chuntao Hong, Siliang Tang
publish:Under Review
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10329v3
摘要:
最近,由于自由文本节点特征在现实世界应用中的普遍存在,以及大语言模型(LLM)的进步促进了文本归属图(TAG)方法的发展,文本归属图(TAG)研究获得了极大关注。然而,当前的 TAG 方法面临两个主要挑战:(i) 对标签信息的严重依赖;(ii) 有限的跨域零/少量转移性。这些问题限制了数据和模型规模的扩展,原因是高昂的人力成本和扩展规律,使得开发具有强大可移植性的图基础模型变得更加复杂。在这项工作中,我们提出了 GraphCLIP 框架,通过自监督对比图摘要预训练方法,学习具有较强跨域零/少镜头可转移性的图基础模型,从而应对这些挑战。具体来说,我们在 LLMs 的协助下生成并整理大规模图-摘要配对数据,并结合不变性学习引入一种新颖的图-摘要预训练方法,以增强具有较强跨域零点转移性的图基础模型。对于零点学习,我们提出了一种与预训练目标一致的新型图提示调整技术,以减轻灾难性遗忘并最大限度地降低学习成本。广泛的实验表明,GraphCLIP 在零点学习和少点学习设置中都具有优越性,而对各种下游任务的评估也证实了 GraphCLIP 的多功能性。我们的代码可在以下网址获取: https://github.com/ZhuYun97/GraphCLIP
19.EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
标题:EasyRAG:自动化网络运行的高效检索-增强生成框架
author:Zhangchi Feng, Dongdong Kuang, Zhongyuan Wang, Zhijie Nie, Yaowei Zheng, Richong Zhang
publish:10 pages, 2 figures
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10315v2
摘要:
本文介绍了 EasyRAG,这是一个用于自动网络操作的简单、轻量级和高效的检索增强生成框架。我们的框架有三个优势。首先是准确的问题解答。我们设计了一种直接的 RAG 方案,该方案基于:(1)特定的数据处理工作流(2)用于粗排序的双路稀疏检索(3)用于重排序的 LLM Reranker(4)LLM 答案生成和优化。该方法在 GLM4 赛道初赛中获得第一名,在半决赛中获得第二名。二是部署简单。我们的方法主要包括 BM25 检索和 BGE-ranker 重排,不需要对任何模型进行微调,占用极少的 VRAM,易于部署,可扩展性强;我们提供了一个灵活的代码库,包含各种检索和生成策略,便于自定义流程的实施。最后是高效推理。我们为整个粗排序、重排序和生成过程设计了高效的推理加速方案,在保持良好精度的同时显著降低了 RAG 的推理延迟;每个加速方案都可以即插即用到 RAG 流程的任何组件中,持续提高 RAG 系统的效率。我们的代码和数据发布在 \url{https://github.com/BUAADreamer/EasyRAG} 上。
20.Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies
标题:针对通用总线保持控制策略的大语言模型增强强化学习
author:Jiajie Yu, Yuhong Wang, Wei Ma
publish:41 pages, 15 figures
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10212v1
摘要:
公交车保持控制是一种广泛采用的策略,用于保持公交车系统的稳定性并提高其运行效率。传统的基于模型的方法往往面临公交车状态预测和乘客需求估计准确度低的挑战。相比之下,强化学习(RL)作为一种数据驱动的方法,在制定公交车停靠策略方面展现出了巨大的潜力。强化学习能确定最优控制策略,使累积奖励最大化,这反映了总体控制目标。然而,将实际任务中稀疏和延迟的控制目标转化为 RL 的密集和实时奖励具有挑战性,通常需要大量的人工试错。有鉴于此,本研究利用大型语言模型(LLM)的上下文学习和推理能力,引入了一种自动奖励生成范例。这一新范式被称为 LLM 增强型 RL,由几个基于 LLM 的模块组成:奖励初始化器、奖励修改器、性能分析器和奖励完善器。这些模块相互配合,根据基于 RL 的指定任务的训练和测试结果反馈,初始化并迭代改进奖励函数。LLM 生成的无效奖励函数会被过滤掉,以确保 RL 代理的性能在迭代过程中稳定发展。为了评估所提出的 LLM 增强 RL 范式的可行性,我们将其应用于各种总线保持控制场景,包括合成的单线系统和现实世界中的多线系统。结果表明,与普通 RL 策略、基于 LLM 的控制器和传统的基于空间航向的反馈控制相比,所提出的范式具有优越性和鲁棒性。这项研究揭示了在各种智能交通应用中利用 LLM 的巨大潜力。
21.Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations
标题:Beyond-RAG:实时对话中的问题识别和答案生成
author:Garima Agrawal, Sashank Gummuluri, Cosimo Spera
date Time:2024-10-14
paper pdf:http://arxiv.org/pdf/2410.10136v1
摘要:
在客户联络中心,由于需要人工解释查询和检索相关的知识库(KB)文章,人工座席常常要在漫长的平均处理时间(AHT)中挣扎。虽然使用大型语言模型(LLMs)的检索增强生成(RAG)系统已被业界广泛采用来协助完成此类任务,但在实时对话中,RAG 系统面临着挑战,例如查询表述不准确和常见问题(FAQs)检索冗余。为了解决这些局限性,我们提出了一种决策支持系统,它可以超越 RAG,首先识别客户的实时问题。如果查询与常见问题解答相匹配,系统会直接从常见问题解答数据库中检索答案;否则,系统会通过 RAG 生成答案。我们的方法减少了对人工查询的依赖,可在 2 秒内为座席人员提供回复。该系统部署在 Minerva CQ 的人工智能人工-代理辅助解决方案中,提高了效率,降低了 AHT,并降低了运营成本。我们还介绍了一种自动 LLM 代理工作流程,用于在没有预定义常见问题的情况下从历史记录中识别常见问题。
22.LoRE: Logit-Ranked Retriever Ensemble for Enhancing Open-Domain Question Answering
标题:LoRE:用于增强开放域问题解答的对数排序检索器集合
author:Saikrishna Sanniboina, Shiv Trivedi, Sreenidhi Vijayaraghavan
date Time:2024-10-13
paper pdf:http://arxiv.org/pdf/2410.10042v1
摘要:
基于检索的问题解答系统经常受到位置偏差的影响,导致答案生成效果不理想。我们提出的 LoRE(Logit-Ranked Retriever Ensemble)是一种新方法,可通过减轻位置偏差来提高答案的准确性和相关性。LoRE 采用了不同检索器的集合,如 BM25 和带有 FAISS 索引的句子转换器。一个关键的创新是基于对数的答案排名算法,该算法将大语言模型(LLM)的对数分数与段落的检索排名相结合。在 NarrativeQA 和 SQuAD 上的实验结果表明,就精确匹配和 F1 分数而言,LoRE 明显优于现有的基于检索的方法。在 SQuAD 上,LoRE 的 ROUGE-L、EM 和 F1 比基线分别提高了 14.5%、22.83% 和 14.95%。从质量上看,LoRE 生成的答案更相关、更准确,尤其是对于复杂查询。
23.Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization
标题:通过迭代效用最大化学会为多重检索增强模型排序
author:Alireza Salemi, Hamed Zamani
date Time:2024-10-13
paper pdf:http://arxiv.org/pdf/2410.09942v1
摘要:
本文研究了为多个检索增强生成(RAG)代理提供服务的统一搜索引擎的设计,每个代理都有不同的任务、骨干大语言模型(LLM)和检索增强策略。我们引入了一种迭代方法,即搜索引擎为这些 RAG 代理生成检索结果,并在离线阶段收集有关检索文档质量的反馈。然后利用这种反馈,使用一种新颖的期望最大化算法对搜索引擎进行迭代优化,目的是最大化每个代理的效用函数。此外,我们还将这种方法应用于在线环境,使搜索引擎能够根据各个代理的实时反馈改进其行为,从而更好地为每个代理提供搜索结果。在知识密集型语言任务(KILT)基准的各种数据集上进行的实验表明,在 18 种 RAG 模型中,我们的方法平均明显优于竞争基准。我们还证明,根据收集到的反馈,我们的方法有效地 "个性化 "了每个 RAG 代理的检索过程。最后,我们提供了一项全面的消融研究,以探索我们方法的各个方面。
24.RMB: Comprehensively Benchmarking Reward Models in LLM Alignment
标题:人民币:全面评估 LLM 对标中的奖励模型
author:Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
date Time:2024-10-13
paper pdf:http://arxiv.org/pdf/2410.09893v1
摘要:
奖励模型(RM)指导大型语言模型(LLM)的排列,引导它们朝着人类喜欢的行为方向发展。评估奖励模型是更好地排列 LLM 的关键。然而,由于评估数据分布有限,而且评估方法与配准目标关系不大,目前对 RM 的评估可能无法直接反映其配准性能。为了解决这些局限性,我们提出了一个全面的RM基准–RMB,它涵盖了超过49个真实世界的场景,包括成对评估和Best-of-N(BoN)评估,以更好地反映RM在指导配准优化方面的有效性。我们证明了我们的基准与下游配准任务性能之间的正相关性。基于我们的基准,我们对最先进的RM进行了广泛的分析,揭示了以前的基准没有发现的泛化缺陷,并突出了生成RM的潜力。此外,我们还深入研究了奖励模型中的开放性问题,特别是检验了多数投票在奖励模型评估中的有效性,并分析了生成式 RM 的影响因素,包括评估标准和指导方法的影响。我们的评估代码和数据集可在 https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark 上获取。
25.Taming Overconfidence in LLMs: Reward Calibration in RLHF
标题:驯服法律硕士的过度自信:RLHF 中的奖励校准
author:Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
date Time:2024-10-13
paper pdf:http://arxiv.org/pdf/2410.09724v1
摘要:
语言模型校准指的是模型的可信度与其反应的实际表现之间的一致性。以往的研究指出了大型语言模型(LLMs)中的过度自信现象,并表明通过人类反馈强化学习(RLHF)训练的 LLMs 会过度自信,输出概率会更高,而在本研究中,我们发现 RLHF 往往会导致模型对自己的反应表达出言语上的过度自信。我们研究了这种过度自信的根本原因,并证明用于近端策略优化(PPO)的奖励模型会表现出固有的高自信分数偏差,而与响应的实际质量无关。在此基础上,我们提出了两种 PPO 变体:PPO-M:采用校准奖励建模的 PPO 和 PPO-C:采用校准奖励建模的 PPO:PPO-M: PPO with Calibrated Reward Calculation 和 PPO-C: PPO with Calibrated Reward Calculation。PPO-M 在奖励模型训练中整合了明确的信心分数,从而校准奖励模型,更好地捕捉反应质量与口头信心之间的一致性。PPO-C 在 PPO 期间根据当前奖励与过去奖励的移动平均值之间的差值调整奖励得分。PPO-M 和 PPO-C 都可以无缝集成到当前的 PPO 流程中,不需要额外的黄金标签。我们在 Llama3-8B 和 Mistral-7B 上对六种不同的数据集(包括多项选择和开放式生成)对我们的方法进行了评估。实验结果表明,我们的两种方法都能减少校准误差,并保持与标准 PPO 相当的性能。我们还进一步证明,这两种方法不会影响模型在开放式对话环境中的能力。
26.Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?
标题:改变 LLM 词汇表的适配器:哪些语言受益最大?
author:HyoJung Han, Akiko Eriguchi, Haoran Xu, Hieu Hoang, Marine Carpuat, Huda Khayrallah
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09644v1
摘要:
词汇适应将新词汇整合到预先训练好的语言模型(LMs)中,从而能够扩展到新的语言,并减轻标记的过度碎片化。然而,现有的方法由于依赖启发式或外部嵌入而受到限制。我们提出的 VocADT 是一种新颖的词汇适应方法,它使用适配器模块进行训练,以学习现有嵌入的最优线性组合,同时保持模型的权重固定不变。VocADT 提供了一种灵活、可扩展的解决方案,无需外部资源或语言限制。在各种多语言任务中,VocADT 在 11 种语言(具有各种脚本、资源可用性和碎片化)中的表现优于原始 Mistral 模型和其他基线。我们发现,拉丁脚本语言和高度支离破碎的语言从词汇适配中获益最多。我们在机器翻译的生成任务中进一步微调了适配模型,发现词汇适配在微调后仍然有益,而且 VocADT 是最有效的方法。
27.Enhanced Electronic Health Records Text Summarization Using Large Language Models
标题:利用大型语言模型增强电子健康记录文本摘要功能
author:Ruvarashe Madzime, Clement Nyirenda
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09628v1
摘要:
电子病历摘要系统的开发彻底改变了患者数据管理。以前的研究通过将大型语言模型应用于临床任务,利用不同的数据集生成一般的电子病历摘要,从而推动了这一领域的发展。然而,临床医生往往需要特定的、有针对性的摘要,以获得更快的洞察力。本项目以先前的工作为基础,创建了一个能生成临床医生偏好的重点摘要的系统,从而改进了电子病历摘要,提高了患者护理的效率。该系统利用 Google Flan-T5 模型,根据临床医生指定的主题生成定制的电子病历摘要。该方法涉及在以斯坦福问题解答数据集(SQuAD)风格格式化的电子病历问题解答数据集上对 Flan-T5 模型进行微调,斯坦福问题解答数据集是一个包含问题和答案的大规模阅读理解数据集。微调时使用了抱脸转换器库中的 Seq2SeqTrainer,并优化了超参数。主要评估指标显示了良好的结果:系统的精确匹配(EM)得分率达到 81.81%。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)指标显示出强劲的性能,ROUGE-1 为 96.03%,ROUGE-2 为 86.67%,ROUGE-L 为 96.10%。此外,双语评估研究(BLEU)得分率为 63%,反映了该模型在生成摘要时的一致性。通过 LLM 增强电子病历摘要,该项目支持了医疗保健领域的数字化转型,简化了工作流程,实现了更加个性化的患者护理。
28.Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
标题:为检索增强型生成实现通用指令追随对齐
author:Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
publish:Working in progress
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09584v1
摘要:
遵循自然指令对于有效应用检索增强生成(RAG)系统至关重要。尽管最近在大语言模型(LLM)方面取得了进展,但在 RAG 领域评估和改进指令遵循(IF)对齐的研究仍然有限。为了解决这个问题,我们提出了 VIF-RAG,这是第一个用于 RAG 系统中指令跟读对齐的自动化、可扩展和可验证的合成管道。我们首先手工制作了一组最小的原子指令(小于 100 条),并制定了组合规则来合成和验证种子集的复杂指令。然后,我们使用监督模型进行指令重写,同时生成代码,通过 Python 执行器自动验证指令质量。最后,我们将这些指令与广泛的 RAG 和一般数据样本集成,通过自动化流程扩展到高质量的 VIF-RAG-QA 数据集(>100k)。为了进一步缩小 RAG 系统在指令遵循自动评估方面的差距,我们推出了 FollowRAG Benchmark,其中包括约 3K 个测试样本,涵盖 22 类通用指令约束和 4 个知识密集型 QA 数据集。由于其强大的管道设计,FollowRAG 可以与不同的 RAG 基准无缝集成。利用 FollowRAG 和八个广泛使用的 LLM IF 和基础能力基准,我们证明了 VIF-RAG 在广泛的一般指令约束中显著提高了 LLM 性能,同时有效利用了其在 RAG 场景中的能力。进一步的分析为在 RAG 系统中实现 IF 对齐提供了实用的见解。我们的代码和数据集发布于 https://FollowRAG.github.io。
29.LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning
标题:LINKED:在大型语言模型中获取、筛选和整合知识,实现常识推理
author:Jiachun Li, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Kang Liu, Xiaojian Jiang, Jiexin Xu, Jun Zhao
publish:Accepted by EMNLP 2024 Findings
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09541v1
摘要:
大型语言模型(LLM)有时在知识密集型任务中表现不佳,常识推理就是其中之一。研究人员通常通过从知识图谱中检索相关知识或采用自我增强方法来激发 LLM 中的知识来解决这些问题。然而,噪声知识和无效推理问题阻碍了他们准确回答问题的能力。为此,我们提出了一种名为 “在大型语言模型中获取、过滤和整合知识”(LINKED)的新方法。其中,我们设计了一个奖励模型来过滤噪声知识,并采用边际一致推理模块来减少无效推理。通过对两个复杂常识推理基准的综合实验,我们的方法优于 SOTA 基线(准确率提高了 9.0%)。此外,为了衡量注入知识的积极和消极影响,我们为知识增强工作提出了一个新的指标,即有效性-保护得分。最后,通过大量实验,我们对常识推理任务中的 LLM 进行了深入分析,并得出了许多有意义的结论。
30.Boosting Deductive Reasoning with Step Signals In RLHF
标题:在 RLHF 中利用阶跃信号提升演绎推理能力
author:Jialian Li, Yipin Zhang, Wei Shen, Yuzi Yan, Jian Xie, Dong Yan
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09528v2
摘要:
逻辑推理是大型语言模型(LLM)的一项重要任务,它使大型语言模型能够解决复杂的问题。在推理任务中,多步推理尤其具有挑战性。我们以形式逻辑理论为基础,开发了一种用于演绎推理数据的自动化方法–多步演绎法(MuseD)。MuseD 使我们能够创建多步骤推理的训练和测试数据集。我们的生成方法可以控制生成指令的复杂程度,便于对不同难度的模型进行训练和评估。通过 RLHF 训练,我们的训练数据在域内和域外推理任务的逻辑能力方面都有显著提高。此外,我们还进行了测试,以评估各种模型的多步骤推理能力。
31.Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models
标题:超越精确匹配:从语义学角度重新评估大型语言模型的事件提取能力
author:Yi-Fan Lu, Xian-Ling Mao, Tian Lan, Chen Xu, Heyan Huang
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09418v1
摘要:
事件提取因其广泛的应用而受到广泛的研究关注。然而,目前事件提取的主流评估方法依赖于标记级精确匹配,而这种方法会误判大量语义级的正确情况。这种依赖性导致精确匹配标准下模型的评估性能与其实际性能之间存在巨大差异。为了解决这个问题,我们提出了 RAEE,这是一个自动评估框架,可以在语义层面而不是标记层面准确评估事件提取结果。具体来说,RAEE 利用大型语言模型(LLM)作为自动评估代理,结合思维链提示和自适应机制,实现对触发器和参数的精确度和召回率的可解释和自适应评估。广泛的实验结果表明(1) RAEE 与人类平均水平的相关性非常高;(2) 在 10 个数据集上重新评估了 14 个模型(包括高级 LLM)后,精确匹配与 RAEE 之间存在显著的性能差距。精确匹配评估大大低估了现有事件提取模型的性能,尤其是低估了 LLM 的能力;(3) RAEE 评估下的细粒度分析揭示了值得进一步探索的深刻现象。我们提出的 RAEE 评估工具包将公开发布。
32.SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins
标题:SeRA:利用内隐奖励边际对大型语言模型进行自我审查和对齐
author:Jongwoo Ko, Saket Dingliwal, Bhavana Ganesh, Sailik Sengupta, Sravan Bodapati, Aram Galstyan
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09362v1
摘要:
直接配准算法(DAA),如直接偏好优化(DPO),因其简单、高效和稳定,已成为从人类反馈强化学习(RLHF)的流行替代方法。然而,DAA 所使用的偏好通常是在对齐训练开始前收集的,并且保持不变(非政策)。这可能会导致两个问题,即策略模型(1)捕捉数据集中的虚假相关性(而不是学习人类偏好标签中表达的预期配准),以及(2)过度适应非策略轨迹的反馈,而这些轨迹由更新策略模型生成的可能性较低。为了解决这些问题,我们引入了自审查和对齐(SeRA),这是一种成本效益高且有效的方法,可随时与现有的 DAA 结合使用。SeRA 由两部分组成:(1) 使用隐式奖励边际进行样本选择,这有助于减轻对某些不需要的特征的过度拟合;(2) 使用隐式奖励进行偏好引导,以低成本高效率的方式用更新的策略模型来增强偏好数据。广泛的实验(包括一些指令跟随任务的实验)证明了 SeRA 在使用 DAAs 在离线偏好数据集上训练 LLM 的有效性和通用性。
33.ELICIT: LLM Augmentation via External In-Context Capability
标题:ELICIT:通过外部语境能力增强 LLM
author:Futing Wang, Jianhao Yan, Yue Zhang, Tao Lin
publish:Work in progress
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09343v1
摘要:
增强大型语言模型的自适应能力是研究和应用中的一项重要任务。传统的微调方法需要大量的数据和计算资源,尤其是在增强特定能力时,而上下文学习则受限于适当的演示和有效的标记使用。受通过任务向量表达上下文学习能力和模块化概念的启发,我们提出了一个由两个模块组成的框架,旨在有效地存储和重用任务向量,以激发模型的各种能力,而无需额外的训练或推理标记。我们的综合实验和分析表明,我们的管道在不同的输入格式、任务和模型架构之间具有很强的可移植性。ELICIT 可作为即插即用的性能加速器,实现模型能力的自适应激发。通过外部存储和重用代表上下文中学习到的能力的向量,ELICIT 不仅展示了模块化能力操作的潜力,还大大提高了大型语言模型的性能、通用性、适应性和可扩展性。我们的代码将在 https://github.com/LINs-lab/ELICIT 上公开。
34.LLM × \times ×MapReduce: Simplified Long-Sequence Processing using Large Language Models
标题:LLM × \times ×MapReduce:使用大型语言模型简化长句处理
author:Zihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun
publish:Work in Progress. Code: https://github.com/thunlp/LLMxMapReduce
date Time:2024-10-12
paper pdf:http://arxiv.org/pdf/2410.09342v1
摘要:
扩大大型语言模型(LLM)的上下文窗口已成为一个重要的研究领域,尤其是在涉及超长文本的应用中。在这项工作中,我们提出了一种处理长文本的新型免训练框架,利用分而治之的策略实现对文档的全面理解。所提出的 LLM
×
\times
×MapReduce 框架将整个文档分割成若干块供 LLM 阅读,然后汇总中间答案以产生最终输出。分而治之的长文本处理框架面临的主要挑战在于,在分割文档时有可能丢失重要的长程信息,这可能导致模型根据分割后的文本生成不完整或不正确的答案。被破坏的远距离信息可分为两类:块间依赖和块间冲突。我们设计了一种结构化信息协议来更好地应对块间依赖,并设计了一种上下文置信度校准机制来解决块间冲突。实验结果表明,LLM
×
\times
×MapReduce 可以超越具有代表性的开源和商业长上下文 LLM,并且适用于多种不同的模型。
35.Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization
标题:通过直接 Q 函数优化增强语言模型的多步推理能力
author:Guanlin Liu, Kaixuan Ji, Renjie Zheng, Zheng Wu, Chen Dun, Quanquan Gu, Lin Yan
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.09302v1
摘要:
强化学习(RL)在使大型语言模型(LLM)符合人类偏好并提高其执行复杂任务的能力方面发挥着至关重要的作用。然而,目前的方法要么由于使用多个模型和大量在线采样进行训练而需要大量计算资源(如 PPO),要么被归类为强盗问题(如 DPO、DRO),这往往在多步骤推理任务(如数学问题求解和涉及长思维链的复杂推理)中显得力不从心。为了克服这些局限性,我们引入了直接 Q 函数优化(DQO),它将响应生成过程表述为马尔可夫决策过程(MDP),并利用软演员批判(SAC)框架来优化直接由语言模型参数化的 Q 函数。与基于匪帮的方法相比,DQO 的 MDP 表述具有结构上的优势,可以实现更有效的过程监督。在 GSM8K 和 MATH 这两个数学问题解决数据集上的实验结果表明,DQO 的性能优于之前的方法,从而使其成为一种有前途的离线强化学习方法,用于调整语言模型。
36.ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs
标题:ReasonPlanner:利用时态知识图谱和 LLM 增强动态环境中的自主规划能力
author:Minh Pham Dinh, Munira Syed, Michael G Yankoski, Trenton W. Ford
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.09252v1
摘要:
规划和执行交互式任务,例如进行实验以确定未知物质的熔点,对人类来说非常简单,但对自主代理来说却是巨大的挑战。我们介绍的 ReasonPlanner 是一种新型通用代理,专为反思、规划和交互式推理而设计。该代理利用 LLM,通过在时态知识图谱的基础上建立世界模型来规划假设轨迹。该代理使用自然语言 "行动者-批评者 "模块与环境互动,行动者将想象的轨迹转化为一系列可操作的步骤,而批评者则确定是否需要重新规划。在科学世界基准测试中,ReasonPlanner 明显优于之前基于提示的先进方法 1.8 倍以上,同时样本效率更高,可解释性更强。它完全依赖于冻结权重,因此不需要梯度更新。ReasonPlanner 不需要机器学习方面的专业知识就能部署和使用,因此适合广大用户使用。
37.LLMD: A Large Language Model for Interpreting Longitudinal Medical Records
标题:LLMD:解读纵向医疗记录的大语言模型
author:Robert Porter, Adam Diehl, Benjamin Pastel, J. Henry Hinnefeld, Lawson Nerenberg, Pye Maung, Sebastien Kerbrat, Gillian Hanson, Troy Astorino, Stephen J. Tarsa
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.12860v1
摘要:
我们介绍的 LLMD 是一种大型语言模型,旨在根据病历分析病人的病史。除领域知识外,LLMD 还通过长期收集的跨机构大型病历语料库以及任务和标签进行训练,从而在它们之间建立起微妙的联系。这种方法对于准确了解患者的健康状况至关重要,与仅靠知识、无标记记录、结构化电子病历数据或来自单一医疗系统的记录来训练的模型相比,具有独特的优势。 LLMD 的秘诀是根据领域知识和数百万份记录内容对基础模型进行预训练。这些记录平均跨越 10 年的护理时间,每个患者的护理地点多达 140 个。然后,LLMD 在结构化和抽象任务上进行指令微调。前者负责共同识别文档元数据、来源信息、临床命名实体和本体映射并将其规范化,后者负责将这些信息转化为更高层次的表征,例如病人用药的连续时间。LLMD 部署在一个分层验证系统中,该系统包括持续随机审核和专家审查,例如基于不确定性、特定疾病规则或用例。 与更强大的通用模型和特定领域模型相比,LLMD 显示出巨大的优势。在医学知识基准上,LLMD-8B 在 PubMedQA 文本回复上达到了最先进的准确度,超越了数量级更大的模型。在生产任务上,我们发现 LLMD 明显优于所有其他评估过的模型,而且在替代模型中,GPT-4o 等大型通用 LLM 比强调医学知识的模型更准确。我们发现有力的证据表明,在分析真实世界的患者数据时,当今医学基准的准确性并不是最重要的因素,这一见解对未来的医学 LLM 有着深远的影响。
38.Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism
标题:通过内循环查询机制提高 LLM 的长上下文性能
author:Yimin Tang, Yurong Xu, Ning Yan, Masood Mortazavi
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.12859v1
摘要:
变换器的计算复杂度与输入大小成二次方比例,这限制了大型语言模型(LLM)在训练和推理中的输入语境窗口大小。与此同时,通过使用检索系统过滤掉不必要的信息,检索增强生成(RAG)besed 模型可以更好地处理较长的上下文。然而,大多数 RAG 方法仅根据初始查询执行检索,这对于需要更深入推理的复杂问题可能效果不佳。我们引入了一种新方法–内循环记忆增强树检索(ILM-TR),它涉及内循环查询,不仅基于查询问题本身,还基于中间结果。在推理时,我们的模型从 RAG 系统中检索信息,整合来自不同抽象层次的冗长文档的数据。根据检索到的信息,LLM 生成文本,存储在名为 “短期记忆”(STM)的区域中,然后用于制定下一个查询。这一检索过程不断重复,直到 STM 中的文本收敛为止。我们的实验证明,与传统的检索增强型 LLM 相比,利用 STM 进行检索的效果更好,尤其是在长语境测试(如 “干草堆中的多针”(M-NIAH)和 “BABILong”)中。
39.P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains
标题:P-FOLIO:利用丰富的人写推理链评估和改进逻辑推理
author:Simeng Han, Aaron Yu, Rui Shen, Zhenting Qi, Martin Riddell, Wenfei Zhou, Yujie Qiao, Yilun Zhao, Semih Yavuz, Ye Liu, Shafiq Joty, Yingbo Zhou, Caiming Xiong, Dragomir Radev, Rex Ying, Arman Cohan
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.09207v1
摘要:
现有的了解 LLM 逻辑推理能力的方法依赖于二元蕴涵分类或合成推导的理由,这些方法不足以正确研究模型的能力。我们介绍了 P-FOLIO,这是一个由人类标注的数据集,包含了一组同样由人类编写的现实逻辑推理故事的各种复杂推理链。P-FOLIO 是通过注释协议收集的,该协议便于人类以循序渐进的方式为一阶逻辑推理问题注释结构良好的自然语言证明。P-FOLIO 中的推理步骤数从 0 到 20 不等。我们进一步使用 P-FOLIO 来评估和改进大型语言模型(LLM)推理能力。我们通过单步推理规则分类对 LLM 的推理能力进行细粒度评估,与之前的工作相比,我们的推理规则更加多样化,复杂度也更高。鉴于单个模型生成的推理链可能与人类标注的推理链路径完全不同,我们从一个模型中抽样多个推理链,并使用 pass@k 指标来评估模型生成的推理链的质量。我们的研究表明,人类编写的推理链通过多次提示和微调,大大提高了 LLM 的逻辑推理能力。此外,在 P-FOLIO 上对 Llama3-7B 进行微调后,模型在其他三个域外逻辑推理数据集上的性能提高了 10% 或更多。我们还进行了详细分析,以显示最强大的 LLM 在推理中的不足之处。我们将公开发布数据集和代码。
40.Automated Rewards via LLM-Generated Progress Functions
标题:通过 LLM 生成的进度函数自动奖励
author:Vishnu Sarukkai, Brennan Shacklett, Zander Majercik, Kush Bhatia, Christopher Ré, Kayvon Fatahalian
publish:26 pages, 5 figures
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.09187v2
摘要:
大型语言模型(LLM)可以利用其跨越各种任务的广泛领域知识,实现奖励工程的自动化。但是,它们往往需要多次反复试验才能生成有效的奖励函数。这一过程代价高昂,因为评估每个采样奖励函数都需要完成每个函数的完整策略优化过程。在本文中,我们介绍了一种 LLM 驱动的奖励生成框架,该框架能够在具有挑战性的 Bi-DexHands 基准上生成最先进的策略,其奖励函数样本是之前最先进工作的 20 倍。我们的主要见解是将生成特定任务奖励的问题简化为粗略估计任务进度的问题。我们的两步解决方案利用任务领域的知识和 LLM 的代码合成能力来编写进度函数,以便从给定状态估算任务进度。然后,我们利用这一进度概念将状态离散化,并利用低维状态空间生成基于计数的内在奖励。我们的研究表明,将 LLM 生成的进度函数和基于计数的固有奖励结合在一起对提高性能至关重要,而基于哈希值的通用计数或直接使用进度作为奖励函数等替代方法则达不到预期效果。
41.MiRAGeNews: Multimodal Realistic AI-Generated News Detection
标题:MiRAGeNews:人工智能生成的多模态真实新闻检测
author:Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
publish:EMNLP 2024 Findings
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.09045v1
摘要:
近年来,煽动性或误导性的 "假 "新闻内容越来越多。与此同时,使用人工智能工具生成描绘任何可以想象到的场景的逼真图像也变得前所未有的容易。将这两者结合起来–人工智能生成的假新闻内容–尤其具有威力和危险性。为了打击人工智能生成的假新闻的传播,我们提出了 MiRAGeNews 数据集,这是一个由 12500 个高质量的真实图片和人工智能生成的图片标题对组成的数据集,这些图片标题对来自最先进的生成器。我们发现,我们的数据集对人类(60% F-1)和最先进的多模态 LLM(< 24% F-1)构成了巨大挑战。利用我们的数据集,我们训练了一种多模态检测器(MiRAGe),它在域外图像生成器和新闻发布商提供的图像标题对上,比最先进的基线提高了 +5.1% F-1。我们将发布我们的代码和数据,以帮助未来检测人工智能生成内容的工作。
42.Optimized Biomedical Question-Answering Services with LLM and Multi-BERT Integration
标题:利用 LLM 和多 BERT 集成优化生物医学问题解答服务
author:Cheng Qian, Xianglong Shi, Shanshan Yao, Yichen Liu, Fengming Zhou, Zishu Zhang, Junaid Akram, Ali Braytee, Ali Anaissi
publish:10 pages, 12 figures, accepted and to be published in the proceedings
of 2024 IEEE International Conference on Data Mining Workshops (ICDMW)
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.12856v1
摘要:
我们通过将大型语言模型(LLMs)与 Multi-BERT 配置相结合,提出了一种生物医学问题解答(QA)服务的改进方法。通过提高处理大量复杂生物医学数据并对其进行优先排序的能力,该系统旨在支持医疗保健专业人员为患者提供更好的治疗效果和知情决策。通过创新性地使用 BERT 和 BioBERT 模型,并结合多层感知器 (MLP) 层,我们能够更专业、更高效地应对医疗保健行业日益增长的需求。我们的方法不仅解决了在训练一个 BERT 模型的同时冻结另一个模型的过拟合难题,还提高了质量保证服务的整体适应性。对 BioASQ 和 BioMRC 等大量数据集的使用证明了该系统综合关键信息的能力。这项工作凸显了先进的语言模型如何在医疗保健领域发挥切实的作用,为专业人员管理复杂信息提供可靠、灵敏的工具,最终实现改善护理和数据驱动洞察力的更广泛目标。
43.Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference
标题:大语言模型引发的自然语言推理中的假设偏差
author:Grace Proebsting, Adam Poliak
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08996v1
摘要:
我们测试了用 LLM 代替众包工作者撰写自然语言推理(NLI)假设是否同样会导致注释人工智能。我们使用 GPT-4、Llama-2 和 Mistral 7b 重新创建了斯坦福大学 NLI 语料库的一部分,并训练了纯假设分类器,以确定 LLM 引导的假设是否包含注释人工制品。在我们的 LLM 引发的 NLI 数据集上,基于 BERT 的纯假设分类器达到了 86%-96% 的准确率,表明这些数据集包含纯假设人工制品。我们还在 LLM 生成的假设中发现了频繁的 “赠品”,例如,"在泳池中游泳 "这一短语出现在 GPT-4 生成的 10,000 多个矛盾中。我们的分析提供了经验证据,证明在 NLI 中得到充分证实的偏差会在 LLM 生成的数据中持续存在。
44.Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective
标题:迈向可信的知识图谱推理:意识到不确定性的视角
author:Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08985v2
摘要:
最近,知识图谱(KG)已经成功地与大型语言模型(LLM)相结合,以减轻其幻觉并增强其推理能力,例如在基于 KG 的检索增强框架中。然而,当前的 KG-LLM 框架缺乏严格的不确定性估计,限制了它们在高风险应用中的可靠部署。由于 KG-LLM 框架的架构复杂,知识图谱和语言模型组件之间的交互错综复杂,因此将不确定性量化直接纳入 KG-LLM 框架面临着挑战。为了弥补这一不足,我们提出了一种新的值得信赖的 KG-LLM 框架–不确定性感知知识图谱推理(UAG),它将不确定性量化纳入了 KG-LLM 框架。我们设计了一个不确定性感知多步骤推理框架,利用保形预测为预测集提供理论保证。为了管理多步骤过程的误差率,我们还引入了误差率控制模块,以调整各个组件内部的误差率。广泛的实验表明,我们提出的 UAG 可以达到任何预定义的覆盖率,同时预测集/区间大小比基线平均减少 40%。
45.Language Imbalance Driven Rewarding for Multilingual Self-improving
标题:语言失衡驱动的多语言自我完善奖励机制
author:Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang
publish:Work in progress
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08964v1
摘要:
大型语言模型(LLM)在众多任务中都取得了最先进的性能。然而,这些进步主要惠及英语和中文等 "一流 "语言,而其他许多语言却没有得到充分体现。这种不平衡虽然限制了更广泛的应用,但却产生了语言之间的自然偏好排序,为以自我完善的方式引导 LLM 的多语言能力提供了机会。因此,我们提出了
语言不平衡驱动奖励
\textit{语言不平衡驱动奖励}
语言不平衡驱动奖励,利用 LLM 中优势语言和非优势语言之间固有的不平衡作为奖励信号。迭代 DPO 训练表明,这种方法不仅能提高 LLM 在非主导语言中的性能,还能提高主导语言的能力,从而产生迭代奖励信号。通过这种方法的两次迭代对 Meta-Llama-3-8B-Instruct 进行微调,在指令跟随和算术推理任务中的多语言性能得到了持续改善,具体表现为在 X-AlpacaEval 排行榜上的平均胜率提高了 7.46%,在 MGSM 基准测试中的准确率提高了 13.9%。这项工作是一项初步探索,为 LLM 的多语言自我改进铺平了道路。
46.Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies
标题:LLM 和 VLM 时代的音频描述生成:可转移的人工智能生成技术综述
author:Yingqiang Gao, Lukas Fischer, Alexa Lintner, Sarah Ebling
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08860v1
摘要:
音频描述(ADs)是一种声音解说,旨在帮助盲人和视障人士获取电视和电影等数字媒体内容。作为一种通常由训练有素的音频解说专业人员提供的无障碍服务,音频解说的生成需要大量人力,因此这一过程既耗时又昂贵。最近,自然语言处理(NLP)和计算机视觉(CV)技术的进步,尤其是大型语言模型(LLM)和视觉语言模型(VLM)的进步,使自动生成辅助内容的工作更近了一步。本文回顾了 LLM 和 VLM 时代与 AD 生成相关的技术:我们讨论了如何将最先进的 NLP 和 CV 技术用于生成 AD,并确定了未来的主要研究方向。
47.Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation
标题:Retriever-and-Memory:实现自适应笔记增强检索-增强生成
author:Ruobing Wang, Daren Zha, Shi Yu, Qingfei Zhao, Yuxuan Chen, Yixuan Wang, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun
publish:15 pages, 2 figures
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08821v1
摘要:
检索增强生成(RAG)通过引入外部知识,缓解了大语言模型(LLM)在开放域问题解答任务(OpenQA)中产生的事实错误和幻觉输出问题。然而,对于复杂的问答任务,现有的 RAG 方法使用大型语言模型主动预测检索时机,并直接使用检索到的信息进行生成,而不管检索时机是否准确反映了实际的信息需求,或是否充分考虑了先前检索到的知识,这可能会导致信息收集和交互不足,从而产生低质量的答案。为了解决这些问题,我们针对复杂的质量保证任务提出了一种通用的 RAG 方法,称为 “自适应笔记增强 RAG”(Adaptive-Note),它包括迭代信息收集器、自适应记忆审查器和面向任务的生成器,同时遵循一种新的 "检索器与记忆 "范式。具体来说,自适应笔记引入了知识增长的总体观点,以笔记的形式迭代收集新信息,并将其更新到现有的最佳知识结构中,从而加强高质量的知识互动。此外,我们还采用了一种基于笔记的自适应停止探索策略,以决定 “检索什么以及何时停止”,从而鼓励充分的知识探索。我们在五个复杂的质量保证数据集上进行了广泛的实验,结果证明了我们的方法及其组件的优越性和有效性。代码和数据见 https://github.com/thunlp/Adaptive-Note。
48.Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers
标题:修复链:多任务图像修复模型是零镜头分步式通用图像修复器
author:Jin Cao, Deyu Meng, Xiangyong Cao
publish:11 pages, 9 figures
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08688v1
摘要:
尽管以前的研究通常以孤立的退化类型为目标,但最近的研究越来越多地侧重于解决复合退化问题,其中涉及多种不同孤立退化的复杂相互作用。认识到可能的退化组合数量呈指数级增长所带来的挑战,我们提出了通用图像复原(UIR),这是一种新的任务设置,要求在一组退化基础上对模型进行训练,然后以零帧的方式去除这些基础可能构成的任何退化。受 “思维链”(Chain-of-Thought)的启发,我们提出了 “恢复链”(Chain-of-Restoration,CoR),它指示模型逐步消除未知的复合退化。通过将一个简单的退化判别器集成到预先训练好的多任务模型中,CoR 简化了模型每一步去除一个退化基础的过程,这一过程一直持续到图像从未知复合退化中完全恢复为止。广泛的实验表明,CoR 显著提高了模型去除复合降解的性能,其结果可媲美或超过在所有降解基础上训练的最新技术(SoTA)方法。该代码将在 https://github.com/toummHus/Chain-of-Restoration 上发布。
49.QEFT: Quantization for Efficient Fine-Tuning of LLMs
标题:QEFT:高效微调 LLM 的量化技术
author:Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park
publish:Accepted at Findings of EMNLP 2024
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08661v1
摘要:
随着微调在大型语言模型(LLM)中的应用迅速增长,在保持推理效率的同时优化微调变得非常重要。然而,这是一项具有挑战性的任务,因为它要求在推理速度、微调速度、内存消耗以及最重要的模型质量等各个方面都有所改进。以往的研究试图通过将量化与微调相结合来实现这一目标,但未能同时提高这四个方面的性能。在本研究中,我们提出了一种新的轻量级技术,称为高效微调量化技术(Quantization for Efficient Fine-Tuning,QEFT)。QEFT 可同时加速推理和微调,具有坚实的理论基础、高度的灵活性和良好的硬件兼容性。我们的大量实验证明,QEFT 在质量和通用性上都能与全精度参数高效微调相媲美,同时使用的资源更少。我们的代码见 https://github.com/xvyaward/qeft。
50.Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning
标题:利用语义知识调整对大型语言模型进行参数高效微调
author:Nusrat Jahan Prottasha, Asif Mahmud, Md. Shohanur Islam Sobuj, Prakash Bhat, Md Kowsher, Niloofar Yousefi, Ozlem Ozmen Garibay
publish:Accepted in Nature Scientific Reports
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08598v1
摘要:
大语言模型(LLM)由于计算成本低廉,近年来在使用提示语的专门任务中大受欢迎。前缀调整等标准方法使用的是缺乏语义的特殊可修改标记,需要进行大量训练才能达到最佳性能,因此往往达不到预期效果。在这种情况下,我们提出了一种名为语义知识调谐(SK-Tuning)的新方法,用于提示和前缀调谐,使用有意义的词而不是随机词组。这种方法包括使用固定的 LLM,通过零拍功能来理解和处理提示语的语义内容。之后,它将处理过的提示与输入文本整合在一起,以提高模型在特定任务中的性能。我们的实验结果表明,与其他调整方法相比,SK-Tuning 的训练时间更短、参数更少,而且在文本分类和理解等任务上表现更出色。这种方法为优化 LLM 处理语言任务的效率和效果提供了一种很有前途的方法。
51.Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both
标题:同时进行奖励提炼和偏好学习:让你的语言模型两者兼备
author:Abhijnan Nath, Changsoo Jung, Ethan Seefried, Nikhil Krishnaswamy
date Time:2024-10-11
paper pdf:http://arxiv.org/pdf/2410.08458v1
摘要:
人类偏好的奖励建模是构建可用的生成式大型语言模型(LLM)的基石之一。传统的基于 RLHF 的配准方法明确地从单独的奖励模型中最大化预期奖励,而最新的监督配准方法(如直接偏好优化(DPO))则规避了这一阶段,以避免模型漂移和奖励过拟合等问题。虽然 DPO 和类似的直接配准方法因其简单性而广受欢迎,但它们仍可能导致退化策略,并严重依赖基于 Bradley-Terry 的偏好公式来模拟候选输出对之间的奖励差异。非确定性或有噪声的偏好标签(例如,人类对两个候选输出的评分置信度较低)会对这一表述提出挑战。在本文中,我们介绍了 DRDO(直接奖励蒸馏和策略优化),这是一种基于监督知识蒸馏的偏好对齐方法,可同时对奖励和偏好进行建模,以避免此类退化。DRDO 直接模拟由神谕分配的奖励,同时从新颖的偏好似然公式中学习人类偏好。我们在 Ultrafeedback 和 TL;DR 数据集上的实验结果表明,使用 DRDO 训练出的策略在预期奖励方面超过了 DPO 和 e-DPO 等以前的方法,而且平均而言,对嘈杂的偏好信号和超出分配(OOD)设置具有更强的鲁棒性。