文章目录~
- 1.Beyond Labels: Aligning Large Language Models with Human-like Reasoning
- 2.Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
- 3.Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?
- 4.Towards Efficient Large Language Models for Scientific Text: A Review
- 5.QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
- 6.Analysis of Plan-based Retrieval for Grounded Text Generation
- 7.Value Alignment from Unstructured Text
- 8.AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews
- 9.Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models
- 10.LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
- 11.Instruction Finetuning for Leaderboard Generation from Empirical AI Research
- 12.MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation
- 13.MoDeGPT: Modular Decomposition for Large Language Model Compression
- 14.A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification
- 15.Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
- 16.Moonshine: Distilling Game Content Generators into Steerable Generative Models
- 17.Offline RLHF Methods Need More Accurate Supervision Signals
- 18.Architectural Foundations for the Large Language Model Infrastructures
- 19.TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
- 20.Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection
- 21.CogLM: Tracking Cognitive Development of Large Language Models
- 22.Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning
- 23.PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars
- 24.DAC: Decomposed Automation Correction for Text-to-SQL
- 25.MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector
- 26.LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs
- 27.A Survey on Benchmarks of Multimodal Large Language Models
1.Beyond Labels: Aligning Large Language Models with Human-like Reasoning
标题:超越标签:将大型语言模型与类人推理相结合
author:Muhammad Rafsan Kabir, Rafeed Mohammad Sultan, Ihsanul Haque Asif, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman
publish:Accepted in ICPR 2024
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.11879v1
摘要:
将大型语言模型(LLM)与人类推理方法相结合,可确保 LLM 做出符合道德标准且与人类相似的决定。由于目前的模型容易产生误报并提供恶意回复,因此引发了伦理问题。为了解决这个问题,我们策划了一个名为 “对齐理由数据集”(DFAR)的伦理数据集,旨在帮助对齐语言模型,生成类似人类的理由。该数据集包括带有道德-不道德标签的语句及其相应的原因。在本研究中,我们采用了一种独特而新颖的微调方法,即利用道德标签及其相应的原因(L+R),而现有的微调方法仅使用标签(L)。然后,在伦理-非伦理分类任务和理由生成任务中对原始预训练版本、现有微调版本和我们提出的微调版本 LLMs 进行了评估。在这两项任务中,我们提出的微调策略都明显优于其他策略,在分类任务中获得了更高的准确率,在理由生成任务中获得了更低的错位率。分类准确率的提高和错位率的降低表明,L+R 微调模型更符合人类道德规范。因此,这项研究表明,注入理由大大提高了 LLM 的对齐度,从而产生了更像人类的反应。我们在 https://github.com/apurba-nsu-rnd-lab/DFAR 上公开了 DFAR 数据集和相应的代码。
2.Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
标题:Open-FinLLMs:用于金融应用的开放式多模态大语言模型
author:Qianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou
publish:33 pages, 13 figures
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.11878v1
摘要:
大型语言模型(LLMs)在金融领域有着先进的应用,但它们往往缺乏足够的金融知识,在处理涉及表格和时间序列数据等多模态输入的任务时举步维艰。为了解决这些局限性,我们引入了一系列金融 LLMs:textit{Open-FinLLMs}。我们从 FinLLaMA 开始,在一个 520 亿标记的金融语料库上进行预训练,将文本、表格和时间序列数据结合起来,嵌入全面的金融知识。然后,我们使用 573K 条金融指令对 FinLLaMA 进行了指令微调,最终形成了 FinLLaMA-instruct,从而提高了任务性能。最后,我们介绍了 FinLLaVA,这是一种使用 143 万条图像-文本指令训练的多模态 LLM,用于处理复杂的金融数据类型。广泛的评估结果表明,在 19 个数据集和 4 个数据集上,FinLLaMA 在零次和少次访问设置下的性能分别优于 LLaMA3-8B、LLaMA3.1-8B 和 BloombergGPT。在 15 个数据集上,FinLLaMA-instruct 的表现优于 GPT-4 和其他金融 LLM。在 4 项多模态任务中,FinLLaVA 在理解表格和图表方面表现出色。此外,FinLLaMA 还在模拟交易中取得了令人印象深刻的夏普比率(Sharpe Ratios),彰显了其强大的金融应用能力。我们将不断维护和改进我们的模型和基准,以支持学术界和业界的持续创新。
3.Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?
标题:超越以英语为中心的 LLM:多语言语言模型用什么语言思考?
author:Chengzhi Zhong, Fei Cheng, Qianying Liu, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi
publish:work in progress
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.10811v1
摘要:
在本研究中,我们研究了以非英语为中心的 LLMs(尽管其性能很强)是否 "思考 "其各自的主导语言:更确切地说,"思考 "是指中间层的表征在未嵌入词汇空间时,如何在生成过程中对某些主导语言表现出更高的概率。我们将这种语言称为内部语言(internal
latent
languages
\textbf{latent languages}
latent languages)。 我们研究了三类典型日语处理模型的潜在语言:Llama2 是一个以英语为中心的模型;Swallow 是一个以英语为中心并持续进行日语预训练的模型;LLM-jp 是一个在平衡的英语和日语语料库上进行预训练的模型。我们的实证研究结果表明,与完全依赖英语作为内部潜在语言的 Llama2 不同,日语专用的 Swallow 和 LLM-jp 同时使用日语和英语,表现出双重内部潜在语言。对于任何给定的目标语言,该模型都会优先激活与其关系最密切的潜语言。此外,我们还探讨了中间层如何应对涉及内部潜语言和目标输出语言之间文化冲突的问题。我们还进一步探讨了语言身份如何跨层转移,同时保持中间层表征所反映的语义的一致性。 这项研究加深了对以非英语为中心的大型语言模型的理解,突出了中间层中语言表征的复杂动态。
4.Towards Efficient Large Language Models for Scientific Text: A Review
标题:为科学文本建立高效的大型语言模型:综述
author:Huy Quoc To, Ming Liu, Guangyan Huang
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.10729v1
摘要:
大型语言模型(LLMs)在包括科学在内的各个领域开创了处理复杂信息的新时代。越来越多的科学文献使这些模型能够有效地获取和理解科学知识,从而提高它们在各种任务中的性能。由于 LLM 的强大功能,它们需要极其昂贵的计算资源、大量的数据和训练时间。因此,近年来,研究人员提出了各种方法,使科学 LLM 更加经济实惠。最著名的方法有两个方向。既可以关注模型的大小,也可以提高数据的质量。迄今为止,还没有人对这两类方法进行过全面评述。在本文中,我们(I)总结了将 LLMs 转化为更易于获取的科学人工智能解决方案的新兴能力方面的最新进展,(II)探讨了利用 LLMs 为科学领域开发可负担得起的解决方案所面临的挑战和机遇。
5.QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention
标题:QUITO-X:基于信息瓶颈的交叉关注压缩算法
author:Yihang Wang, Xu Huang, Bowen Tian, Yixing Fan, Jiafeng Guo
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.10497v1
摘要:
生成式 LLM 在各种工业任务中取得了巨大成功,并能通过 ICL 有效适应垂直领域和下游任务。然而,随着任务越来越复杂,ICL 所需的上下文长度也越来越长,这就产生了两个重要问题:(i) 过长的上下文会导致高成本和推理延迟。(ii) 冗长的上下文引入了大量与任务无关的信息,加剧了 "迷失在中间 "的问题。 最近,根据从一些因果语言模型(如 llama-7b)中获得的指标删除标记来压缩提示语,已成为缓解这些问题的有效方法。然而,先前的方法(如自信息或 PPL)所使用的度量标准并不完全符合在查询条件中区分最重要标记的目标。在这项工作中,我们引入了信息瓶颈理论,仔细研究了指标所需的属性。受此启发,我们将编码器-解码器架构中的交叉注意力作为新的度量标准。我们的简单方法可以在更小的模型中以更低的延迟获得更好的性能。 我们在四个数据集上评估了我们的方法:DROP、CoQA、SQuAD 和 Quoref。实验结果表明,在保持性能不变的情况下,我们的压缩率比以前的 SOTA 提高了近 25%。值得注意的是,在去除 25% 标记的实验中,我们模型的 EM 答案得分有时甚至超过了使用未压缩文本作为上下文的对照组。
6.Analysis of Plan-based Retrieval for Grounded Text Generation
标题:基于计划的基础文本生成检索分析
author:Ameya Godbole, Nicholas Monath, Seungyeon Kim, Ankit Singh Rawat, Andrew McCallum, Manzil Zaheer
date Time:2024-08-20
paper pdf:http://arxiv.org/pdf/2408.10490v1
摘要:
在文本生成中,幻觉是指生成的文本看似连贯,实则与既定知识相矛盾。一个令人信服的假设是,当语言模型被赋予超出其参数知识(由于稀有性、经常性、领域等)的生成任务时,就会出现幻觉。解决这一局限性的常见策略是为语言模型注入检索机制,为模型提供与任务相关的知识。在本文中,我们将利用经过指令调整的 LLM 的规划能力,分析如何利用规划来指导检索,从而进一步降低幻觉出现的频率。我们在长文本生成任务中对我们提出的方法的几种变体进行了实证评估。通过提高相关事实的覆盖率,计划指导下的检索和生成可以产生更多信息,同时提供更高的源文件归属率。
7.Value Alignment from Unstructured Text
标题:非结构化文本的价值对齐
author:Inkit Padhi, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Manish Nagireddy, Pierre Dognin, Kush R. Varshney
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.10392v1
摘要:
将大型语言模型(LLM)与价值体系对齐已成为人工智能和 NLP 领域的一个重要研究领域。目前,这一对齐过程依赖于高质量的监督数据和偏好数据,而这些数据的整理或注释既耗时又昂贵。在本文中,我们介绍了一种系统化的端到端方法,用于将 LLM 与非结构化文本数据中的隐式和显式值进行对齐。我们提出的方法利用可扩展的合成数据生成技术,有效地将模型与非结构化数据中的值进行对齐。通过两个不同的使用案例,我们展示了我们的方法在 Mistral-7B-Instruct 模型上的效率。我们的方法能将 LLM 与嵌入文档中的值可靠地对齐,并通过使用自动指标和胜率进行量化,显示出与其他方法相比性能的提高。
8.AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews
标题:人工智能驱动的评审系统:评估可扩展和具有偏见意识的学术评审中的 LLMs
author:Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te’eni, Iddo Drori
publish:42 pages
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.10365v1
摘要:
自动审稿有助于处理大量论文,提供早期反馈和质量控制,减少偏差,并允许对趋势进行分析。我们通过成对比较来评估自动论文审稿与人工审稿的一致性。收集人类偏好可能会耗费大量时间;因此,我们还使用 LLM 自动评估评论,以提高样本效率,同时减少偏差。除了在 LLM 评论中评估人类和 LLM 的偏好之外,我们还对 LLM 进行了微调,以预测人类的偏好,预测人类在 LLM 之间的正面交锋中会偏好哪篇评论。我们人为地在论文中引入错误,并分析法学硕士的回应以确定局限性,使用自适应审阅问题、元提示、角色扮演,整合视觉和文本分析,使用特定场地的审阅材料,并预测人类偏好,从而改进传统审阅流程的局限性。我们在网上提供对公开发表的 arXiv 和开放获取的《自然》期刊论文的评审,同时提供免费服务,帮助作者评审和修改研究论文,提高论文质量。这项工作开发了概念验证 LLM 评论系统,可快速提供一致、高质量的评论并评估其质量。我们通过用多种文件(包括审稿表、审稿人指南、道德与行为准则、领域主席指南和前一年的统计数据)增强 LLM,通过发现自动审稿可能发现的论文错误和缺点,以及评估成对审稿人的偏好,来降低滥用、审稿分数膨胀、过度自信的评级和分数分布偏斜的风险。这项工作发现并解决了使用法学硕士作为审稿人和评估人的局限性,提高了审稿过程的质量。
9.Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models
标题:超越相关文档:利用大型语言模型进行以查询为重点的归纳的知识密集型方法
author:Weijia Zhang, Jia-Hong Huang, Svitlana Vakulenko, Yumo Xu, Thilina Rajapakse, Evangelos Kanoulas
publish:Accepted by the 27th International Conference on Pattern Recognition
(ICPR 2024)
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.10357v1
摘要:
以查询为重点的摘要(QFS)是自然语言处理中的一项基本任务,应用广泛,包括搜索引擎和报告生成。然而,传统方法假定存在相关文档,但在实际应用中,尤其是在高度专业化的主题中,这种假定并不总是成立的。为了解决这一局限性,我们提出了一种新颖的知识密集型方法,将 QFS 重新定义为知识密集型任务设置。这种方法由两个主要部分组成:检索模块和摘要控制器。检索模块根据给定的文本查询,从大规模知识语料库中高效检索潜在的相关文档,消除了对已有文档集的依赖。摘要控制器将基于大语言模型(LLM)的强大摘要器与精心定制的提示无缝集成,确保生成的摘要全面且与查询相关。为了评估我们方法的有效性,我们创建了一个新的数据集,并附有人工标注的相关性标签,以便对检索和摘要性能进行全面评估。广泛的实验证明了我们的方法性能优越,尤其是能够在最初不依赖相关文档的情况下生成准确的摘要。这凸显了我们的方法在各种查询场景中的通用性和实际应用性。
10.LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
标题:LegalBench-RAG:法律领域的检索增强生成基准
author:Nicholas Pipitone, Ghita Houir Alami
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.10343v1
摘要:
检索增强生成(RAG)系统正显示出巨大的潜力,并在人工智能驱动的法律应用中变得越来越重要。现有的基准(如 LegalBench)可评估法律领域大型语言模型(LLM)的生成能力,但在评估 RAG 系统的检索组件方面还存在重大差距。为了解决这个问题,我们推出了 LegalBench-RAG,这是首个专门用于评估法律领域 RAG 管道检索步骤的基准。LegalBench-RAG 强调精确检索,重点是从法律文档中提取最小、高度相关的文本片段。这些高度相关的片段比检索文档 ID 或大序列的不精确片段更受青睐,因为两者都可能超出上下文窗口的限制。较长的上下文窗口处理成本更高、延迟更长,而且会导致 LLMs 遗忘信息或产生幻觉。此外,精确的结果可以让 LLM 为最终用户生成引文。LegalBench-RAG 基准是通过将 LegalBench 查询中使用的上下文回溯到其在法律语料库中的原始位置来构建的,从而产生了一个包含 6858 个问答对的数据集,该数据集覆盖了超过 7900 万字符的语料库,完全由法律专家人工标注。我们还推出了 LegalBench-RAG-mini,这是一个用于快速迭代和实验的轻量级版本。通过为法律检索提供专用基准,LegalBench-RAG 成为公司和研究人员提高法律领域 RAG 系统准确性和性能的重要工具。LegalBench-RAG 数据集可通过 https://github.com/zeroentropy-cc/legalbenchrag 公开获取。
11.Instruction Finetuning for Leaderboard Generation from Empirical AI Research
标题:从人工智能实证研究出发,对生成排行榜的指令进行微调
author:Salomon Kabongo, Jennifer D’Souza
publish:arXiv admin note: text overlap with arXiv:2407.02409
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.10141v1
摘要:
本研究展示了应用预训练大语言模型(LLM)的指令微调来自动生成人工智能研究排行榜,从文章中提取(任务、数据集、度量、分数)四元组。其目的是通过从传统的人工社区策划或受限于分类法的自然语言推理(NLI)模型过渡到基于 LLM 的自动生成方法,简化人工智能研究进展的传播。这项研究利用 FLAN-T5 模型,增强了 LLM 在信息提取方面的适应性和可靠性,为结构化知识表示提供了一种新方法。
12.MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation
标题:MAPLE:通过可解释推荐中的多方面提示学习增强评论生成能力
author:Ching-Wen Yang, Che Wei Chen, Kun-da Wu, Hao Xu, Jui-Feng Yao, Hung-Yu Kao
publish:8 main pages, 10 pages for appendix. Under review
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.09865v1
摘要:
可解释推荐任务旨在接收一对用户和项目,并输出解释,说明为何向用户推荐项目。许多模型将评论生成作为可解释推荐的代表。虽然这些模型能够生成流畅且符合语法的句子,但它们存在通用性和幻觉问题。我们提出了一种名为 “多方面提示学习者”(MAPLE)的个性化、方面控制模型,它将方面类别整合为另一个输入维度,以促进对细粒度方面术语的记忆。在餐饮领域的两个真实评论数据集上进行的实验表明,MAPLE 在文本和特征多样性方面优于基准评论生成模型,同时保持了出色的一致性和事实相关性。我们进一步将 MAPLE 视为检索器-阅读器框架中的检索器组件,并使用大语言模型(LLM)作为阅读器,结果表明 MAPLE 的解释加上 LLM 的理解能力可以带来丰富的个性化解释。我们将在该 http 被接受后发布其中的代码和数据。
13.MoDeGPT: Modular Decomposition for Large Language Model Compression
标题:MoDeGPT:大型语言模型压缩的模块化分解
author:Chi-Heng Lin, Shangqian Gao, James Seale Smith, Abhishek Patel, Shikhar Tuli, Yilin Shen, Hongxia Jin, Yen-Chang Hsu
publish:31 pages, 9 figures
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.09632v2
摘要:
大型语言模型(LLM)在各种任务中表现出卓越的性能,重塑了人工智能的格局。然而,大量的计算要求使其在资源有限的设备上的部署面临挑战。最近,使用低秩矩阵技术的压缩方法显示出了前景,但这些方法往往会导致准确性下降,或者在参数和推理延迟方面带来巨大的开销。本文介绍了 \textbf{Mo}dular \textbf{De}composition (MoDeGPT),这是一种新型结构化压缩框架,无需恢复微调,同时解决了上述缺点。MoDeGPT 将变换器块划分为由矩阵对组成的模块,并通过重建模块级输出来减少隐藏维数。MoDeGPT 是基于一个理论框架开发的,该框架利用了三种成熟的矩阵分解算法 - Nystr"om approximation、CR decomposition 和 SVD - 并将它们应用于我们重新定义的变换器模块。我们的综合实验表明,MoDeGPT 不需要反向传播,就能与之前依赖梯度信息的结构化压缩方法相媲美甚至超越,在压缩一个 13B 的模型时节省了 98% 的计算成本。在 \textsc{Llama}-2/3 和 OPT 模型上,MoDeGPT 保持了 90-95% 的零点性能,压缩率为 25-30%。此外,压缩可在几小时内通过单个 GPU 完成,推理吞吐量最多可提高 46%。
14.A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification
标题:结合第一代变换器和开放式 LLMs 实现自动文本分类的策略
author:Claudio M. V. de Andrade, Washington Cunha, Davi Reis, Adriana Silvina Pagano, Leonardo Rocha, Marcos André Gonçalves
publish:13 pages, 3 figures, 8 tables
date Time:2024-08-19
paper pdf:http://arxiv.org/pdf/2408.09629v1
摘要:
转换器模型已经取得了最先进的成果,其中大型语言模型(LLMs)作为第一代转换器(1stTR)的进化版,在多项 NLP 任务中被认为是最先进的。然而,文献尚未最终证明 LLM 在所有 NLP 任务中的表现始终优于 1stTR。本研究在 11 个情感分析数据集上比较了三种 1stTR(BERT、RoBERTa 和 BART)和两种开放式 LLM(Llama 2 和 Bloom)。结果表明,在 11 个数据集中,有 8 个数据集的开放式 LLM 可能会适度优于或匹配第 1TR 方法,但只有在经过微调后才能实现。鉴于成本高昂却只能获得适度收益,这些模型在成本敏感型场景中的实际适用性值得怀疑。在这种情况下,我们提出了一种基于置信度的策略,该策略将第 1TR 与基于预测确定性的开放式 LLM 无缝集成。高置信度文档由成本效益更高的 1stTRs 进行分类,而不确定的情况则由 LLMs 以零次或少次模式处理,成本比微调版本低得多。情感分析实验表明,我们的解决方案不仅优于 1stTRs、zero-shot 和 few-shot LLMs,还能以极低的成本与微调 LLMs 展开激烈竞争。
15.Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
标题:解毒剂:针对有害微调的大型语言模型的事后微调安全对齐
author:Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu
date Time:2024-08-18
paper pdf:http://arxiv.org/pdf/2408.09600v1
摘要:
安全对齐的大型语言模型(LLMs)很容易受到有害的微调攻击(harmful fine-tuning attacks)–微调数据集中混入一些有害数据就会破坏LLMs的安全对齐。现有的缓解策略包括对齐阶段解决方案和微调阶段解决方案。然而,我们的评估结果表明,当选择了某些特定的训练超参数时,这两类防御都会失效(textit{when some specific training hyper-parameters are chosen})–在微调阶段,过高的学习率或过多的训练历时很容易使防御失效,而这对于保证微调性能来说是必要的。为此,我们提出了 “解毒剂”(Antidote)这一微调后阶段的解决方案,它仍然与微调阶段的训练超参数无关(textbf{textit{agnostic to the training hyper-parameters)}。解毒剂依赖于这样一种理念:通过去除有害参数,有害模型可以从有害行为中恢复,而不管这些有害参数在微调阶段是如何形成的。基于这一理念,我们在有害微调后引入了一次剪枝阶段,以去除产生有害内容的有害权重。尽管其简单性令人尴尬,但经验结果表明,解毒剂可以减少有害分值,同时保持下游任务的准确性。
16.Moonshine: Distilling Game Content Generators into Steerable Generative Models
标题:月光:将游戏内容生成器提炼为可引导的生成模型
author:Yuhe Nie, Michael Middleton, Tim Merino, Nidhushan Kanagaraja, Ashutosh Kumar, Zhan Zhuang, Julian Togelius
date Time:2024-08-18
paper pdf:http://arxiv.org/pdf/2408.09594v1
摘要:
通过机器学习生成程序内容(PCGML)增强了游戏内容的创建,但在可控性和有限的训练数据方面仍存在挑战。本研究通过将构造性 PCG 算法提炼为可控 PCGML 模型来解决这些问题。我们首先使用构造性算法生成大量内容,并使用大型语言模型(LLM)对其进行标注。我们使用这些合成标签为两个 PCGML 模型(扩散模型和五元模型)的特定内容生成提供条件。这种神经网络提炼过程可确保生成与原始算法保持一致,同时通过纯文本引入可控性。我们将这种以文本为条件的 PCGML 定义为文本到游戏地图(T2M)任务,为普遍的文本到图像多模式任务提供了一种替代方案。我们将经过提炼的模型与基准构造算法进行了比较。我们对生成模型的多样性、准确性和质量进行了分析,证明了将构造方法提炼为可控文本条件 PCGML 模型的有效性。
17.Offline RLHF Methods Need More Accurate Supervision Signals
标题:离线 RLHF 方法需要更准确的监督信号
author:Shiqi Wang, Zhengze Zhang, Rui Zhao, Fei Tan, Cam Tu Nguyen
publish:under review
date Time:2024-08-18
paper pdf:http://arxiv.org/pdf/2408.09385v1
摘要:
随着大型语言模型(LLM)的快速发展,使 LLM 与人类偏好保持一致变得越来越重要。虽然有人类反馈的强化学习(RLHF)被证明是有效的,但它既复杂又高度耗费资源。因此,离线 RLHF 被引入作为替代解决方案,它可以在固定的偏好数据集上直接优化有排名损失的 LLM。当前的离线 RLHF 只捕捉了响应之间的 “额定关系”,忽略了一个响应比其他响应更受青睐的 "程度 "这一关键方面。为了解决这个问题,我们提出了一种简单而有效的解决方案,即 “奖励、差异、优化”,简称 “textbf{RDO}”。具体来说,我们引入了{it reward difference coefficientents}来重新权衡离线 RLHF 中的样本对。然后,我们开发了一个{it difference model},其中涉及一对反应之间丰富的交互作用,用于预测这些差异系数。在 HH 和 TL;DR 数据集上对 7B LLM 进行的实验证实了我们的方法在自动度量和人工评估方面的有效性,从而突出了它在使 LLM 与人类意图和价值观保持一致方面的潜力。
18.Architectural Foundations for the Large Language Model Infrastructures
标题:大型语言模型基础设施的架构基础
author:Hongyin Zhu
date Time:2024-08-17
paper pdf:http://arxiv.org/pdf/2408.09205v2
摘要:
开发大型语言模型(LLM)基础设施是人工智能领域的一项关键任务。本文探讨了 LLM 基础设施、软件和数据管理的复杂情况。通过分析这些核心组成部分,我们强调了成功开发 LLM 的关键注意事项和保障措施。本文简明扼要地综述了构建稳健有效的 LLM 基础架构所面临的挑战和固有的策略,为研究人员和从业人员提供了宝贵的见解。
19.TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
标题:TableBench:表格问题解答的综合复杂基准
author:Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
publish:12 pages
date Time:2024-08-17
paper pdf:http://arxiv.org/pdf/2408.09174v1
摘要:
大型语言模型(LLM)的最新进展显著提高了对表格数据的解释和处理能力,引入了以前无法想象的功能。尽管取得了这些成就,但 LLM 在工业应用场景中仍然遇到了重大挑战,特别是由于现实世界中表格数据所需的推理复杂性增加,这凸显了学术基准与实际应用之间的明显差距。为了解决这一差异,我们对表格数据在工业场景中的应用进行了详细调查,并提出了一个全面而复杂的基准 TableBench,其中包括表格问题解答(TableQA)能力四大类 18 个字段。此外,我们还引入了 TableLLM,它在我们精心构建的训练集 TableInstruct 上进行训练,取得了与 GPT-3.5 相当的性能。在 TableBench 上进行的大量实验表明,开源和专有 LLM 仍有很大的改进空间,以满足现实世界的需求,其中最先进的模型 GPT-4 与人类相比仅取得了不高的分数。
20.Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection
标题:Unc-TTP:一种对 LLM 不确定性进行分类以改进上下文示例选择的方法
author:Hsiu-Yuan Huang, Zichen Wu, Yutong Yang, Junzhao Zhang, Yunfang Wu
publish:9 pages, long paper
date Time:2024-08-17
paper pdf:http://arxiv.org/pdf/2408.09172v2
摘要:
如今,大型语言模型(LLM)在各种下游任务中都表现出了卓越的性能。然而,对于用户来说,辨别这些回答是准确生成的,还是为满足用户期望而编造的,却是一项挑战。由于 LLMs 规模庞大且缺乏白盒访问,因此估算 LLMs 的不确定性尤其具有挑战性。在这项工作中,我们提出了一种新颖的不确定性三方测试范式(Unc-TTP),通过评估将标签干扰纳入基于采样的方法时 LLM 输出的一致性,对 LLM 的不确定性进行分类。根据 Unc-TTP 输出,我们将实例分为确定和不确定类别。此外,我们还对 LLM 的不确定性属性进行了详细分析,并证明了 Unc-TTP 优于现有的基于抽样的方法。此外,我们还利用所获得的不确定性信息来指导上下文示例的选择,结果表明 Unc-TTP 在选择信息量更大的示例方面明显优于基于检索和基于抽样的方法。我们的工作为开源和闭源 LLM 的不确定性分类铺平了一条新路,并介绍了一种利用这种不确定性提高 LLM 性能的实用方法。
21.CogLM: Tracking Cognitive Development of Large Language Models
标题:CogLM:跟踪大型语言模型的认知发展
author:Xinglin Wang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Boyuan Pan, Heda Wang, Yao Hu, Kan Li
publish:under review
date Time:2024-08-17
paper pdf:http://arxiv.org/pdf/2408.09150v1
摘要:
皮亚杰的认知发展理论(PTC)认为,认知水平的发展是人类学习各种能力的基础。由于大型语言模型(LLMs)最近在各种任务中表现出了非凡的能力,我们对当前 LLMs 的认知水平感到好奇:它们发展到了什么程度,以及这种发展是如何实现的。为此,我们构建了一个基于 PTC 的基准 CogLM(语言模型认知能力评估)来评估 LLM 的认知水平。CogLM 由 20 多位人类专家精心设计的 10 种认知能力的 1,220 个问题组成,为 LLM 的认知水平提供了一个全面的测试平台。通过使用 CogLM 对多个主流 LLM 进行广泛实验,我们发现(1) 在高级 LLMs(GPT-4)中出现了类似人类的认知能力,可与 20 岁的人类相媲美。(2) 参数大小和优化目标是影响 LLMs 认知水平的两个关键因素。(3) 下游任务的表现与认知能力水平呈正相关。这些发现填补了LLMs认知能力研究的空白,从认知角度追溯了LLMs的发展历程,为LLMs未来的演化方向提供了指导。
22.Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning
标题:通过信任建模和上下文学习为大型语言模型提供自适应护栏
author:Jinwei Hu, Yi Dong, Xiaowei Huang
publish:Under Review
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08959v1
摘要:
护栏已成为大语言模型(LLMs)不可分割的一部分,它可以缓和有害或有毒的反应,以保持 LLMs 符合人类的期望。然而,现有的护栏方法没有考虑个人用户的不同需求和访问权限,而是以相同的规则对待所有用户。本研究引入了一种自适应护栏机制,该机制由信任建模支持,并通过上下文学习得到增强,可根据用户信任指标动态调节对敏感内容的访问。通过利用直接交互信任和权威验证信任的组合,该系统可以精确地调整内容审核的严格程度,使之与用户的可信度及其查询的具体情况相一致。我们的实证评估表明,自适应护栏能有效满足用户的不同需求,其实用性优于现有的护栏,同时还能确保敏感信息的安全,并通过上下文感知知识库精确管理潜在的危险内容。这项工作首次在护栏系统中引入了以信任为导向的概念,提供了一种可扩展的解决方案,丰富了有关下一代 LLM 道德部署的讨论。
23.PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars
标题:PEDAL:利用多样化示例增强大型语言模型的贪婪解码能力
author:Sumanth Prabhu
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08869v2
摘要:
在使用大型语言模型(LLM)进行文本生成时,具有多种推理路径(如自一致性)的自组网技术已显示出显著的性能提升。然而,这类技术依赖于准确的答案提取过程,以汇总多个输出结果。此外,与贪婪解码相比,由于生成的输出标记数量相对较多,它们的推理成本也较高。研究表明,使用 LLM 可以可靠地聚合来自自一致性的自由格式文本输出,生成最终输出。此外,最近在 LLM 推理方面取得的进展已经证明,在提示中使用不同的示例能够诱导 LLM 输出的多样性。这些经过验证的技术可以很容易地扩展到基于自组装的方法中,从而增强文本生成的效果。在本文中,我们介绍了 PEDAL(基于示例多样性的提示,使用 LLM 聚合),这是一种混合自组装方法,它结合了基于示例多样性的提示和基于 LLM 聚合的优点,从而提高了整体性能。在公开的 SVAMP 和 ARC 数据集上,我们的实验表明,与基于自一致性的方法相比,PEDAL 能以更低的推理成本获得比基于贪婪解码的策略更高的准确率。
24.DAC: Decomposed Automation Correction for Text-to-SQL
标题:DAC:文本到 SQL 的分解自动化校正
author:Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08779v1
摘要:
文本到 SQL 是一项重要任务,它通过自动生成 SQL 查询,帮助人们从数据库中获取信息。考虑到出色的性能,基于大型语言模型(LLM)的方法成为文本到 SQL 的主流。在这些方法中,自动纠正是一种有效的方法,它通过纠正生成结果中的错误来进一步提高性能。现有的纠正方法需要 LLM 直接对生成的 SQL 进行纠正,而以往的研究表明,LLM 不知道如何检测错误,从而导致性能低下。因此,在本文中,我们提出采用分解式修正来提高文本到 SQL 的性能。我们首先证明了分解修正优于直接修正,因为使用分解后的子任务结果检测和修正错误比使用 SQL 更容易。基于这一分析,我们引入了分解自动纠正(DAC),它通过将文本到 SQL 分解为实体链接和骨架解析来纠正 SQL。DAC 首先生成与问题相对应的实体和骨架,然后比较初始 SQL 与生成的实体和骨架之间的差异,以此作为修正反馈。实验结果表明,与基线方法相比,我们的方法使 Spider、Bird 和 KaggleDBQA 的性能平均提高了 3.7 美元/%$,证明了 DAC 的有效性。
25.MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector
标题:MIA-Tuner:调整大型语言模型作为预训练文本检测器
author:Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang
publish:code and dataset: https://github.com/wjfu99/MIA-Tuner
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08661v1
摘要:
大型语言模型(LLM)的参数不断增加,数据集不断扩大,因此迫切需要一种技术解决方案来审计与 LLM 相关的潜在隐私风险和版权问题。现有研究通过探索预训练数据检测问题(这是成员推理攻击(MIA)的一个实例)部分满足了这一需求。该问题涉及确定在目标 LLM 的预训练阶段是否使用了给定文本。虽然现有方法设计了各种复杂的 MIA 分数函数,在预训练 LLM 中取得了相当高的检测性能,但如何实现高置信度检测以及如何在对齐的 LLM 上执行 MIA 仍是一个挑战。在本文中,我们提出了一种新颖的基于指令的 MIA 方法 MIA-Tuner,该方法指导 LLM 自身在内部充当更精确的预训练数据检测器,而不是设计外部 MIA 分数函数。此外,我们还设计了两种基于指令的保障措施,以分别减轻现有方法和 MIA-Tuner 带来的隐私风险。为了全面评估最新的先进 LLM,我们收集了一个更新的 MIA 基准数据集,命名为 WIKIMIA-24,以取代广泛采用的基准 WIKIMIA。我们在这两个基准数据集上对各种对齐和非对齐 LLM 进行了广泛的实验。结果表明,MIA-Tuner 将 MIA 的 AUC 从 0.7 显著提高到 0.9 的高水平。
26.LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs
标题:法律硕士对输出格式存在偏见!系统地评估和减轻法律硕士的输出格式偏差
author:Do Xuan Long, Hai Nguyen Ngoc, Tiviatis Sim, Hieu Dao, Shafiq Joty, Kenji Kawaguchi, Nancy F. Chen, Min-Yen Kan
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08656v1
摘要:
我们首次系统地评估了大型语言模型(LLM)性能中的格式偏差。我们的方法将格式约束下的评估指标分为两类,以便可靠、准确地评估性能:一类是在遵守格式约束的情况下测量性能,另一类是在不遵守约束的情况下评估性能。然后,我们定义了一种衡量 LLM 格式偏差的指标,并制定了减少偏差的有效策略。随后,我们介绍了对格式偏差的实证评估,包括四个常用类别–多选问答、包装、列表和映射–涵盖 15 种广泛使用的格式。我们对八项生成任务进行的评估发现,最先进的 LLM 都存在明显的格式偏差。我们进一步发现,改进 LLM 对不同格式的格式指示能力有可能减少格式偏差。基于我们的评估结果,我们研究了使用合成格式数据技术进行提示和微调,以减轻格式偏差。我们的方法成功地将 ChatGPT 在包装格式间的性能差异从 235.33 降至 0.71 (%
2
^2
2)。
27.A Survey on Benchmarks of Multimodal Large Language Models
标题:多模态大型语言模型基准调查
author:Jian Li, Weiheng Lu
date Time:2024-08-16
paper pdf:http://arxiv.org/pdf/2408.08632v1
摘要:
多模态大语言模型(MLLM)在视觉问题解答、视觉感知、理解和推理等各种应用中表现出色,因此在学术界和工业界越来越受欢迎。在过去几年中,人们已经从多个角度对 MLLM 进行了深入研究。本文全面回顾了 MLLMs 的文本bf{180基准}和评估,重点关注(1)感知和理解、(2)认知和推理、(3)特定领域、(4)关键能力以及(5)其他模式。最后,我们讨论了当前 MLLM 评估方法的局限性,并探讨了未来的发展方向。我们的主要论点是,应将评估视为一门关键学科,以更好地支持 MLLMs 的开发。更多详情,请访问我们的 GitHub 存储库:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。