AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.15-2024.06.20

最新推荐文章于 2024-11-26 17:16:34 发布

小小帅AIGC

最新推荐文章于 2024-11-26 17:16:34 发布

阅读量1.3k

点赞数 23

分类专栏： LLMs论文时报文章标签：人工智能语言模型深度学习自然语言处理 LLM 大语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139937973

版权

LLMs论文时报专栏收录该内容

60 篇文章

订阅专栏

文章目录~

1.RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold
2.Translating Across Cultures: LLMs for Intralingual Cultural Adaptation
3.APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking
4.SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages
5.Self-supervised Interpretable Concept-based Models for Text Classification
6.Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs
7.Augmenting Query and Passage for Retrieval-Augmented Generation using LLMs for Open-Domain Question Answering
8.SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots
9.Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective
10.CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial news
11.Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination
12.GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models
13.Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions
14.StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation
15.Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation
16.Fine-Tuning Gemma-7B for Enhanced Sentiment Analysis of Financial News Headlines
17.SQLFixAgent: Towards Semantic-Accurate SQL Generation via Multi-Agent Collaboration
18.R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation
19.Block-level Text Spotting with LLMs
20.Locating and Extracting Relational Concepts in Large Language Models
21.Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation
22.D2O:Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models
23.Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages
24.MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL
25.Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection
26.LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization
27.PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
28.From Instance Training to Instruction Learning: Task Adapters Generation from Instructions
29.On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation
30.Debate as Optimization: Adaptive Conformal Prediction and Diverse Retrieval for Event Extraction
31.Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models
32.Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation
33.Soft Prompting for Unlearning in Large Language Models
34.Vocabulary Expansion for Low-resource Cross-lingual Transfer
35.How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignment
36.Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction
37.AnyTrans: Translate AnyText in the Image with Large Scale Models
38.Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities
39.Self-training Large Language Models through Knowledge Detection
40.Mitigating Large Language Model Hallucination with Faithful Finetuning
41.TIFG: Text-Informed Feature Generation with Large Language Models
42.RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents
43.From Intentions to Techniques: A Comprehensive Taxonomy and Challenges in Text Watermarking for Large Language Models
44.MICL: Improving In-Context Learning through Multiple-Label Words in Demonstration
45.Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization
46.Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities

1.RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

标题:不正确合成数据上的 RL 将 LLM 数学推理的效率提高了八倍

author:Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14532v1

摘要：
在模型生成的合成数据上进行训练是对 LLM 进行微调的一种很有前途的方法，但目前仍不清楚这种方法是有帮助还是有害。在本文中，我们通过实证研究探讨了数学推理中的这一问题，并随后从概念上理解了我们的观察结果。首先，我们发现，虽然在有能力的模型生成的合成正确或正向问题-解决方案对上对模型进行微调的典型方法能带来适度的性能提升，但从微调学习器本身采样更多正确的解决方案，然后在这些自生成的数据上进行微调，能使相同合成问题的效率提高 $textbf{doubles}$ 。与此同时，对模型生成的阳性数据进行训练会放大各种虚假相关性，从而导致数据量增加时出现平缓甚至反向的缩放趋势。令人惊讶的是，我们发现如果同时利用否定回答（即模型生成的、被最终答案验证者认为不正确的回答），上述几个问题都可以得到解决。最重要的是，这些否定回答的构造必须使训练能够适当地恢复否定回答中每个中间步骤的效用或优势。有了这种按步骤训练的方案，我们就能在只有正向数据的情况下获得一致的收益，其性能类似于将合成数据量放大 $\mathbf{8 \times}$ 。我们的研究表明，对每步负值的训练有助于解除正值数据中的虚假相关性，并且等同于优势加权强化学习（RL），这意味着它继承了 RL 相对于单独模仿正值数据的鲁棒性优势。

2.Translating Across Cultures: LLMs for Intralingual Cultural Adaptation

标题:跨文化翻译：促进语内文化适应的 LLMs

author:Pushpdeep Singh, Mayur Patidar, Lovekesh Vig

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14504v1

摘要：
LLM 越来越多地被部署到多语言应用中，并在几种低资源和高资源语言之间展示了令人印象深刻的翻译能力。翻译中经常被忽视的一个方面是文化适应，即修改源文化参考资料以适应目标文化。文化适应应用于多个创意产业，在翻译过程中需要对源文化和目标文化有深入的了解。虽然从正确性的角度来看，专业翻译模型在机器翻译任务中仍然优于 LLM，但它们对文化差异并不敏感，往往需要人工修正。另一方面，LLMs 的参数中蕴含着丰富的文化知识，可以在此类应用中加以利用。在本文中，我们对文化适应任务进行了定义，并创建了一个评估框架，以对这一任务的不同模型进行基准测试。我们评估了现代 LLM 在文化适应方面的性能，并在连接不同文化中的相关概念时分析了它们的跨文化知识。我们还分析了自动适应可能存在的问题，包括文化偏见和刻板印象。我们希望这项任务能让我们更深入地了解 LLM 的文化理解能力及其在跨文化场景中的创造力。

3.APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking

标题:APEER：自动提示工程增强大型语言模型重排能力

author:Can Jin, Hongwu Peng, Shiyu Zhao, Zhenting Wang, Wujiang Xu, Ligong Han, Jiahui Zhao, Kai Zhong, Sanguthevar Rajasekaran, Dimitris N. Metaxas

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14449v1

摘要：
大型语言模型（LLM）大大增强了信息检索（IR）的各种模块，如重新排序。尽管 LLM 的性能令人印象深刻，但目前使用 LLM 进行的零次相关性排序在很大程度上依赖于人工提示工程。现有的自动提示工程算法主要集中在语言建模和分类任务上，而对 IR 领域，尤其是重新排序领域的探索还不够。将当前的提示工程算法直接应用于相关性排序具有挑战性，因为在输入中整合了查询和长段落对，排序的复杂性超过了分类任务。为了减少人力投入并释放提示优化在重新排序中的潜力，我们引入了一种名为 APEER 的新型自动提示工程算法。APEER 通过反馈和偏好优化迭代生成精炼提示。使用四种 LLM 和十个数据集进行的广泛实验表明，与现有的最先进（SoTA）人工提示相比，APEER 的性能有了大幅提高。此外，我们还发现 APEER 生成的提示在不同任务和 LLM 中具有更好的可移植性。代码见 https://github.com/jincan333/APEER。

4.SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

标题:SynDARin：为低资源语言自动推理合成数据集

author:Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14425v1

摘要：
问题解答（QA）数据集有助于开发和评估大型语言模型（LLM）的能力。然而，由于收集和人工标注的成本和困难，除英语外，其他语言的此类数据集非常稀缺。这意味着在低资源语言中建立新模型和衡量多语言 LLM 的性能具有挑战性。为了缓解这一问题，我们提出了 $\textbf{S}$ yn $\textbf{DAR}$ in，这是一种生成和验证低资源语言质量保证数据集的方法。我们利用并行内容挖掘来获取英语和目标语言之间的 $\textit{human-curated}$ 段落。我们使用英语数据作为上下文来 $\textit{生成}$ 合成多项选择题（MC）的问答对，并自动翻译和进一步验证其质量。将这些数据与指定的非英语 $\textit{human-curated}$ 段落结合起来，就形成了最终的 QA 数据集。这种方法可以保持内容质量，减少事实错误的可能性，并避免昂贵的注释。为了测试该方法，我们创建了一个包含 1.2 $K 样本的亚美尼亚语 QA 数据集。人工评估结果表明，在生成的英语数据中，有 98% 的数据保持了问题类型和主题的质量和多样性，而翻译验证管道可以过滤掉质量较差的数据。我们使用该数据集对最先进的 LLM 进行了基准测试，结果表明它们无法达到人类的准确度，而某些模型的表现更接近于随机概率。这表明生成的数据集并不复杂，可用于评估低资源语言的推理能力。

5.Self-supervised Interpretable Concept-based Models for Text Classification

标题:基于概念的自监督文本分类模型

author:Francesco De Santis, Philippe Bich, Gabriele Ciravegna, Pietro Barbiero, Danilo Giordano, Tania Cerquitelli

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14335v1

摘要：
尽管大型语言模型（LLMs）取得了成功，但由于其缺乏可解释性，限制了其可控性和可靠性，因此仍然面临着批评。传统的事后解释方法基于注意力和梯度分析，对模型决策过程的洞察力有限。在图像领域，基于概念的模型作为可解释的设计架构已经出现，它采用了人类可解释的特征作为中间表征。然而，这些方法尚未适用于文本数据，主要是因为它们需要昂贵的概念注释，而这对于真实世界的文本数据来说是不切实际的。本文通过提出自监督可解释概念嵌入模型（ICEMs）来应对这一挑战。我们利用 LLMs 的泛化能力，以自我监督的方式预测概念标签，同时用可解释函数提供最终预测结果。实验结果表明，ICEM 可以通过自我监督的方式进行训练，其性能与基于概念的完全监督模型和端到端黑盒模型类似。此外，我们还证明了我们的模型具有以下特点：(i) 可解释性，为其预测提供有意义的逻辑解释；(ii) 可交互性，允许人类通过概念干预修改中间预测；(iii) 可控制性，引导 LLMs 的解码过程遵循所需的决策路径。

6.Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs

标题:从知识图谱中学习规划检索增强的大型语言模型

author:Junjie Wang, Mingyang Chen, Binbin Hu, Dan Yang, Ziqi Liu, Yue Shen, Peng Wei, Zhiqiang Zhang, Jinjie Gu, Jun Zhou, Jeff Z. Pan, Wen Zhang, Huajun Chen

publish:Work in progress

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14282v1

摘要：
提高大型语言模型（LLM）在复杂问题解答（QA）场景中的性能一直是研究的重点。最近的研究试图通过将分步规划与外部检索相结合来提高 LLM 的性能。虽然对 GPT-3.5 这样的高级模型有效，但较小的 LLM 在分解复杂问题时面临挑战，因此有必要进行监督微调。以往的工作依赖于人工注释和从教师 LLM 中提炼知识，这既耗时又不够准确。在本文中，我们引入了一个新颖的框架，利用从知识图谱（KG）中提取的规划数据来增强 LLM 的规划能力。利用这些数据进行微调的 LLM 具有更强的规划能力，能更好地处理涉及检索的复杂质量保证任务。在多个数据集（包括我们新提出的基准）上进行的评估凸显了我们的框架的有效性以及知识图谱衍生规划数据的优势。

7.Augmenting Query and Passage for Retrieval-Augmented Generation using LLMs for Open-Domain Question Answering

标题:为检索增强查询和段落–使用 LLM 增强生成，用于开放域问题解答

author:Minsang Kim, Cheoneum Park, Seungjun Baek

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14277v1

摘要：
检索增强生成（RAG）作为一种弥补大型语言模型（LLM）参数知识的方法，在开放域问题解答（ODQA）任务中备受关注。虽然以前的方法侧重于处理检索到的段落以去除不相关的上下文，但它们仍然严重依赖于检索到的段落的质量，而如果问题含糊不清或复杂，质量就会下降。在本文中，我们提出了一种简单而高效的方法，称为 “通过 LLM 增强问题和段落”，用于开放域质量保证。我们的方法首先将原始问题分解为多步骤子问题。通过用详细的子问题和规划来增强原始问题，我们就能使查询更具体地反映出需要检索的内容，从而提高检索性能。此外，为了弥补检索到的段落包含干扰信息或意见分歧的情况，我们在检索到的段落中添加了由 LLM 自生成的段落，以指导答案提取。实验结果表明，与现有的 RAG 方法相比，所提出的方案优于之前的先进方法，并实现了显著的性能提升。

8.SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots

标题:SeCoKD：对齐大型语言模型，用更少的镜头进行上下文学习

author:Weixing Wang, Haojin Yang, Christoph Meinel

publish:preprint

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14208v1

摘要：
以往的研究表明，演示可以极大地帮助大型语言模型（LLMs）更好地完成给定任务。然而，这种所谓的 “语境中学习”（ICL）能力对演示语境非常敏感，通常需要数十次演示。在这项工作中，我们研究了是否可以在保持有竞争力的性能的同时减少拍摄次数。我们提出的 SeCoKD 是一种自我知识蒸馏（KD）训练框架，它能将学生模型与大量提示的变体保持一致，从而提高单次演示的利用率。我们在三个 LLM 和六个主要侧重于推理任务的基准中对 SeCoKD 进行了实验。结果表明，我们的方法优于基础模型和监督微调（SFT），尤其是在零点和单点设置中分别提高了 30% 和 10%。此外，在对新任务进行评估时，SeCoKD 带来的负面人工痕迹很少，比监督微调更稳健。

9.Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective

标题:从数据压缩的角度衡量用于训练 LLM 的数据剪枝中样本的重要性

author:Minsang Kim, Seungjun Baek

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14124v2

摘要：
大型语言模型（LLM）的高效计算训练已成为一个重要的研究问题。在这项工作中，我们将数据剪枝作为一种高效训练 LLM 的方法，并从数据压缩的角度来看待数据剪枝。我们认为，样本的信息量或描述长度可实现的压缩量代表了样本的重要性。我们的主要观点是，信息量较少的样本可能包含冗余信息，因此应首先剪枝。我们利用训练模型的对数似然函数作为衡量样本信息含量的代用指标。实验揭示了一个惊人的观点：与在整个数据集上训练的模型相比，基于信息的剪枝可以增强模型的泛化能力，改善语言建模和下游任务。

10.CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial news

标题:CryptoGPT：在分析和分类实时财经新闻方面可与 GPT-4 相媲美的 7B 模型

author:Ying Zhang, Matthieu Petit Guillaume, Aurélien Krauth, Manel Labidi

publish:Journ{'e}e Nationale sur la Fouille de Textes, Pascal CUXAC; Adrien
GUILLE; C{'e}dric LOPEZ, Jun 2024, Lyon (Universit{'e} Lumi{`e}re Lyon 2),
France

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14039v1

摘要：
CryptoGPT：在特定任务中与 GPT-4 竞争的 7B 模型 – 通过 QLoRA 进行自动注释和策略性微调的影响在本文中，我们介绍了一种方法，旨在通过 CryptoGPT，在工业环境中利用有限的资源完善具有合理质量的专用 LLM。CryptoGPT 是一款专为加密货币市场实时金融新闻分析而设计的 LLM。该项目是在工业背景下启动的。该模型不仅能对金融信息进行分类，还能提供综合分析。我们使用半自动注释法完善了相同规模的不同 LLM，如 Mistral-7B 和 LLama-7B，并将它们与 GPT-3.5 和 GPT-4 等各种 LLM 进行了比较。我们的目标是在几种需求之间找到平衡：1.保护数据（避免数据传输到外部服务器），2. 限制注释成本和时间，3. 控制模型大小（管理部署成本），4.保持更好的分析质量。

11.Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination

标题:大型语言模型是怀疑论者：输入矛盾幻觉的假否定问题

author:Jongyoon Song, Sangwon Yu, Sungroh Yoon

publish:12 pages, 9 figures

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.13929v1

摘要：
在本文中，我们发现了一类新的偏差，这种偏差会诱发与输入内容相冲突的幻觉，即大语言模型（LLMs）会产生与输入上下文内容不一致的反应。我们将这一问题称为 “假否定问题”（false negative problem），指的是在根据上下文评估语句的正确性时，大语言模型倾向于返回否定判断的现象。在涉及包含相同信息但事实方向相互矛盾的成对语句的实验中，我们观察到 LLMs 表现出了对假否定的偏爱。具体来说，当回答 "假 "时，模型会表现出更大的过度自信。此外，我们还分析了假否定问题与上下文和查询重写之间的关系，并观察到两者都能有效解决 LLM 中的假否定问题。

12.GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models

标题:GenderAlign：减少大型语言模型中性别偏差的对齐数据集

author:Tao Zhang, Ziqian Zeng, Yuxiang Xiao, Huiping Zhuang, Cen Chen, James Foulds, Shimei Pan

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.13925v1

摘要：
大型语言模型（LLM）在生成内容时容易表现出性别偏见，从而引发重大的伦理问题。对齐是对 LLM 进行微调，使其更好地与预期行为保持一致的过程，被认为是减轻性别偏见的有效方法。虽然专有的 LLM 在减少性别偏见方面取得了长足进步，但它们的对齐数据集并不公开。常用的公开对齐数据集 HH-RLHF 在一定程度上仍存在性别偏见。目前还缺乏专门用于解决性别偏差问题的公开配准数据集。因此，我们开发了一个名为 "GenderAlign "的新数据集，旨在减轻 LLM 中的一系列性别偏差。该数据集包含 8k 个单轮对话，每个对话都有一个 "选择 "和一个 "拒绝 "的回答。与 "拒绝 "回答相比，"选择 "回答的性别偏见程度更低，质量更高。此外，我们还将 GenderAlign 的 "拒绝 "回复中的性别偏见分为 4 个主要类别。实验结果表明，GenderAlign 在减少法律硕士中的性别偏见方面非常有效。

13.Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions

标题:促进教育领域主动学习的生成式人工智能：GPT-3.5 和 GPT-4 在制作定制试题方面的比较研究

author:Hamdireza Rouzegar, Masoud Makrehchi

publish:Publisher: Canadian Artificial Intelligence Association. URL:
https://caiac.pubpub.org/pub/kmn55wd2#nssvokovikx

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.13903v1

摘要：
本研究探讨了 LLM（特别是 GPT-3.5 和 GPT-4）如何根据主动学习原则，为九年级数学量身定制问题。通过使用迭代法，这些模型可根据难度和内容调整问题，并对模拟 "学生 "模型的反馈做出响应。这项研究的一个新颖之处在于将 GPT-4 作为 "教师 "来创建复杂的问题，而 GPT-3.5 则作为 "学生 "来应对这些挑战。这种设置反映了主动学习，促进了更深入的参与。研究结果表明，在接受 GPT-4 的指导后，GPT-4 生成精确、具有挑战性问题的能力出众，GPT-3.5 处理更复杂问题的能力也有显著提高。这些结果凸显了 LLM 在模仿和增强主动学习场景方面的潜力，为人工智能在定制化教育中的应用提供了一条前景广阔的道路。这项研究有助于理解人工智能如何支持个性化学习体验，强调了在各种教育环境中进一步探索的必要性

14.StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation

标题:StackRAG 代理：通过检索增强生成改进开发人员的回答

author:Davit Abrahamyan, Fatemeh H. Fard

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13840v1

摘要：
开发人员需要花费大量时间来查找与其问题相关的信息。Stack Overflow 一直是领先的资源，随着大型语言模型 (LLM) 的出现，ChatGPT 等生成模型也被频繁使用。然而，单独使用每一种模型都会遇到困难。搜索答案既耗时又乏味，研究人员为解决这一问题开发的许多工具就证明了这一点。另一方面，使用 LLM 并不可靠，因为它们可能会产生不相关或不可靠的答案（即幻觉）。在这项工作中，我们提出了基于 LLMs 的检索增强型多代理生成工具 StackRAG，它将两个世界结合在一起：聚合来自 SO 的知识，提高生成答案的可靠性。初步评估表明，生成的答案是正确、准确、相关和有用的。

15.Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

标题:基于模型内部结构的答案归属，实现可信赖的检索增强生成

author:Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza

publish:Under review. Code and data released at
https://github.com/Betswish/MIRAGE

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13663v1

摘要：
确保模型答案的可验证性是问题解答（QA）领域中检索增强生成（RAG）的一个基本挑战。最近，有人提出了自引提示，让大型语言模型（LLM）在生成答案的同时生成支持文档的引文。然而，自引式 LLM 通常很难符合所需的格式，会引用不存在的来源，并且在整个生成过程中无法忠实反映 LLM 的上下文用法。在这项工作中，我们提出了 MIRAGE – 基于模型内部结构的 RAG 解释 – 一种即插即用的方法，利用模型内部结构在 RAG 应用程序中实现忠实的答案归属。MIRAGE 检测上下文敏感的答案标记，并将其与检索到的文档配对，通过显著性方法对其进行预测。我们在一个多语言抽取式质量保证数据集上对我们提出的方法进行了评估，结果发现该方法与人工答案归属具有很高的一致性。在开放式质检中，MIRAGE 的引用质量和效率可与自我引用相媲美，同时还能对归因参数进行更精细的控制。我们的定性评估强调了 MIRAGE 归因的忠实性，并强调了模型内部结构在 RAG 答案归因中的应用前景。

16.Fine-Tuning Gemma-7B for Enhanced Sentiment Analysis of Financial News Headlines

标题:微调 Gemma-7B 以增强对财经新闻标题的情感分析

author:Kangtong Mo, Wenyan Liu, Xuanzhen Xu, Chang Yu, Yuelin Zou, Fangqing Xia

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13626v1

摘要：
在本研究中，我们探讨了如何将情感分析应用于金融新闻标题，以了解投资者的情绪。通过利用自然语言处理（NLP）和大型语言模型（LLM），我们从散户投资者的角度对情感进行了分析。FinancialPhraseBank 数据集包含金融新闻标题的情感分类，是我们分析的基础。我们微调了几个模型，包括 distilbert-base-uncased、Llama 和 gemma-7b，以评估它们在情感分类中的有效性。我们的实验表明，经过微调的 gemma-7b 模型优于其他模型，获得了最高的精确度、召回率和 F1 分数。具体来说，gemma-7b 模型在微调后的准确率有了显著提高，这表明它在捕捉金融情感的细微差别方面具有很强的鲁棒性。通过准确预测金融新闻的情绪，该模型可在提供市场洞察、风险管理和辅助投资决策方面发挥重要作用。研究结果凸显了高级 LLM 在改变我们分析和解读金融信息方式方面的潜力，为金融业的利益相关者提供了一个强大的工具。

17.SQLFixAgent: Towards Semantic-Accurate SQL Generation via Multi-Agent Collaboration

标题:SQLFixAgent：通过多代理协作实现语义准确的 SQL 生成

author:Jipeng Cen, Jiaxin Liu, Zhixu Li, Jingjing Wang

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13408v1

摘要：
在文本到 SQL 解析过程中，经过微调的大型语言模型（LLM）在生成语法有效的 SQL 方面表现出色，但在确保查询语义的准确性方面却往往力不从心，从而导致用户的困惑和系统可用性的降低。为了应对这一挑战，我们引入了 SQLFixAgent，这是一个创新的多代理协作框架，旨在检测和修复错误的 SQL。我们的框架由一个核心代理 SQLRefiner 和两个辅助代理组成：SQLReviewer 和 QueryCrafter。SQLReviewer 代理采用橡皮鸭调试方法来识别 SQL 语句和用户查询之间潜在的语义不匹配。如果检测到错误，QueryCrafter 代理会使用微调的 SQLTool 生成多个 SQL 语句作为候选修复。随后，利用类似的修复检索和故障记忆反射，SQLRefiner 代理从候选语句中选择最合适的 SQL 语句作为最终修复。我们在五个文本到 SQL 基准上评估了我们提出的框架。实验结果表明，我们的方法持续提升了基准模型的性能，特别是在 Bird 基准上实现了超过 3% 的执行准确率提升。与其他先进方法相比，我们的框架还具有更高的令牌效率，使其更具竞争力。

18.R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation

标题:R^2AG：将检索信息纳入检索增强生成

author:Fuda Ye, Shuangyin Li, Yongqi Zhang, Lei Chen

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13249v1

摘要：
检索增强生成（RAG）已在许多场景中应用，利用检索器提供的外部文档增强大型语言模型（LLM）。然而，由于 LLM 和检索器的训练目标和架构不同，它们之间存在语义鸿沟。这种错位迫使 LLM 被动地接受检索器提供的文档，从而导致生成过程中的不理解，在生成过程中，LLM 要承担利用其固有知识区分这些文档的任务。本文提出了一种新颖的增强型 RAG 框架 R $^2$ AG，通过将检索信息纳入检索增强生成来填补这一空白。具体来说，R $^2$ AG 利用检索器的细微特征，采用 R $^2$ Former 来捕捉检索信息。然后，设计一种检索感知提示策略，将检索信息整合到 LLM 生成中。值得注意的是，R $^2$ AG 适合 LLM 和检索器冻结的低来源场景。在五个数据集上进行的广泛实验验证了 R $^2$ AG 的有效性、鲁棒性和效率。我们的分析表明，检索信息在生成过程中起到了辅助 LLM 的作用，从而填补了语义空白。

19.Block-level Text Spotting with LLMs

标题:使用 LLM 进行块级文本查找

author:Ganesh Bannur, Bharadwaj Amrutur

publish:19 pages, 7 figures

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13208v1

摘要：
近年来，文本抽取技术取得了巨大进步，可以提取字符、单词或行级别的文本。然而，从图像中提取文本块（块级文本抽取）的技术还相对欠缺。与单行、单词或单个字符相比，文本块包含更多的上下文，因此块级文本识别将增强翻译等下游应用，这些应用将从增加的上下文中受益。我们提出了一种新方法 BTS-LLM（使用 LLM 的块级文本识别），用于识别块级文本。BTS-LLM 包括三个部分：1）检测和识别行级文本；2）将行分组为块；3）使用大语言模型 (LLM) 寻找块内行的最佳顺序。我们的目标是利用 LLM 中强大的语义知识来准确识别块级文本。因此，如果发现的文本在语义上是有意义的，但在文本识别过程中被破坏了，那么 LLM 也能纠正文本中的错误，并对其进行重构。

20.Locating and Extracting Relational Concepts in Large Language Models

标题:在大型语言模型中定位和提取关系概念

author:Zijian Wang, Britney White, Chang Xu

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13184v1

摘要：
关系概念的确是知识表征结构的基础，因为它们促进了各种实体概念之间的关联，使我们能够表达和理解复杂的世界知识。通过在自然语言提示中表达关系概念，人们可以毫不费力地与大型语言模型（LLM）进行交互，并调用所需的事实知识。然而，知识回忆的过程缺乏可解释性，我们对 LLM 中关系概念的表征仍然一无所知。在本文中，我们通过对事实回忆过程的因果中介分析，确定了可以表达实体和关系概念的隐藏状态。我们的研究发现，在输入提示的最后一个标记位置，存在着只表达关系概念因果效应的隐藏状态。基于这一发现，我们假定这些隐藏状态可被视为关系表征，并能成功地从 LLM 中提取出来。实验结果表明，关系表征具有很高的可信度：它们可以灵活地移植到其他事实回忆过程中，也可以用作稳健的实体连接器。此外，我们还证明了关系表征在通过关系重写实现可控事实召回方面的巨大潜力。

21.Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation

标题:思考然后行动：双角评估检索–增强型生成器

author:Yige Shen, Hao Jiang, Hua Qu, Jihong Zhao

publish:12 pages, 8 figures

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.13050v1

摘要：
尽管大型语言模型（LLMs）具有令人印象深刻的能力，但它们经常面临时间错位和产生幻觉内容等挑战。用检索机制来增强 LLM，以便从外部来源获取相关信息，这提供了一个很有前景的解决方案。受 "三思而后行 "这句谚语的启发，我们提出了一种双角度评估检索-增强生成框架（textit{Think-then-Act}）。以往的方法会不加区分地重写查询或执行检索，或在决定是否进行额外检索之前生成临时响应，从而增加模型生成成本，与此不同，我们的框架采用了两阶段流程：(i) 评估输入查询的清晰度和完整性，以确定是否需要重写；(ii) 评估模型回答查询的能力，并决定是否需要进行额外检索。在五个数据集上的实验结果表明，textit{Think-then-Act}框架显著提高了性能。与现有基线相比，我们的框架在准确性和效率方面都有显著提高，并且在英语和非英语语境中都表现出色。消融研究验证了最佳模型置信度阈值，凸显了我们方法的资源优化优势。

22.D2O:Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models

标题:D2O：用于大型语言模型高效生成推理的动态判别操作

author:Zhongwei Wan, Xinjian Wu, Yu Zhang, Yi Xin, Chaofan Tao, Zhihong Zhu, Xin Wang, Siqi Luo, Jing Xiong, Mi Zhang

publish:Under review

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.13035v1

摘要：
大型语言模型（LLM）中的高效推理受到键值（KV）缓存内存需求不断增长的阻碍，尤其是对于较长的序列。传统的 KV 缓存驱逐策略会根据注意力分数优先处理不那么重要的 KV 对，这往往会降低生成质量，导致上下文丢失或幻觉等问题。为解决这一问题，我们引入了动态判别操作（Dynamic Discriminative Operations，D2O），这是一种利用两级判别策略优化 KV 缓存大小的新方法，无需进行微调，同时保留基本上下文。首先，通过观察浅层和深层之间注意力权重的不同密度，我们利用这一洞察力来确定哪些层应避免过度驱逐，以尽量减少信息损失。随后，针对各层的剔除策略，D2O 创新性地采用了一种补偿机制，即保持一个相似性阈值，以重新区分之前被丢弃的标记的重要性，决定是否应将其召回并与相似标记合并。我们的方法不仅节省了大量内存，将推理吞吐量提高了 3 倍以上，还保持了高质量的长文本生成。对各种基准和 LLM 架构进行的大量实验表明，D2O 在 KV 缓存预算有限的情况下显著提高了性能。

23.Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages

标题:用于模型堆叠的自蒸馏技术解锁 200 多种语言的跨语言 NLU

author:Fabian David Schmidt, Philipp Borchert, Ivan Vulić, Goran Glavaš

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12739v1

摘要：
LLM 不仅是文本生成的首选解决方案，也是自然语言理解（NLU）任务的首选解决方案。通过对网络规模的语料库进行语言建模，LLMs 获得了广泛的知识，在英语 NLU 方面表现出色，但在将其 NLU 能力扩展到代表性不足的语言方面却举步维艰。与此相反，机器翻译模型（MT）能产生出色的多语言表述，即使对低资源语言也能产生强大的翻译性能。然而，MT 编码器缺乏全面的 NLU 所需的知识，而 LLM 通过在大量语料库上进行语言建模训练可以获得这些知识。在这项工作中，我们通过采样高效的自蒸馏将 MT 编码器直接集成到 LLM 骨干中，从而获得了两全其美的效果。由此产生的 MT-LLM 保留了 MT 编码器固有的多语言表述对齐性，使低资源语言能够利用以英语为中心的 LLM 中蕴含的丰富知识。我们将 MT 编码器和 LLM 合并为一个模型，从而减轻了翻译错误的传播以及基于离散翻译的跨语言传输（如翻译测试）所固有的 MT 解码推理开销。对三项著名的 NLU 任务和 127 种主要是低资源语言的评估表明，MT-LLM 在跨语言转换中非常有效。基于相同的 MT 模型，MT-LLM 大幅且持续地超越了 translate-test，这表明我们真正实现了 LLM 的多语言语言理解。

24.MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL

标题:MAGIC：为上下文文本到 SQL 生成自我纠正指南

author:Arian Askari, Christian Poelitz, Xinye Tang

publish:20 pages, 17 figures

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12692v1

摘要：
文本到 SQL 中的自我修正是促使大型语言模型（LLM）修改其先前错误生成的 SQL 的过程，通常依赖于人类专家手工制作的自我修正指南，这种指南的制作不仅耗费大量人力，而且受限于人类识别 LLM 响应中所有潜在错误模式的能力。我们引入了 MAGIC，这是一种新型的多代理方法，可自动创建自纠指南。MAGIC 使用三个专门的代理：管理代理、纠正代理和反馈代理。这些代理就基于 LLM 的方法在训练集上的失败进行协作，迭代生成并完善针对 LLM 错误的自我纠正指南，这反映了人类的过程，但无需人类参与。我们的大量实验表明，MAGIC 的指南优于人类专家创建的指南。我们根据经验发现，MAGIC 制作的指南提高了所做纠正的可解释性，为分析 LLM 在自我纠正中失败和成功背后的原因提供了见解。我们向研究界公开了所有的代理交互，以促进该领域的进一步研究，为未来探索自动生成自我修正指南提供合成数据集。

25.Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection

标题:将集合方法应用于模型诊断的机器生成文本检测

author:Ivan Ong, Boon King Quek

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12570v1

摘要：
在本文中，我们研究了在机器生成文本可能来自的大语言模型（LLM）未知的情况下检测机器生成文本的问题。我们将集合方法应用于 DetectGPT 分类器（Mitchell 等人，2023 年）的输出，该分类器是一种用于机器生成文本检测的零镜头模型，当生成（或基础）语言模型与判别（或评分）语言模型相同时，该模型的准确性很高。我们发现，DetectGPT 子模型输出的简单汇总统计得出的 AUROC 为 0.73（相对于 0.61），同时保留了其零点检测的性质，而监督学习方法可将准确率大幅提高到 0.94，但需要一个训练数据集。这表明有可能进一步推广，以创建一个高度准确、与模型无关的机器生成文本检测器。

26.LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization

标题:LightPAL：用于开放域多文档摘要的轻量级段落检索

author:Masafumi Enomoto, Kunihiro Takeoka, Kosuke Akimoto, Kiril Gashteovski, Masafumi Oyamada

publish:13 pages, 3 figures

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12494v1

摘要：
开放域多文档摘要（ODMDS）对于满足不同的信息需求至关重要，其目的是生成一个摘要作为对用户查询的回答，从大型文档集中的多个文档中综合出相关内容。现有的方法是先找到相关段落，然后使用语言模型生成摘要，但这种方法并不适用于 ODMDS。这是因为开放式查询通常要求检索到的段落提供额外的上下文，以全面覆盖主题，这使得最初检索到所有相关段落具有挑战性。虽然多跳问题解答（MQA）的迭代检索方法已经得到了探索，但由于推理过程中反复使用大语言模型（LLM）推理所带来的高延迟，这些方法对于 ODMDS 来说并不实用。为了解决这个问题，我们提出了 LightPAL，这是一种适用于 ODMDS 的轻量级段落检索方法，它在索引过程中使用 LLM 构建一个表示段落关系的图，并在推理时采用随机行走而不是迭代推理和检索。在 ODMDS 基准上进行的实验表明，LightPAL 在摘要质量方面优于基准检索器，同时效率明显高于迭代 MQA 方法。

27.PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

标题:PlanRAG：作为决策制定者的大型语言生成模型的 "先计划后检索 "增强生成方法

author:Myeonghwa Lee, Seonho An, Min-Soo Kim

publish:NAACL 2024

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12430v1

摘要：
在本文中，我们将研究如何利用 LLM 作为需要复杂数据分析的决策制定的解决方案。我们将决策质量保证定义为针对决策问题 $Q$ 、业务规则 $R$ 和数据库 $D$ 回答最佳决策 $d_{best}$ 的任务。由于目前还没有可以检验决策质量保证的基准，因此我们提出了决策质量保证基准 DQA。它有两个场景，分别是定位和建筑，由两个视频游戏（Europa Universalis IV 和 Victoria 3）构建而成，其目标与决策质量保证几乎相同。为了有效解决决策 QA 问题，我们还提出了一种新的 RAG 技术，即迭代计划-检索增强生成（PlanRAG）。我们基于 PlanRAG 的 LM 第一步生成用于决策的计划，第二步由检索器生成用于数据分析的查询。所提出的方法在 "定位 "和 "建筑 "场景下的性能分别比最先进的迭代 RAG 方法高出 15.8% 和 7.4%。我们在 https://github.com/myeon9h/PlanRAG 上发布了我们的代码和基准测试。

28.From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

标题:从实例训练到指令学习：从指令生成任务适配器

author:Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12382v1

摘要：
大型语言模型（LLM）通过利用指令微调（IFT）获得了解决一般任务的能力。然而，IFT 仍然严重依赖于大量任务数据的实例训练，这极大地限制了 LLMs 在现实世界中的适应性，因为在现实世界中，标注的任务实例非常稀少，更广泛的任务泛化变得至关重要。与 LLMs 相反，人类获取技能和完成任务不仅要通过反复练习，还要理解并遵循指导准则。本文致力于模拟人类学习，以解决实例训练的不足，重点关注指令学习，以增强跨任务泛化能力。在此背景下，我们引入了从指令生成任务适配器（TAGI），它可以根据给定的任务指令，以参数生成的方式自动构建特定任务模型，而无需对未见过的任务进行再训练。具体来说，我们利用知识提炼技术，通过调整标签、输出对数和适配器参数，增强通过 "带指令学习 "开发的 TAGI 与通过 "带实例训练 "开发的任务特定模型之间的一致性。通过包括超网络预训练和微调在内的两阶段训练过程，TAGI 被赋予了跨任务泛化能力。我们在超级自然指令和 P3 数据集上对 TAGI 进行了评估。实验结果表明，TAGI 可以媲美甚至超越传统的元训练模型和其他超网络模型，同时大大降低了计算要求。

29.On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation

标题:缓解幻觉的政策上细粒度知识反馈

author:Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12221v1

摘要：
当大型语言模型（LLM）在生成响应的过程中表现出偏离其知识边界的行为时，就会出现幻觉。以往基于学习的方法侧重于检测知识边界，并通过实例级反馈对模型进行微调，但由于非策略数据采样和粗粒度反馈，这些方法受到信号不准确的影响。本文介绍了一种基于细粒度反馈的在线强化学习方法–textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination}（RLFH）。与以往基于学习的方法不同，RLFH 使 LLMs 能够探索其内部知识的边界，并就这些探索提供政策上的细粒度反馈。为了构建用于学习可靠生成行为的细粒度反馈，RLFH 将大型模型的结果分解为原子事实，提供语句级评估信号，并将信号追溯到原始响应的标记。最后，RLFH 利用这些令牌级奖励采用在线强化算法来调整模型行为，以减少幻觉。为了实现有效的策略优化，RLFH 还引入了基于 LLM 的事实评估框架，以验证原子事实的真实性和有用性，而无需人工干预。在 HotpotQA、SQuADv2 和 Biography 基准上进行的实验表明，RLFH 可以在生成过程中平衡内部知识的使用，从而消除 LLM 的幻觉行为。

30.Debate as Optimization: Adaptive Conformal Prediction and Diverse Retrieval for Event Extraction

标题:辩论即优化：事件提取的自适应共形预测和多样化检索

author:Sijia Wang, Lifu Huang

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12197v1

摘要：
我们提出了一种用于事件提取的多机器人辩论优化（DAO）系统，其主要目标是通过辩论迭代完善大型语言模型（LLM）的输出，而无需调整参数。在 DAO 中，我们引入了两个新模块：Diverse-RAG（DRAG）模块和 Adaptive Conformal Prediction（AdaCP）模块。DRAG 系统性地检索最适合辩论讨论的支持信息，而 AdaCP 则通过有效地拒绝不那么有希望的答案来提高事件提取的准确性和可靠性。实验结果表明，在事件检测和论据提取方面，监督方法与基于免调整 LLM 的方法之间的性能差距明显缩小，在 ACE05 上分别缩小了 18.1% 和 17.8%，在 CASIE 上分别缩小了 17.9% 和 15.2%。

31.Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models

标题:Aqulia-Med LLM：开创性的全流程开源医学语言模型

author:Lulu Zhao, Weihao Zeng, Xiaofeng Shi, Hua Zhou, Donglin Hao, Yonghua Lin

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12182v1

摘要：
最近，闭源 LLM 和开源社区都取得了长足进步，在各种通用领域的表现都优于人类。然而，由于医学知识的复杂性，它们在医学等特定专业领域的表现，尤其是在开源社区中的表现，仍然不尽如人意。我们提出了基于 Aquila 的双语医学 LLM–Aquila-Med，通过持续预训练、监督微调（SFT）和人类反馈强化学习（RLHF）来应对这些挑战。我们构建了一个用于继续预训练的大规模中英文医学数据集和一个高质量的 SFT 数据集，涵盖了广泛的医学专业。此外，我们还开发了高质量的直接偏好优化（DPO）数据集，用于进一步对齐。Aquila-Med 在单轮、多轮对话和医学多选题中都取得了显著的成果，证明了我们方法的有效性。我们开源了数据集和整个训练过程，为研究界贡献了宝贵的资源。我们的模型和数据集将在 https://huggingface.co/BAAI/AquilaMed-RL 上发布。

32.Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation

标题:通过 LLM 驱动的主动学习和人工标注增强文本分类能力

author:Hamidreza Rouzegar, Masoud Makrehchi

publish:Publisher: Association for Computational Linguistics URL:
https://aclanthology.org/2024.law-1.10

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.12114v1

摘要：
在文本分类方面，为创建训练数据而进行标注工作的经济负担是一个关键问题。主动学习技术，尤其是以不确定性采样为基础的主动学习技术，通过为人工标注精确定位最具指导性的样本，提供了一种具有成本效益的解决方案。同样，GPT-3.5 等大型语言模型（LLM）为自动注释提供了一种替代方法，但其可靠性也令人担忧。本研究介绍了一种在主动学习框架内整合人工标注员和 LLM 的新方法。我们在三个公共数据集上进行了评估。提议的框架根据模型的不确定性水平，将人工注释与 LLM 的输出进行了整合。这一策略在成本效率和分类性能之间实现了最佳平衡。实证结果表明，在保持或提高模型准确性的同时，与数据注释相关的成本大幅降低。

33.Soft Prompting for Unlearning in Large Language Models

标题:大型语言模型中的软提示解学习

author:Karuna Bhaila, Minh-Hao Van, Xintao Wu

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.12038v1

摘要：
大型语言模型（LLM）的广泛流行，部分原因是其具有在上下文中进行学习的独特能力，这也凸显了在部署这些预训练模型时道德和安全考虑的重要性。在这项工作中，我们将重点研究在数据保护法规的激励下，对 LLMs 进行机器非学习。与越来越多关于微调方法以实现解除学习的文献相比，我们专注于一种相对轻量级的替代方法，即软提示（soft prompting），以实现对训练数据子集的解除学习。我们的框架（textbf{S}oft \textbf{P}rompting for \textbf{U}n\textbf{l}earning，简称 SPUL）利用旨在强制遗忘和保留效用的损失来学习提示标记，这些标记可以附加到任意查询中，从而在推理时诱导特定示例的取消学习，而无需更新 LLM 参数。我们对所提出的方法进行了严格的评估，结果表明，在使用 LLM 进行文本分类时，SPUL 可以显著改善效用和遗忘之间的权衡。我们使用多个 LLM 进一步验证了我们的方法，以突出我们框架的可扩展性，并提供了关于超参数选择和未学习数据大小影响的详细见解。我们的实现可在（url{https://github.com/karuna-bhaila/llm_unlearning}.

34.Vocabulary Expansion for Low-resource Cross-lingual Transfer

标题:低资源跨语言迁移的词汇扩展

author:Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11477v1

摘要：
大语言模型（LLM）在英语之外的许多语言中都显示出了非凡的能力。然而，由于 LLMs 依赖于以英语为中心的标记符、词汇和预训练数据，因此在生成非英语文本时需要更多的推理步骤，从而导致非英语使用者的使用成本较高。为解决这一问题，使用目标语言标记进行词汇扩展是一种广泛使用的跨语言词汇适应方法。尽管这种方法在加快推理速度方面很有效，但之前的大部分工作都集中在高资源环境下，即假定可以访问大量目标语言数据，从而有效地初始化新标记的嵌入，并使 LLM 适应目标语言。然而，低资源环境（即语言和计算）下的 LLM 词汇扩充尚待探索。在本文中，我们从不同角度研究了样本效率适应策略，包括目标词汇量和初始化方法，以及可用于适应的目标数据量。对不同类型的语言、任务和模型进行的广泛实验表明，在低资源环境下，基于启发式的简单嵌入初始化对目标词汇量和适配数据的变化具有更高的效率和鲁棒性，优于流行的随机初始化和依赖外部数据和模型的更复杂的最新方法。

35.How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignment

标题:上下文对齐能走多远？探索上下文对齐的现状

author:Heyan Huang, Yinghao Li, Huashan Sun, Yu Bai, Yang Gao

publish:22 pages, 6 figures, work in progress

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11474v1

摘要：
最近的研究表明，通过使用特定的演示，上下文学习（ICL）可以使大型语言模型（LLM）与人类偏好保持一致，即上下文对齐（ICA），这表明模型无需调整参数即可理解人类指令。然而，对 ICA 机制和适用性的探索仍然有限。在本文中，我们首先将 ICA 中使用的上下文文本分为三类：格式、系统提示和示例。通过消减实验，我们研究了每一部分在使 ICA 有效发挥作用方面的有效性。然后，我们研究了这些部分的变体如何影响模型的配准性能。我们的研究结果表明，示例部分对于提高模型的配准能力至关重要，示例的变化会显著影响配准性能。我们还全面评估了 ICA 在各种配准任务中的归零能力。结果表明，与参数微调方法相比，ICA 在基于知识的任务和工具使用任务中表现出更优越的性能。然而，在多轮对话和指令跟踪等领域，它仍然表现出一定的局限性。

36.Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

标题:自适应强化学习规划：利用大型语言模型提取复杂信息

author:Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li, Deqing Yang, Yanghua Xiao, Jiaqing Liang

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11455v1

摘要：
对大型语言模型（LLM）的现有研究表明，它们可以通过多步骤规划来解决信息提取任务。然而，它们对复杂句子和任务的提取行为并不稳定，出现了误报和元素缺失等问题。我们发现，分解复杂的提取任务并分步提取能有效提高 LLMs 的性能，而实体的提取顺序会显著影响 LLMs 的最终结果。本文提出了一种基于 LLM 的两阶段多步骤信息提取方法，并采用 RL 框架来执行多步骤规划。我们将顺序提取视为一个马尔可夫决策过程，构建了一个基于 LLM 的提取环境，设计了一个决策模块来自适应地提供对不同句子进行顺序实体提取的最优顺序，并利用 DDQN 算法来训练决策模型。我们还设计了适合 LLM 提取结果的奖励和评价指标。我们在多个公共数据集上进行了广泛的实验，以证明我们的方法在提高 LLMs 信息提取能力方面的有效性。

37.AnyTrans: Translate AnyText in the Image with Large Scale Models

标题:AnyTrans：利用大型模型翻译图像中的任何文本

author:Zhipeng Qian, Pei Zhang, Baosong Yang, Kai Fan, Yiwei Ma, Derek F. Wong, Xiaoshuai Sun, Rongrong Ji

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11432v1

摘要：
本文介绍了 AnyTrans，这是一个用于 “在图像中翻译任何文本”（TATI）任务的全方位框架，其中包括多语言文本翻译和图像中的文本融合。我们的框架利用大型模型（如大型语言模型（LLM）和文本引导扩散模型）的优势，在翻译过程中结合来自文本和视觉元素的上下文线索。LLMs 的少量学习能力允许通过考虑整体上下文来翻译零散文本。同时，扩散模型先进的内绘和编辑能力使翻译文本与原始图像无缝融合成为可能，同时保留了原始图像的风格和真实感。此外，我们的框架可以完全使用开源模型构建，无需培训，因此非常容易获取和扩展。为了促进 TATI 任务的发展，我们精心编制了一个名为 MTIT6 的测试数据集，该数据集由六种语言对的多语言文本图像翻译数据组成。

38.Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities

标题:Refiner：高效重组检索内容，提高问题解答能力

author:Zhonghao Li, Xuming Hu, Aiwei Liu, Kening Zheng, Sirui Huang, Hui Xiong

publish:8 pages

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11357v2

摘要：
大型语言模型（LLM）受到其参数知识的限制，导致在知识密集型任务中出现幻觉。为了解决这个问题，检索增强生成（RAG）结合了外部文档块来扩展 LLM 的知识。此外，通过提取或总结来压缩文档块中的信息也能提高 LLM 的性能。然而，LLM 仍然难以发现和利用分散的关键信息，这个问题被称为 "中间丢失 "综合症。因此，我们通常需要重组内容，以便 LLM 识别关键信息。我们提出了 $\textit{Refiner}$ ，这是一种端到端提取-重组范式，在RAG的后检索过程中运行。 $textit{Refiner}$ 利用单个解码器 LLM 自适应地逐字提取与查询相关的内容以及必要的上下文，并根据它们之间的相互联系对它们进行分段，从而突出信息的区别，并使下游 LLM 有效地与原始上下文保持一致。实验表明，经过训练的 $\textit{Refiner}$ （具有7B个参数）在提高答案准确性方面对下游LLM有显著增益，并且在各种单跳和多跳QA任务中优于其他最先进的高级RAG和并发压缩方法。值得注意的是，与次佳方案相比， $textit{Refiner}$ 在多跳任务中实现了 80.5% 的标记减少和 1.6-7.0% 的改进幅度。 $textit{Refiner}$ 是一种即插即用的解决方案，可以与RAG系统无缝集成，从而促进其在各种开源框架中的应用。

39.Self-training Large Language Models through Knowledge Detection

标题:通过知识检测自我训练大型语言模型

author:Wei Jie Yeo, Teddy Ferdinan, Przemyslaw Kazienko, Ranjan Satapathy, Erik Cambria

publish:Under review

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11275v1

摘要：
大型语言模型（LLM）通常需要大量的标注数据集和训练计算，才能在下游任务中取得令人印象深刻的性能。本文探讨了一种自我训练范式，即 LLM 自主整理自己的标签，并选择性地在通过无参照一致性方法确定的未知数据样本上进行训练。经验评估表明，在减少多个受试者的幻觉生成方面取得了显著改善。此外，选择性训练框架减轻了分布外基准中的灾难性遗忘，解决了 LLM 训练中的一个关键局限。我们的研究结果表明，这种方法可以大大降低对大型标注数据集的依赖，为更具扩展性和成本效益的语言模型训练铺平道路。

40.Mitigating Large Language Model Hallucination with Faithful Finetuning

标题:用忠实微调缓解大型语言模型的幻觉

author:Minda Hu, Bowei He, Yufei Wang, Liangyou Li, Chen Ma, Irwin King

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11267v1

摘要：
大型语言模型（LLM）在各种自然语言处理任务中表现出了卓越的性能。然而，它们容易产生流畅但不真实的反应，即所谓的 “幻觉”。幻觉会导致错误信息的传播，并在关键应用中造成危害。减少幻觉具有挑战性，因为产生幻觉的因素包括数据嘈杂、模型过于自信、缺乏知识以及生成过程本身。最近，人们试图通过表征编辑和解码算法来解决这一问题，从而在不对结构进行重大改变或重新训练的情况下减少幻觉。然而，这些方法要么隐含地编辑 LLM 在潜在空间中的行为，要么抑制解码过程中输出不真实结果的倾向，而不是明确地对幻觉进行建模。在这项工作中，我们引入了 “忠实微调”（Faithful Finetuning，F2），这是一种新颖的方法，在微调过程中通过精心设计的损失函数对忠实问题解答过程进行明确建模。我们在流行的数据集上进行了广泛的实验，证明 F2 与虚构模型和基线相比取得了显著的改进。

41.TIFG: Text-Informed Feature Generation with Large Language Models

标题:TIFG：利用大型语言模型生成文本信息特征

author:Xinhao Zhang, Jinghan Zhang, Fengran Mo, Yuzhong Chen, Kunpeng Liu

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11177v1

摘要：
数据的文本信息对于数据挖掘和特征工程至关重要。然而，现有的方法侧重于学习数据结构，而忽略了数据中的文本信息。因此，这些方法浪费了这一宝贵的资源，也忽略了文本中蕴含的深层数据关系。本文介绍了文本信息特征生成（TIFG），这是一种基于 LLM 的新颖文本信息特征生成框架。TIFG 利用检索增强生成（RAG）技术检索外部知识中可能存在的相关特征，从而利用文本信息生成特征。通过这种方法，TIFG 可以生成新的可解释特征，从而丰富特征空间并进一步挖掘特征关系。我们将 TIFG 设计成一个自动化框架，它能不断优化特征生成过程，适应新的数据输入，并在迭代过程中提高下游任务的性能。在各种下游任务中进行的广泛实验表明，我们的方法可以生成高质量、有意义的特征，而且明显优于现有方法。

42.RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents

标题:RePrompt：大型语言模型代理的自动提示工程规划

author:Weizhe Chen, Sven Koenig, Bistra Dilkina

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11132v1

摘要：
在过去的一年里，大型语言模型（LLM）在传统自然语言处理之外的领域取得了令人瞩目的成就，人们开始探索在代码生成、旅行规划和机器人控制等更通用、更贴近应用的领域使用 LLM。将这些 LLM 与强大的能力和外部工具连接起来，人们正在构建所谓的 LLM 代理，以帮助人们完成日常生活中的各种工作。在所有这些领域中，对 LLM 的提示已被证明会对 LLM 生成的内容产生很大影响，从而影响 LLM 代理的性能。因此，自动提示工程已成为许多 LLM 研究人员和用户面临的一个重要问题。在本文中，我们提出了一种新方法–textsc{RePrompt}，它可以根据与 LLM 代理交互时获得的聊天记录，通过 "梯度下降 "来优化 LLM 代理提示中的分步指示。通过优化提示，LLM 将学会如何在特定领域进行规划。我们在 PDDL 生成和旅行规划方面的实验表明，当使用更新后的提示作为初始提示时，我们的方法可以普遍提高不同推理任务的性能。

43.From Intentions to Techniques: A Comprehensive Taxonomy and Challenges in Text Watermarking for Large Language Models

标题:从意图到技术：大型语言模型文本水印的综合分类与挑战

author:Harsh Nishant Lalai, Aashish Anantha Ramakrishnan, Raj Sanjay Shah, Dongwon Lee

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11106v1

摘要：
随着大型语言模型（LLM）的快速发展，保护文本内容免遭未经授权的使用至关重要。文本水印提供了一种重要的解决方案，既能保护 LLM 生成的文本，也能保护纯文本源。本文通过对研究文献的全面调查，对设计水印技术背后的不同视角进行了统一概述。我们的工作有两个主要优势：(1) 我们根据不同水印技术背后的具体意图、使用的评估数据集、水印添加和去除方法对研究进行分析，从而构建一个有内涵的分类法。(2) 我们强调了文本水印领域的空白和挑战，以促进保护文本作者身份的研究。这种广泛的覆盖面和详细的分析使我们的工作与众不同，为语言模型中文本水印的不断发展提供了宝贵的见解。

44.MICL: Improving In-Context Learning through Multiple-Label Words in Demonstration

标题:MICL：通过示范中的多标签词改进上下文学习

author:Zhu Zixiao, Feng Zijian, Zhou Hanzhang, Qian Junlang, Mao Kezhi

publish:13 pages, 7 figures

date Time:2024-06-16

paper pdf:http://arxiv.org/pdf/2406.10908v1

摘要：
上下文学习（ICL）使大型语言模型（LLM）能够通过使用样本标签对作为示范来执行新任务。然而，示范的不同会导致性能的显著差异。目前的研究主要集中在示范样本的选择上，在创建样本-标签对时预先假定类名是标签词。然而，标签词的选择对 ICL 性能至关重要。此外，我们还发现，在演示中使用单一类名可能无法获得最佳结果。在本文中，我们建议在一个样本-标签对中使用多个标签词来提高 ICL 性能。此外，我们还根据 LLM 的输出分布来选择和排列样本标签对，旨在从样本和标签的角度优化演示示例。在七个分类数据集上的评估结果表明，通过对多个标签词的选择、排序和数量进行策略性组织，可以通过多样化的标签信息提高 ICL 性能。

45.Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization

标题:Tender：通过张量分解和运行时重构加速大型语言模型

author:Jungi Lee, Wonbeom Lee, Jaewoong Sim

publish:To appear at the 51st International Symposium on Computer
Architecture (ISCA 2024)

date Time:2024-06-16

paper pdf:http://arxiv.org/pdf/2406.12930v1

摘要：
大型语言模型（LLM）在机器学习的各种任务中表现出卓越的性能，因此已成为当今计算领域最重要的工作负载之一。然而，由于庞大的模型规模和在整数流水线中运行的难度，对计算和内存的要求很高，因此部署 LLM 推断带来了挑战。在本文中，我们介绍了一种算法-硬件协同设计解决方案 Tender，它能在低精度条件下高效部署 LLM 推理。基于对 LLM 中离群值的分析，我们提出了一种分解量化技术，其中分解矩阵的比例因子相差 2 的幂。采用所提出的方案，我们可以在累积分解矩阵的部分和时避免明确的重新量化（即去量化/量化），只需对商品张量计算硬件进行最小化扩展。我们的评估表明，与最先进的方法相比，Tender 实现了更高的精度和推理性能，同时对现有加速器的干扰也大大降低。

46.Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities

标题:用多个问题同时评估 LLM：探究 LLM 能力的新范例

author:Zhengxiang Wang, Jordan Kodner, Owen Rambow

publish:20 pages, 15 figures, 9 tables

date Time:2024-06-16

paper pdf:http://arxiv.org/pdf/2406.10786v1

摘要：
目前的 LLM 评估主要是针对由单一问题组成的提示进行评估。我们建议将多问题评估作为研究 LLM 处理多问题能力的另一种方法。在这方面，我们对 7 款 LLM 进行了系统研究，全面考察了由 6 个分类基准构建的 4 种相关任务类型。这 4 种任务类型包括传统的单一问题任务、同质的多问题任务以及嵌入多问题任务的两种索引选择任务。我们发现，LLM 是称职的多问题求解器：它们在多问题任务中的表现（几乎）与在单问题任务中的表现一样好。此外，与通常的预期相反，它们在长输入时通常不会出现位置偏差。这使得多问题提示成为一种简单而经济的提示方法，具有重要的实际意义。然而，我们的研究结果也有力地表明，LLMs 缺乏真正的理解能力：在不同的评估设置下，它们在两个索引选择任务中的表现明显不如在多问题任务中的表现，尽管它们在一般情况下确实可以进行索引选择。