AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.05.25-2024.05.31

最新推荐文章于 2025-05-13 20:33:05 发布

小小帅AIGC

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量1.7k

点赞数 23

分类专栏： LLMs论文时报文章标签：人工智能语言模型自然语言处理 LLM 深度学习大语言模型论文推送

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139469524

版权

LLMs论文时报专栏收录该内容

62 篇文章

订阅专栏

文章目录～

1.Direct Alignment of Language Models via Quality-Aware Self-Refinement
2.Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training
3.Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement
4.Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models
5.Leveraging Large Language Models for Entity Matching
6.GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models
7.Towards Ontology-Enhanced Representation Learning for Large Language Models
8.Evaluating Large Language Model Biases in Persona-Steered Generation
9.Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use
10.PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization
11.A Survey Study on the State of the Art of Programming Exercise Generation using Large Language Models
12.Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs
13.GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning
14.Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts
15.SLM as Guardian: Pioneering AI Safety with Small Language Models
16.Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation
17.Why Larger Language Models Do In-context Learning Differently?
18.Quo Vadis ChatGPT? From Large Language Models to Large Knowledge Models
19.Preference Learning Algorithms Do Not Learn Preference Rankings
20.X-VILA: Cross-Modality Alignment for Large Language Model
21.LLMs Meet Multimodal Generation and Editing: A Survey
22.Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
23.Recent Advances of Foundation Language Models-based Continual Learning: A Survey
24.Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models
25.IAPT: Instruction-Aware Prompt Tuning for Large Language Models
26.ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator
27.Large Language Model-Driven Curriculum Design for Mobile Networks
28.Exploring Context Window of Large Language Models via Decomposed Positional Vectors
29.Tool Learning with Large Language Models: A Survey
30.Video Enriched Retrieval Augmented Generation Using Aligned Video Captions
31.NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
32.PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends
33.On the Noise Robustness of In-Context Learning for Text Generation
34.Assessing LLMs Suitability for Knowledge Graph Completion
35.SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself

1.Direct Alignment of Language Models via Quality-Aware Self-Refinement

标题:通过质量意识自我定义直接对齐语言模型

author:Runsheng Yu, Yong Wang, Xiaoqi Jiao, Youzhi Zhang, James T. Kwok

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.21040v1

摘要：
从人类反馈中强化学习（RLHF）通常用于使大型语言模型（LLM）的行为与人类偏好相一致。最近，一种流行的替代方法是直接策略优化（DPO），它用策略本身取代了基于 LLM 的奖励模型，从而省去了学习奖励模型所需的额外记忆和训练时间。然而，DPO 并不考虑正面和负面反应的相对质量，因此可能导致次优的训练结果。为了缓解这一问题，我们研究了在即时微调 LLM 中使用内在知识来获取相对质量，并帮助完善损失函数。具体来说，我们利用 LLM 的知识来设计一个细化函数，以估计正面和负面响应的质量。我们证明，所构建的细化函数可以在温和的假设条件下帮助自我细化损失函数。细化函数被集成到 DPO 及其变体身份策略优化（IPO）中。对各种评价器的实验表明，与 DPO 和 IPO 相比，它们可以提高微调模型的性能。

2.Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training

标题:利用自适应对抗训练增强检索增强语言模型的噪声鲁棒性

author:Feiteng Fang, Yuelin Bai, Shiwen Ni, Min Yang, Xiaojun Chen, Ruifeng Xu

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20978v1

摘要：
大型语言模型（LLM）具有强大的功能，但也遇到了一些挑战，包括幻觉、过时的知识和无法追踪的推理过程。检索增强生成（RAG）是一种很有前途的解决方案，它整合了外部数据库的知识，以减轻这些挑战。然而，不恰当的检索段落可能会阻碍 LLM 生成全面、高质量回复的能力。之前关于检索噪声鲁棒性的 RAG 研究往往局限于有限的噪声类型，偏离了真实世界的检索环境，限制了实际应用性。在本研究中，我们初步调查了检索噪声，并将其分为三种不同类型，以反映真实世界的环境。我们分析了这些不同检索噪声对 LLM 稳健性的影响。随后，我们提出了一种新颖的 RAG 方法，即检索增强自适应对抗训练（RAAT）。RAAT 利用自适应对抗训练来动态调整模型的训练过程，以应对检索噪声。与此同时，它还采用多任务学习来确保模型内部识别噪声上下文的能力。大量实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在各种噪声条件下的 F1 和 EM 分数都有显著提高。为了实现可重复性，我们在 https://github.com/calubkk/RAAT 发布了我们的代码和数据。

3.Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement

标题:揭示词法敏感性：组合优化以提高提示能力

author:Pengwei Zhan, Zhen Xu, Qian Tan, Jie Song, Ru Xie

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20701v1

摘要：
大型语言模型（LLM）在完成各种下游任务时表现出卓越的指令跟踪能力。虽然这种令人印象深刻的能力使 LLMs 成为灵活的任务解决者，但它们在解决任务时的表现也在很大程度上依赖于指令。在本文中，我们揭示了 LLMs 对任务指令中的词汇变化过于敏感，即使这些变化是人类无法察觉的。通过为模型提供邻近的指令，这些指令在潜在表征空间中的位置非常接近，并且只有一个语义相似的单词不同，下游任务的性能就会大不相同。根据这一特性，我们提出了一个用于提示词法增强的黑盒子组合优化框架（COPLE）。COPLE 根据一批代理任务的反馈，使用与单词影响力相关的搜索策略执行迭代词法优化。实验表明，即使是针对当前基准广泛使用的人工创建的提示也会受到模型词性敏感性的影响，而 COPLE 则能在指令跟随和解决下游任务中恢复下降的模型能力。

4.Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models

标题:在使用大型语言模型进行问题解答时，针对特定段落的提示进行调整以实现段落重排

author:Xuyang Wu, Zhiyuan Peng, Sravanthi Rajanala, Hsin-Tai Wu, Yi Fang

publish:Accepted at Gen-IR@SIGIR24

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20654v1

摘要：
在开放域问题解答任务中，有效的段落检索和重排方法已被广泛用于识别合适的候选段落，最近的研究则借助 LLMs，通过以每个段落为条件的问题的对数可能性对检索到的段落进行重排。虽然这些方法取得了可喜的成果，但其性能对人工编写的提示（或硬提示）非常敏感，而且对 LLM 进行微调需要大量的计算和时间。此外，这种方法还限制了利用问题-段落相关性对和特定段落知识来增强 LLM 的排序能力。在本文中，我们提出了用于开放域问题解答（PSPT）中重新排序的特定段落提示调优方法：这是一种参数效率高的方法，可对可学习的特定段落软提示进行微调，并从有限的问题-段落相关性对中纳入特定段落知识。该方法根据以每个段落和学习到的软提示为条件生成问题的模型的对数概率，对检索到的段落进行排序。我们利用 Llama-2-chat-7B 模型在三个公开的开放域问题解答数据集上进行了大量实验，结果证明了所提方法的有效性。

5.Leveraging Large Language Models for Entity Matching

标题:利用大型语言模型进行实体匹配

author:Qianyu Huang, Tongfang Zhao

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20624v1

摘要：
实体匹配（EM）是数据集成中的一项关键任务，旨在识别不同数据集中指向相同现实世界实体的记录。传统的方法通常依赖于人工设计的特征和基于规则的系统，这在处理多样化和非结构化数据时非常吃力。大型语言模型（LLM）（如 GPT-4）的出现为 EM 提供了变革性的潜力，利用其先进的语义理解和上下文能力。这篇展望论文探讨了 LLM 在 EM 中的应用，讨论了它们的优势、挑战和未来研究方向。此外，我们还回顾了将弱监督和无监督方法应用于电磁学的相关工作，重点介绍了 LLM 如何增强这些方法。

6.GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models

标题:GAMedX：使用大型语言模型的基于人工智能的生成式医学实体数据提取器

author:Mohammed-Khalil Ghali, Abdelrahman Farrag, Hajar Sakai, Hicham El Baz, Yu Jin, Sarah Lam

date Time:2024-05-31

paper pdf:http://arxiv.org/pdf/2405.20585v1

摘要：
在快速发展的医疗保健及其他领域，将生成式人工智能集成到电子健康记录（EHR）中代表了一项关键的进步，解决了当前信息提取技术中的一个关键缺口。本文介绍了 GAMedX，这是一种命名实体识别（NER）方法，利用大语言模型（LLMs）从患者在医院就诊的各个阶段产生的医疗叙述和非结构化文本中有效地提取实体。通过应对处理非结构化医疗文本的重大挑战，GAMedX 利用生成式人工智能和大型语言模型的功能改进了数据提取。该方法采用统一的方法，将开源 LLMs 集成到 NER 中，利用链式提示和 Pydantic 模式进行结构化输出，从而驾驭复杂的专业医学术语。研究结果表明，在其中一个评估数据集上，ROUGE F1得分很高，准确率达到98%。这项创新增强了实体提取能力，为从非结构化数据中自动填写表格提供了一个可扩展、经济高效的解决方案。因此，GAMedX 简化了对非结构化叙述的处理，并为 NER 应用设定了新标准，为医学技术领域以外的理论和实践进步做出了重大贡献。

7.Towards Ontology-Enhanced Representation Learning for Large Language Models

标题:实现大型语言模型的本体增强表征学习

author:Francesco Ronzano, Jay Nanavati

publish:14 pages, 1 figure

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20527v1

摘要：
本体被广泛用于组织和协调多个不同领域的知识，利用这一优势，本文提出了一种新方法，通过注入参考本体形式化的知识来改进相关的嵌入式大语言模型（embedding-LLM）：注入本体知识的目的是提高所考虑的 LLM 的能力，使其能够有效地模拟注入本体所描述的知识领域。在功能强大的生成式 LLM（即 GPT-3.5-turbo）的帮助下，本体形式化的语言信息（即概念同义词和描述）和结构信息（即 is-a 关系）被用来编制一套全面的概念定义。然后利用这些概念定义，通过对比学习框架对目标嵌入式 LLM 进行微调。为了演示和评估所提出的方法，我们使用了生物医学疾病本体 MONDO。结果表明，通过疾病本体知识增强的嵌入式 LLM 在有效评估生物医学文档中提及疾病的域内句子的相似性方面表现出了更强的能力，而不会影响其域外性能。

8.Evaluating Large Language Model Biases in Persona-Steered Generation

标题:评估角色分层生成中的大型语言模型偏差

author:Andy Liu, Mona Diab, Daniel Fried

publish:Accepted to Findings of ACL 2024. Code and data available at
https://github.com/andyjliu/persona-steered-generation-bias

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20253v1

摘要：
以角色为导向的文本生成任务要求大型语言模型（LLM）生成的文本能够反映符合角色的个人可能拥有的观点分布。人的角色是多方面的，但之前关于 LLM 生成的意见中的偏差的研究只探讨了多选设置或一维角色。我们将不协调角色定义为具有多种特征的角色，其中一种特征会降低其他特征在人类调查数据中出现的可能性，例如支持增加军费开支的政治自由主义者。我们发现，LLMs 对不协调角色的引导比对协调角色的引导少 9.7%，有时会产生与其人口统计相关的刻板立场，而不是目标立场。我们所评估的模型中，使用 “人的反馈强化学习”（RLHF）进行微调的模型的可转向性更强，尤其是在与政治自由派和女性相关的立场上，但对角色的不同看法却明显较少。我们还发现了 LLM 转向性的差异，而这种差异是无法从多项选择的意见评估中预测出来的。我们的研究结果表明了在开放式文本生成中评估模型的重要性，因为这可以发现新的 LLM 观点偏差。此外，这样的设置还能让我们了解自己是否有能力将模型导向更丰富、更多样的观点。

9.Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

标题:检索增强结构化生成：作为工具使用的商业文档信息提取

author:Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo

publish:Accepted by IEEE 7th International Conference on Multimedia
Information Processing and Retrieval (MIPR), 2024

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20245v1

摘要：
商业文档信息提取（BDIE）是将大量非结构化信息（原始文本、扫描文档等）转化为下游系统可以解析和使用的结构化格式的问题。它有两个主要任务：关键信息提取（KIE）和行项目识别（LIR）。在本文中，我们认为 BDIE 最好被建模为工具使用问题，其中的工具就是这些下游系统。然后，我们提出了检索增强结构化生成（RASG），这是一种用于 BDIE 的新型通用框架，它在 BDIE 基准上的 KIE 和 LIR 任务中都取得了最先进（SOTA）的结果。本文有三方面的贡献：(1) 我们利用消融基准表明，在 BDIE 基准上，使用 RASG 的大型语言模型 (LLM) 已经可以与目前不使用 RASG 的 SOTA 大型多模态模型 (LMM) 相媲美，甚至更胜一筹。(2) 我们提出了一种新的行项目识别度量类别–通用行项目识别度量（GLIRM），与 ANLS*、DocILE 和 GriTS 等现有度量相比，它更符合实际的 BDIE 用例。(3) 我们提供了一种启发式算法，用于在不需要视觉编码器的情况下反算预测行项目和表格的边界框。最后，我们认为，虽然 LMM 有时可能会带来微不足道的性能优势，但考虑到 BDIE 的实际应用和限制因素，LMM + RASG 往往更胜一筹。

10.PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization

标题:博士后：利用深度次模态优化从长多模态文档中生成海报

author:Vijay Jaisankar, Sambaran Bandyopadhyay, Kalp Vyas, Varre Chaitanya, Shwetha Somasundaram

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20213v1

摘要：
长篇输入文档的海报可以被视为一页易读的多模态（文本和图像）摘要，以具有良好设计元素的精美模板呈现。将长文档自动转换成海报是一项研究较少但极具挑战性的任务。它包括对输入文档进行内容摘要，然后生成模板并进行统一。在这项工作中，我们提出了一种新颖的深度子模态函数，该函数可在地面实况摘要上进行训练，以从文档中提取多模态内容，并明确确保文本和图像的良好覆盖性、多样性和对齐性。然后，我们使用基于 LLM 的解析器，并建议根据输入内容生成具有各种设计方面的模板。通过广泛的自动和人工评估，我们展示了我们方法的优点。

11.A Survey Study on the State of the Art of Programming Exercise Generation using Large Language Models

标题:使用大型语言模型生成编程练习的现状调查研究

author:Eduard Frankford, Ingo Höhn, Clemens Sauerwein, Ruth Breu

publish:5 pages, 0 figures, CSEE&T 2024

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20183v1

摘要：
本文分析了大型语言模型（LLM）的编程练习生成能力。通过调查研究，我们界定了目前的技术水平，提取了它们的优缺点，最后提出了一个评估矩阵，帮助研究人员和教育工作者决定哪种 LLM 最适合编程练习生成用例。我们还发现，多种 LLM 都能生成有用的编程练习。然而，也存在一些挑战，比如 LLM 能否轻松解决由 LLM 生成的练习。本文将为当前关于将 LLMs 融入教育的讨论做出贡献。

12.Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning CodeLLMs

标题:Robo-Instruct：用于微调代码LLM 的模拟器增强指令排列

author:Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20179v1

摘要：
大型语言模型（LLM）在根据特定领域的机器人应用程序接口（API）从自然语言生成机器人程序方面显示出巨大的潜力。然而，专有 LLM 与较小的开放式 LLM 之间的性能差距仍然很大。这就提出了一个问题：我们能否对用于生成特定领域机器人程序的小型开放式 LLM 进行微调，以缩小与专有 LLM 之间的性能差距？虽然 “自我构建”（Self-Instruct）是一个很有前途的解决方案，它可以生成各种训练数据集，但却无法验证这些程序的正确性。与此相反，具有明确定义世界的机器人模拟器可以识别执行错误，但却限制了其可验证程序的多样性。在这项工作中，我们引入了机器人构造，它带来了两个世界的最佳效果–既促进了自我构造的多样性，又提供了基于模拟器的正确性检查。Robo-Instruct 引入了 RoboSim，通过推断与被检查程序相关的属性，并模拟相应的操作，在运行中合成一致的世界状态。此外，Self-Instruct 生成的指令和程序可能存在微妙的不一致性，例如程序缺少指令中隐含的一个步骤。Robo-Instruct 通过 InstAlign 进一步解决了这一问题，InstAlign 是一种指令-程序对齐程序，可修改任务指令，以反映生成程序的实际结果。只需提供一些种子任务说明和机器人应用程序接口，Robo-Instruct 就能生成一个训练数据集，只需使用一个小的开放权重模型。然后，该数据集可用于微调小型开放权重语言模型，使其性能与 GPT-3.5-Turbo 和 Gemini-Pro 等几种专有 LLM 相媲美，甚至超过它们。

13.GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning

标题:GNN-RAG：用于大型语言模型推理的图神经检索

author:Costas Mavromatis, George Karypis

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.20139v1

摘要：
知识图谱（KG）以三元组（头、关系、尾）的形式表示人类创造的事实知识，三元组共同构成一个图谱。知识图谱上的问题解答（KGQA）是根据知识图谱提供的信息回答自然问题的任务。大语言模型（LLMs）因其理解自然语言的卓越能力而成为最先进的 QA 任务模型。另一方面，图神经网络（GNN）可以处理存储在幼稚园中的复杂图信息，因此被广泛用于幼稚园质量评估。在这项工作中，我们引入了 GNN-RAG，这是一种将 LLM 的语言理解能力与 GNN 的推理能力相结合的新方法，采用了检索增强生成（RAG）方式。首先，GNN 会对密集的 KG 子图进行推理，以检索给定问题的候选答案。其次，提取 KG 中连接问题实体和候选答案的最短路径来表示 KG 推理路径。提取的路径被口头化并作为 RAG 的 LLM 推理输入。在我们的 GNN-RAG 框架中，GNN 充当密集子图推理器来提取有用的图信息，而 LLM 则利用其自然语言处理能力来实现最终的 KGQA。此外，我们还开发了一种检索增强（RA）技术，利用 GNN-RAG 进一步提高 KGQA 性能。实验结果表明，GNN-RAG 在两个广泛使用的 KGQA 基准（WebQSP 和 CWQ）中实现了最先进的性能，其性能超过或赶上了采用 7B 调整 LLM 的 GPT-4 性能。此外，GNN-RAG 在多跳和多实体问题上表现出色，在答案 F1 上比竞争方法高出 8.9-15.5% 个百分点。

14.Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts

标题:相似并不是你所需要的全部：用多层次思维赋予检索增强型生成功能

author:Chunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou

publish:12 pages

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.19893v1

摘要：
近年来，大型语言模型（LLM）在各个领域都取得了令人瞩目的成就。然而，知识更新的不及时性和成本以及 LLMs 的幻觉问题限制了它们在知识密集型任务中的应用，而检索增强生成（RAG）则可以在这方面有所帮助。然而，现有的检索增强模型通常使用相似性作为查询和文档之间的桥梁，并遵循先检索后阅读的流程。在这项工作中，我们认为相似性并不总是万能的，完全依赖相似性有时会降低检索增强生成的性能。为此，我们提出了一个多层级相似度增强型检索增强生成框架–MetRag。首先，在现有的以相似性为导向的思想之外，我们引入了一个小规模的实用性模型，该模型从面向实用性思想的 LLM 中汲取监督，并通过全面结合相似性和实用性思想，进一步提出了一个更智能的模型。此外，鉴于检索到的文档集往往非常庞大，孤立地使用它们很难捕捉到它们之间的共性和特性，我们建议将 LLM 作为任务自适应摘要器，赋予检索增强生成以紧凑性为导向的思想。最后，通过前几个阶段的多层次思考，LLM 可用于知识增强生成。对知识密集型任务的大量实验证明了 MetRag 的优越性。

15.SLM as Guardian: Pioneering AI Safety with Small Language Models

标题:作为监护人的 SLM：利用小型语言模型开创人工智能安全先河

author:Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.19795v1

摘要：
之前对大型语言模型（LLMs）的安全研究大多集中在增强 LLMs 的对齐度，以更好地适应人类的安全要求。然而，将这些保障功能内化到大型模型中会带来更高的训练成本和无意中降低有用性的挑战。为了克服这些挑战，在设计具有安全要求的基于 LLM 的系统时，使用较小的 LLM 来检测有害的用户查询被认为是一种方便的模块化方法。在本文中，我们利用较小的 LLM 进行有害查询检测和安全响应生成。我们介绍了安全要求和有害性类别分类法，然后提出了一种多任务学习机制，将这两项任务融合为一个模型。我们证明了我们的方法的有效性，与公开可用的 LLM 相比，我们的有害查询检测和保障响应性能不相上下，甚至有过之而无不及。

16.Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation

标题:超越模仿：从推理蒸馏的双重思维链中学习关键推理步骤

author:Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.19737v1

摘要：
随着大型语言模型（LLMs）的扩展并获得强大的思维链（CoTs）推理能力，实际资源的限制促使人们努力将这些能力提炼成更紧凑的小型语言模型（SLMs）。我们发现，CoTs 主要由简单的推理形式组成，真正影响结论的关键推理步骤只占一小部分（约 4.7%）。然而，以往的提炼方法通常只在教师 LLM 生成的正确 CoTs 数据上对学生 SLM 进行监督微调，导致学生难以学习关键推理步骤，反而模仿教师的推理形式，在这些步骤上出现错误或遗漏。为了解决这些问题，我们类比人类的学习，根据正确的解决方案分析错误往往能揭示导致成功或失败的关键步骤，因此我们提出了错误（textbf{E}-\textbf{D}）驱动的关键推理步骤分解（textbf{I}ng step distilla\textbf{T}ion (\textbf{EDIT})，这是一种新颖的方法，能进一步帮助 SLMs 学习关键推理步骤，而不仅仅是简单的微调。首先，为了揭示 CoTs 中的这些关键步骤，我们设计了特定的提示来生成推理路径相似但结论不同的双 CoTs 数据。然后，我们在双CoTs数据上应用最小编辑距离算法来定位这些关键步骤，并优化这些步骤的可能性。广泛的实验验证了 EDIT 在域内和域外基准推理数据集上的有效性。进一步的分析表明，EDIT 可以生成具有更多正确关键推理步骤的高质量 CoT。值得注意的是，我们还探索了不同错误模式对性能的影响，并发现在双CoT中，EDIT从逻辑错误中获益的程度要高于从知识或数学计算错误中获益的程度。

17.Why Larger Language Models Do In-context Learning Differently?

标题:为什么大型语言模型在进行语境学习时会有所不同？

author:Zhenmei Shi, Junyi Wei, Zhuoyan Xu, Yingyu Liang

date Time:2024-05-30

paper pdf:http://arxiv.org/pdf/2405.19592v1

摘要：
大型语言模型（LLM）已成为人工智能的强大工具，其关键能力是上下文学习（ICL），即基于一系列简短的任务示例，无需对模型参数进行任何调整，就能在未见过的任务中表现出色。最近发现的一个有趣的神秘现象是，不同规模的模型可能具有不同的 ICL 行为：规模较大的模型往往对测试上下文中的噪声更敏感。这项工作从理论上研究了这一观察结果，旨在加深对 LLM 和 ICL 的理解。我们分析了两种风格化的设置：(1) 使用单层单头线性变换器的线性回归；(2) 使用双层多头注意力变换器（非线性数据和非线性模型）的奇偶分类。在这两种情况下，我们都给出了闭式最优解，并发现较小的模型能强调重要的隐藏特征，而较大的模型则能覆盖更多的隐藏特征；因此，较小的模型对噪声更有鲁棒性，而较大的模型则更容易分散注意力，从而导致不同的 ICL 行为。这揭示了变压器的关注点以及这对 ICL 的影响。在大型基础模型和聊天模型上的初步实验结果为我们的分析提供了积极的支持。

18.Quo Vadis ChatGPT? From Large Language Models to Large Knowledge Models

标题:ChatGPT 何去何从？从大型语言模型到大型知识模型

author:Venkat Venkatasubramanian, Arijit Chakraborty

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19561v1

摘要：
ChatGPT 和其他使用基于变压器的生成神经网络架构的大型语言模型 (LLM) 在自然语言处理和图像合成等应用领域取得了惊人的成功，这让许多研究人员对流程系统工程 (PSE) 的潜在机遇感到兴奋。LLM 在这些领域中几乎与人类无异的表现确实令人印象深刻，令人惊讶，是一项重大突破。它们的能力在某些任务中非常有用，如撰写文档初稿、协助编写代码、文本摘要等。然而，由于缺乏深入的领域知识，它们还不能进行推理、规划或解释，因此在高度科学的领域中，它们的成功是有限的。这在化学工程等领域是个问题，因为这些领域受物理和化学（以及生物学）基本定律、构成关系以及有关材料、工艺和系统的高技术知识的制约。尽管纯数据驱动的机器学习有其直接用途，但人工智能在科学和工程领域的长期成功将取决于能否开发出有效利用第一原理和技术知识的混合人工智能系统。我们称这些混合人工智能系统为大型知识模型（LKM），因为它们将不仅仅局限于基于 NLP 的技术或类似 NLP 的应用。在本文中，我们将讨论在化学工程领域开发此类系统所面临的挑战和机遇。

19.Preference Learning Algorithms Do Not Learn Preference Rankings

标题:偏好学习算法无法学习偏好排名

author:Angelica Chen, Sadhika Malladi, Lily H. Zhang, Xinyi Chen, Qiuyi Zhang, Rajesh Ranganath, Kyunghyun Cho

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19534v1

摘要：
偏好学习算法（如 RLHF 和 DPO）经常被用来引导 LLM 生成更受人类偏好的生成物，但我们对其内在工作原理的了解仍然有限。在这项工作中，我们研究了传统的观点，即偏好学习会训练模型为更受偏好的输出分配比不受偏好的输出更高的可能性，这是通过 $\textit{ranking accuracy}$ 来衡量的。令人惊讶的是，我们发现大多数最先进的偏好调整模型在普通偏好数据集上的排序准确率低于 60%。此外，我们还得出了经过偏好调整的 LLM 在完美优化 DPO 或 RLHF 目标的情况下所能达到的 $\textit{理想化排序准确率}$ 。我们证明，现有模型表现出明显的 $textit{对齐差距}$ – $textit{即}$ ，观察到的排名准确率与理想化排名准确率之间存在差距。我们将这一差距归因于 DPO 目标，该目标在经验和理论上都不适合修正参考模型中的轻微排序错误，我们还得出了一个简单有效的公式，用于量化学习给定偏好数据点的难度。最后，我们证明了当模型接近目标中使用的参考模型时，排序准确性与经验上流行的胜率指标密切相关，从而进一步揭示了政策内（如 RLHF）和政策外（如 DPO）偏好学习算法之间的差异。

20.X-VILA: Cross-Modality Alignment for Large Language Model

标题:X-VILA：大型语言模型的跨模态对齐

author:Hanrong Ye, De-An Huang, Yao Lu, Zhiding Yu, Wei Ping, Andrew Tao, Jan Kautz, Song Han, Dan Xu, Pavlo Molchanov, Hongxu Yin

publish:Technical Report

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19335v1

摘要：
我们介绍的 X-VILA 是一种全模态模型，旨在通过整合图像、视频和音频模态来扩展大型语言模型（LLM）的功能。通过将特定模态编码器与 LLM 输入对齐，将扩散解码器与 LLM 输出对齐，X-VILA 实现了跨模态理解、推理和生成。为了促进这种跨模态对齐，我们策划了一个有效的交错任意模态指令跟随数据集。此外，我们还发现当前的跨模态配准方法存在一个重大问题，即会导致视觉信息丢失。为了解决这个问题，我们提出了一种带有视觉嵌入高速公路模块的视觉配准机制。然后，我们介绍了一种用于训练 X-VILA 的资源节约型方法，X-VILA 在任意模态到任意模态的对话中均表现出色，大大超越了之前的方法。即使在没有类似训练数据的情况下，X-VILA 也能展示跨模态的新兴特性。该项目将开源。

21.LLMs Meet Multimodal Generation and Editing: A Survey

标题:LLM 满足多模态生成和编辑：调查

author:Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen

publish:51 Pages with 16 Figures, 12 Tables, and 534 References. GitHub
Repository at:
https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19334v1

摘要：
随着近年来大型语言模型（LLM）的发展，人们对将 LLM 与多模态学习相结合的兴趣与日俱增。以往对多模态大型语言模型（MLLMs）的研究主要集中在理解方面。本调查详细阐述了不同领域的多模态生成，包括图像、视频、三维和音频，并重点介绍了这些领域里程碑式作品的显著进展。具体来说，我们详尽研究了这些研究中使用的方法和多模态数据集背后的关键技术组件。此外，我们还深入研究了可利用现有生成模型进行人机交互的工具增强型多模态代理。最后，我们还全面讨论了人工智能安全方面的进展，并研究了新兴应用和未来前景。我们的工作对多模态生成进行了系统而深入的概述，有望推动生成内容人工智能（AIGC）和世界模型的发展。所有相关论文的编辑列表可在 https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation 上找到。

22.Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF

标题:价值激励的偏好优化：在线和离线 RLHF 的统一方法

author:Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai

date Time:2024-05-29

paper pdf:http://arxiv.org/pdf/2405.19320v1

摘要：
来自人类反馈的强化学习（RLHF）在使大型语言模型（LLMs）与人类偏好保持一致方面已显示出巨大的前景。根据偏好数据的可用性，在线和离线 RLHF 都是积极的研究领域。一个关键的瓶颈是，无论偏好数据是如何收集的，如何将不确定性估计纳入从偏好数据中学到的 RLHF 奖励函数中。虽然标准强化学习（RL）中已经确立了不确定性下的乐观或悲观原则，但由于在任意策略参数化条件下，构建置信区间的标准技术变得难以实现，因此目前还没有一种适合大型语言模型的可实际执行且有理论基础的形式。在本文中，我们介绍了一种在线和离线 RLHF 的统一方法–价值激励偏好优化（VPO）–该方法用相应的价值函数对奖励函数的最大似然估计进行正则化，并用 $\textit{sign}$ 进行调制，以表示选择乐观还是悲观。VPO 还能直接优化具有隐含奖励建模的政策，因此与直接偏好优化类似，共享更简单的 RLHF 流水线。VPO 为在线和离线设置提供了理论保证，与标准 RL 对应算法的速率相匹配。此外，文本摘要和对话实验也验证了 VPO 的实用性和有效性。

23.Recent Advances of Foundation Language Models-based Continual Learning: A Survey

标题:基于基础语言模型的持续学习的最新进展：调查

author:Yutao Yang, Jie Zhou, Xuanwen Ding, Tianyu Huai, Shunyu Liu, Qin Chen, Liang He, Yuan Xie

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18653v1

摘要：
最近，基础语言模型（LM）在自然语言处理（NLP）和计算机视觉（CV）领域取得了重大成就。与传统的神经网络模型不同，基础语言模型通过在具有大量参数的广泛无监督数据集上进行预训练，获取丰富的常识性知识，从而获得强大的迁移学习能力。然而，由于存在灾难性遗忘，它们仍然无法模拟类似人类的持续学习。因此，人们开发了各种基于持续学习（CL）的方法来完善 LM，使它们能够适应新任务而不遗忘以前的知识。然而，我们仍然缺乏对现有方法的系统分类以及对其性能的比较，而这正是我们的调查要填补的空白。我们全面回顾、总结和分类了应用于基础语言模型（如预训练语言模型 (PLM)、大型语言模型 (LLM) 和视觉语言模型 (VLM)）的基于 CL 方法的现有文献。我们将这些研究分为离线 CL 和在线 CL，其中包括传统方法、基于参数效率的方法、基于指令调整的方法和持续预训练方法。离线CL包括领域增量学习、任务增量学习和类增量学习，而在线CL又分为硬任务边界和模糊任务边界设置。此外，我们还概述了持续学习研究中使用的典型数据集和指标，并详细分析了基于 LMs 的持续学习所面临的挑战和未来的工作。

24.Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models

标题:释放文本属性图的潜力：通过大型语言模型自动分解关系

author:Hyunjin Seo, Taewon Kim, June Yong Yang, Eunho Yang

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18581v1

摘要：
通过使用语言模型的文本建模能力，文本属性图（TAG）的最新进展大大提高了节点特征的质量。尽管取得了这一成功，但利用文本属性来增强预定义的图结构在很大程度上仍未得到探索。我们的广泛分析表明，在以往的文献中，TAG 上的传统边被视为单一关系（如超链接），但实际上包含混合语义（如 "建议 "和 “参与”）。这种简化阻碍了图神经网络（GNN）在下游任务中的表征学习过程，即使在集成了高级节点特征的情况下也是如此。与此相反，我们发现将这些边分解为不同的语义关系能显著提高图神经网络的性能。尽管如此，手动识别边缘并将其标记为相应的语义关系仍是一项劳动密集型工作，通常需要领域专业知识。为此，我们引入了 RoSE（面向关系的语义边缘分解），这是一个新颖的框架，利用大语言模型（LLM）的能力，通过分析原始文本属性，以完全自动化的方式分解图结构。RoSE 分两个阶段运行：（1）使用基于 LLM 的生成器和判别器识别有意义的关系；（2）通过基于 LLM 的分解器分析与连接节点相关的文本内容，将每条边归类为相应的关系。广泛的实验证明，我们的模型无关框架显著提高了各种数据集的节点分类性能，在威斯康星数据集上的改进幅度高达 16%。

25.IAPT: Instruction-Aware Prompt Tuning for Large Language Models

标题:IAPT：针对大型语言模型的指令感知提示调整

author:Wei Zhu, Aaron Xuxiang Tian, Congrui Yin, Yuan Ni, Xiaoling Wang, Guotong Xie

publish:Accepted by ACL-2024

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18203v1

摘要：
软提示调整是一种被广泛研究的参数高效微调方法。然而，它有一个明显的缺点：必须在输入序列中插入许多软标记才能保证下游性能。因此，在大语言建模（LLM）时代，软提示调谐比低秩适应（LoRA）更少被考虑。在这项工作中，我们提出了一种新颖的提示调整方法–指令感知提示调整（IAPT），它只需要四个软标记。首先，我们在每个转换器层安装了一个参数高效的软提示生成器，为每个输入指令生成特异的软提示。生成的软提示可视为输入指令的语义总结，并能有效指导输出生成。其次，软提示生成器是具有瓶颈架构的模块，该架构由一个自注意池操作、两个线性投影和一个激活函数组成。先导实验表明，不同 Transformer 层的提示生成器需要不同的激活函数。因此，我们建议借助有理函数自动学习提示生成器的特异性激活函数。我们对各种任务进行了实验，实验结果表明：(a) 我们的 IAPT 方法在参数可调的情况下优于最近的基线方法。(b) 在单骨干多用户环境下，我们的 IAPT 方法比 LoRA 更有效。

26.ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator

标题:自动取款机逆向调整多代理系统制作出稳健的检索增强型生成器

author:Junda Zhu, Lingyong Yan, Haibo Shi, Dawei Yin, Lei Sha

publish:16 pages

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18111v1

摘要：
事实证明，大语言模型（LLM）从检索增强中获益良多，可以减轻面对知识密集型问题时产生的幻觉。检索增强生成（RAG）采用基于 IR 的技术，利用语义相关文档作为生成器的输入上下文，实现外部知识注入。然而，当今互联网上充斥着大量由 LLM 生成的内容，其中有太多 "相关但无用 "的文档，甚至是 LLM 捏造的虚假知识，这些都会给生成器带来额外的噪音，使其无法给出正确的结果。为此，我们将 RAG 生成器模型的训练视为一个多代理对抗防御系统，通过多代理对抗调整（ATM）系统引导生成器更好地了解特定文档是否有助于回答问题，从而增强生成器在 RAG 管道中的鲁棒性。经过一轮又一轮的多代理迭代调整，我们发现 ATM 生成器最终可以在 LLM 捏造的文档中分辨出有用的文档，并取得比强基线更好的性能。

27.Large Language Model-Driven Curriculum Design for Mobile Networks

标题:面向移动网络的大语言模型驱动课程设计

author:Omar Erak, Omar Alhussein, Shimaa Naser, Nouf Alabbasi, De Mi, Sami Muhaidat

publish:Submitted to Proc. IEEE/CIC ICCC

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18039v1

摘要：
本文提出了一个新颖的框架，利用大型语言模型（LLM）自动进行课程设计，从而提高强化学习（RL）在移动网络中的应用。随着移动网络向 6G 时代演进，管理其日益增长的复杂性和动态性带来了巨大挑战。由于移动网络的目标相互冲突、状态和行动空间巨大，传统的 RL 方法往往收敛缓慢、泛化能力差。为了解决这些问题，我们引入了课程学习法，这种方法能让 RL 代理系统地接触到逐渐具有挑战性的任务，从而提高收敛性和泛化能力。然而，课程设计通常需要大量的领域知识和人工操作。我们的框架利用 LLM 的生成能力来自动完成课程设计过程，从而缓解了这一问题，大大减少了人力，同时提高了 RL 代理的收敛性和性能。我们在模拟移动网络环境中部署了我们的方法，并证明了 RL 收敛率的提高、对未知场景的泛化以及整体性能的提升。作为案例研究，我们考虑了移动网络中的自主协调和用户关联。我们获得的结果凸显了将基于 LLM 的课程生成与 RL 相结合用于管理下一代无线网络的潜力，标志着向完全自主的网络运营迈出了重要一步。

28.Exploring Context Window of Large Language Models via Decomposed Positional Vectors

标题:通过分解位置向量探索大型语言模型的语境窗口

author:Zican Dong, Junyi Li, Xin Men, Wayne Xin Zhao, Bingbing Wang, Zhen Tian, Weipeng Chen, Ji-Rong Wen

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.18009v1

摘要：
基于变换器的大语言模型（LLM）通常具有有限的上下文窗口，因此在处理超出上下文窗口长度的文本时，性能会明显下降。为了扩展上下文窗口并实现 LLM 的长度外推，人们已经进行了大量研究，但仍然缺乏对这些方法的深入解读。在本研究中，我们探索了上下文窗口内外的位置信息，以破解 LLM 的内在机制。通过使用基于均值的分解方法，我们将位置向量与 LLMs 的隐藏状态分离开来，并分析了它们的形成及其对注意力的影响。此外，当文本超出上下文窗口时，我们分析了两种情况下位置向量的变化，即直接外推和上下文窗口扩展。根据研究结果，我们设计了两种免训练的语境窗口扩展方法，即位置向量替换和注意力窗口扩展。实验结果表明，我们的方法可以有效地扩展上下文窗口长度。

29.Tool Learning with Large Language Models: A Survey

标题:使用大型语言模型进行工具学习：调查

author:Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen

date Time:2024-05-28

paper pdf:http://arxiv.org/pdf/2405.17935v2

摘要：
最近，使用大型语言模型（LLMs）进行工具学习已成为一种很有前途的范式，它可以增强 LLMs 的能力，从而解决高度复杂的问题。尽管这一领域日益受到关注并取得了快速发展，但现有的文献仍然支离破碎，缺乏系统的组织，给新手造成了进入障碍。这一空白促使我们对使用 LLMs 进行工具学习的现有工作进行全面调查。在这项调查中，我们主要从两个方面回顾了现有文献：（1）为什么工具学习是有益的；（2）如何实施工具学习，从而全面了解使用 LLMs 进行工具学习的情况。我们首先探讨了 “为什么”，从六个具体方面回顾了工具集成的益处和工具学习范式的固有益处。在 "如何 "方面，我们根据工具学习工作流程中四个关键阶段的分类法系统地回顾了相关文献：任务规划、工具选择、工具调用和响应生成。此外，我们还详细总结了现有的基准和评估方法，并根据它们与不同阶段的相关性进行了分类。最后，我们讨论了当前面临的挑战，并概述了潜在的未来发展方向，旨在激励研究人员和工业开发人员进一步探索这一新兴且前景广阔的领域。我们还维护了一个 GitHub 存储库，以持续跟踪这一新兴领域的相关论文和资源，网址是 \url{https://github.com/quchangle1/LLM-Tool-Survey}。

30.Video Enriched Retrieval Augmented Generation Using Aligned Video Captions

标题:使用对齐的视频字幕进行视频丰富检索增强生成

author:Kevin Dela Rosa

publish:SIGIR 2024 Workshop on Multimodal Representation and Retrieval (MRR

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17706v1

摘要：
在这项工作中，我们提出使用 "对齐视觉字幕 "作为一种机制，将视频中包含的信息整合到基于检索增强生成（RAG）的聊天助手系统中。这些字幕能够描述大型语料库中视频的视音频内容，同时具有文本格式的优势，既易于推理并将其纳入大型语言模型（LLM）提示，又通常需要较少的多媒体内容插入多模态 LLM 上下文窗口，而典型的配置可以通过从源视频中采样视频帧来积极填充上下文窗口。此外，视觉字幕还可以通过提示原始基础模型/字幕制作者特定的视觉细节或微调来适应特定的使用情况。为了帮助推动这一领域的进展，我们策划了一个数据集，并介绍了常见 RAG 任务的自动评估程序。

31.NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

标题:NV-Embed：将 LLM 训练成通用嵌入模型的改进技术

author:Chankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17428v1

摘要：
在通用文本嵌入任务（包括基于密集向量的检索）中，基于解码器的纯大语言模型（LLM）嵌入模型的性能开始超过基于 BERT 或 T5 的嵌入模型。在这项工作中，我们引入了 NV-Embed 模型，并采用了多种架构设计和训练程序，以显著提高 LLM 作为通用嵌入模型的性能，同时保持其简单性和可重复性。在模型架构方面，我们提出了一个潜注意层来获得集合嵌入，与平均集合或使用 LLM 中最后一个标记嵌入相比，它能持续提高检索和下游任务的准确性。为了加强表征学习，我们在对比训练中去掉了 LLM 的因果注意掩码。在模型训练方面，我们引入了两阶段对比指令调整法。它首先在检索数据集上进行对比训练，利用批次内的否定和策划的硬否定示例。在第二阶段，它将各种非检索数据集融合到指令调整中，这不仅提高了非检索任务的准确性，还改善了检索性能。结合这些技术，我们的 NV-Embed 模型仅使用公开数据就获得了 69.32 的创纪录高分，在大规模文本嵌入基准（MTEB）（截至 2024 年 5 月 24 日）上排名第一，该基准包含 56 项任务，包括检索、重排、分类、聚类和语义文本相似性任务。值得注意的是，我们的模型还在 MTEB 基准（也称 BEIR）的 15 项检索任务中获得了 59.36 的最高分。我们将开源该模型，网址是：https://huggingface.co/nvidia/NV-Embed-v1。

32.PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends

标题:PAE：基于 LLM 的电子商务时尚趋势产品属性提取

author:Apurva Sinha, Ekta Gujral

publish:Attribute Extraction, PDF files, Bert Embedding, Hashtag, Large
Language Model (LLM), Text and Images

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17533v1

摘要：
产品属性提取是电子商务业务中一个不断发展的领域，有多种应用，包括产品排名、产品推荐、未来分类规划和改善在线购物客户体验。了解客户需求是在线业务（尤其是时尚产品）的关键部分。零售商利用分类规划来确定在每个商店和渠道提供的产品组合，对市场动态保持快速反应，并管理库存和目录。目标是通过正确的渠道提供正确的款式、尺寸和颜色。当购物者发现产品能满足他们的需求和愿望时，他们就更有可能在未来再次购买，从而提高客户忠诚度。产品属性是分类规划的关键因素。在本文中，我们介绍了一种产品属性提取算法 PAE，它适用于由 PDF 格式文本和图片组成的未来趋势报告。现有方法大多侧重于从标题或产品描述中提取属性，或利用现有产品图片中的视觉信息。与之前的工作相比，我们的工作侧重于从说明即将到来的时尚趋势的 PDF 文件中提取属性。这项工作提出了一个更全面的框架，充分利用不同的模式进行属性提取，帮助零售商提前规划商品种类。我们的贡献有三个方面：（a）我们开发了 PAE，这是一个从非结构化数据（文本和图像）中提取属性的高效框架；（b）我们提供了基于 BERT 表示法的目录匹配方法，以利用即将到来的属性值发现现有属性；（c）我们与多个基线进行了广泛的实验，结果表明 PAE 是一个有效、灵活且与现有最先进的属性值提取任务框架相当或更优（平均 92.5% F1-Score）的框架。

33.On the Noise Robustness of In-Context Learning for Text Generation

标题:论文本生成中上下文学习的噪声鲁棒性

author:Hongfu Gao, Feipeng Zhang, Wenyu Jiang, Jun Shu, Feng Zheng, Hongxin Wei

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17264v1

摘要：
大型语言模型（LLM）通过上下文学习（ICL）在下游任务中表现出了令人印象深刻的性能，而上下文学习在很大程度上依赖于从大量注释示例中选取的示范质量。最近的研究表明，在文本分类中，上下文学习对有噪声的示范具有鲁棒性。在这项工作中，我们发现在文本生成任务中，有噪声的注释会严重影响上下文学习的性能。为了规避这一问题，我们提出了一种简单有效的方法，即本地复杂度排序法（Local Perplexity Ranking，LPR），它可以用更有可能是干净的近邻来替换 "有噪声 "的候选对象。我们的方法是通过分析噪声标签造成的困惑度偏差，并将困惑度分解为固有困惑度和匹配困惑度。因此，我们在 LPR 背后的主要想法是通过在语义空间中对邻居进行排序来解除匹配困惑度。我们的方法可以防止被选中的演示包括不匹配的输入-标签对，同时保留原始选择方法的有效性。广泛的实验证明了 LPR 的有效性，它在具有噪声注释的常见基准上将 EM 分数提高了 18.75。

34.Assessing LLMs Suitability for Knowledge Graph Completion

标题:评估 LLM 是否适合知识图谱的完成

author:Vasile Ionut Remus Iga, Gheorghe Cosmin Silaghi

publish:Evaluating Mixtral-8x7B-Instruct-v0.1 and gpt-3.5-turbo-0125 for
Knowledge Graph Completion task with prompts formatted according to the TELeR
taxonomy

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17249v1

摘要：
最近的研究表明，大型语言模型（LLMs）有能力解决与知识图谱相关的任务，如知识图谱补全，甚至在零或少镜头范例中也能做到。然而，众所周知，它们会产生幻觉，或以非确定性的方式输出结果，从而导致错误推理的回答，即使它们满足了用户的需求。为了突出知识图谱相关任务中的机遇和挑战，我们在一个任务导向对话系统使用案例中，使用两个杰出的 LLM（即 Mixtral-8x7B-Instruct-v0.1 和 gpt-3.5-turbo-0125）进行了静态知识图谱的知识图谱完成实验，使用的是根据 TELeR 分类法构建的提示，在 "零 "和 "单次 "上下文中进行。在使用严格和灵活的度量测量方法进行评估时，我们的结果表明，如果提示包含足够的信息和相关示例，那么 LLM 可以胜任这样的任务。

35.SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself

标题:SelfCP：利用冰冻大语言模型本身将长提示压缩至 1/12

author:Jun Gao

date Time:2024-05-27

paper pdf:http://arxiv.org/pdf/2405.17052v1

摘要：
使用大型语言模型（LLM）时，较长的提示符会导致巨大的硬件成本。遗憾的是，许多任务（如摘要）不可避免地会引入较长的任务输入，而上下文学习（in-context learning）的广泛应用很容易使提示符长度爆炸式增长。受LLM语言理解能力的启发，本文提出了SelfCP，它利用LLM \textbf{itself}来将长\textbf{C}提示压缩成紧凑的虚拟标记。SelfCP 将一般的冻结 LLM 应用了两次，首先作为编码器压缩提示语，然后作为解码器生成回应。具体来说，给定一个长提示语，我们将特殊标记放在长段中进行压缩，并向 LLM 发出信号生成 $k$ 虚拟标记。之后，虚拟令牌与未压缩的提示语连接，并输入同一 LLM 以生成回复。一般来说，SelfCP 可以无条件和有条件地压缩提示音，既适合标准任务，也适合有特定目标的任务。由于编码器和解码器是冻结的，SelfCP 只包含 17M 可训练参数，可以方便地适应各种骨干网。我们用两个 LLM 主干网实现了 SelfCP，并在域内和域外任务中对其进行了评估。结果表明，压缩后的虚拟令牌可以有效替代 12 美元/倍的原始提示语。