2024年6月18日Arxiv人工智能相关论文

最新推荐文章于 2025-03-28 10:33:03 发布

数智笔记

最新推荐文章于 2025-03-28 10:33:03 发布

阅读量1.6k

点赞数 21

分类专栏：论文速递文章标签：人工智能

本文链接：https://blog.csdn.net/wjjc1017/article/details/139777601

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

cs.AI: MASAI: 软件工程 AI 智能体的模块化架构

原标题: MASAI: Modular Architecture for Software-engineering AI Agents

作者: Daman Arora, Atharv Sonwane, Nalin Wadhwa, Abhav Mehrotra, Saiteja Utpala, Ramakrishna Bairi, Aditya Kanade, Nagarajan Natarajan

机构: 微软研究院

摘要: 常见的解决软件工程中复杂问题的方法是将问题分解为多个子问题。受此启发，我们提出了一种用于软件工程 AI（MASAI）智能体的模块化架构，其中不同的由LLM驱动的子智能体具有明确定义的目标和策略，旨在实现这些目标。我们的模块化架构提供了几个优势：（1）在子智能体之间使用和调整不同的问题解决策略，（2）使子智能体能够从存储库中分散的不同来源收集信息，（3）避免不必要的长轨迹，从而增加成本并添加无关的上下文。MASAI使我们能够在流行且极具挑战性的SWE-bench Lite数据集上实现最高性能（28.33%的解决率），该数据集由来自11个Python存储库的300个GitHub问题组成。我们对MASAI相对于其他智能方法进行了全面评估，并分析了我们的设计决策及其对MASAI成功的贡献。

论文链接: https://arxiv.org/pdf/2406.11638

cs.AI: 符号 AI 之间的互联和子符号 AI

原标题: Intersymbolic AI: Interlinking Symbolic AI and Subsymbolic AI

作者: André Platzer

机构: 卡尔斯鲁厄理工学院

摘要: 这篇观点文章呼吁研究新领域的Intersymbolic AI，我们指的是符号AI和次符号AI的结合，符号AI的构建模块具有固有的意义/含义，而次符号AI的整体创造了意义/效果，尽管单个构建模块逃脱了意义。符号AI的经典类型包括逻辑、游戏和规划。次符号AI的经典类型包括（无）监督机器学习和强化学习。Intersymbolic AI将符号AI的符号意义和含义与次符号AI的总体意义或效果相互联系，通过在符号AI见解与受符号AI原则帮助的次符号AI技术之间来回穿梭和跨越，从而实现两个世界的见解的结合。例如，Intersymbolic AI可以从符号AI开始理解动态系统，继续使用次符号AI学习其控制，最后再用符号AI安全地使用学习到的次符号AI控制器在动态系统中。Intersymbolic AI结合了符号AI和次符号AI，以提高AI的效果，与单一种类的AI相比，就像意识和潜意识思维的结合提高了人类思维的效果一样。这里调查了一些对Intersymbolic AI范式的成功贡献，但通过推进Intersymbolic AI，还有更多可能的贡献。

论文链接: https://arxiv.org/pdf/2406.11563

cs.AI: 可解释人工智能和多重共线性：当前方法的小型综述

原标题: Explainable Artificial Intelligence and Multicollinearity : A Mini Review of Current Approaches

作者: Ahmed M Salih

机构: 莱斯特大学伦敦玛丽女王大学伦敦大学学院

摘要: 可解释人工智能（XAI）方法有助于理解机器学习模型的内部机制，以及它们如何达到特定决策或执行特定操作。信息特征列表是XAI方法最常见的输出之一。多重共线性是一个重要问题，当XAI生成关于AI系统中最具信息性特征的解释时，应该考虑到这一点。目前还没有专门研究如何处理这一重要问题的综述。在本文中，我们就与XAI相关的当前最先进方法进行了回顾，特别是在处理多重共线性问题方面的最新进展。为此，我们在三个知识库中进行了搜索，分别是：Web of Science、Scopus 和 IEEE Xplore，以找到相关的已发表论文。在排除了不相关的论文后，我们考虑了七篇论文。此外，我们讨论了当前的XAI方法及其在处理多重共线性方面的局限性，并提出了未来的研究方向。

论文链接: https://arxiv.org/pdf/2406.11524

cs.AI: 在XLogoOnline环境中的视觉编程的程序综合基准测试

原标题: Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment

作者: Chao Wen, Jacqueline Staub, Adish Singla

机构: 马普计算机科学研究所德国特里尔大学

摘要: 大语言模型和多模态模型在各种专注于特定技能的基准测试中取得了显著成功，如通用编程、自然语言理解、数学问题解决和视觉问题回答。然而，目前尚不清楚这些模型在需要结合这些技能的任务中表现如何。本文基于XLogoOnline视觉编程环境策划了一个新颖的程序合成基准测试。该基准测试包括来自XLogoOnline环境的Mini级别的85个真实世界任务，每个任务都需要结合空间规划、基本编程和逻辑推理等不同技能。我们的评估显示，像GPT-4V和Llama3-70B这样的当前最先进模型在解决这些任务时遇到困难，成功率仅为20%和2.35%。接下来，我们开发了一个微调流程，通过利用一个包含80000多个任务的大规模合成训练数据集来提升模型的性能。此外，我们展示了如何利用基于模拟器的反馈来设计训练数据分布上的课程。我们展示了，经过微调的Llama3-8B在不同技能维度上明显优于GPT-4V和Llama3-70B模型，并对模型在不同技能维度上的专业知识进行了深入分析。我们将公开发布这一基准测试，以促进未来关于视觉编程中程序合成的研究。

论文链接: https://arxiv.org/pdf/2406.11334

cs.AI: 开发一种使用机器学习和专家系统技术构建的自适应多领域人工智能系统

原标题: Development of an Adaptive Multi-Domain Artificial Intelligence System Built using Machine Learning and Expert Systems Technologies

作者: Jeremy Straub

机构: 北达科他州立大学

摘要: 生产通用人工智能（AGI）一直是人工智能（AI）研究中一个难以实现的目标。一个AGI将具有像人类一样的能力，能够接触新的问题领域，学习其中的知识，然后使用推理过程做出决策。虽然AI技术已经被广泛应用于各种问题领域，但要实现一个AGI需要一种能够超越其编程和训练的推理能力的AI。本文介绍了朝着实现AGI迈出的一小步。它描述了一种机制，使AI能够学习和发展推理路径，以在一个先验未知领域中做出决策。它将经典AI技术专家系统与其现代适应——梯度下降训练的专家系统（GDTES）相结合，并利用生成人工智能（GAI）为该系统创建网络和训练数据集。这些可以从现有来源创建，也可以利用GAI自身预训练模型中融入的知识。GDTES中的学习过程用于优化AI的决策制定。虽然这种方法不符合许多人对AGI定义的标准，但它提供了一种类似的能力，尽管在使用之前需要一个学习过程。

论文链接: https://arxiv.org/pdf/2406.11272

cs.AI: 预训练模型中的关系学习：来自超图恢复视角的理论

原标题: Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective

作者: Yang Chen, Cong Fang, Zhouchen Lin, Bing Liu

机构: 清华大学北京大学哈工大百度

摘要: 基础模型（FMs）展示了对世界关系动态的显著洞察，引出了一个关键问题：这些模型如何获得对世界混合关系的理解？传统的统计学习，特别是针对预测问题，可能会忽视数据中丰富且固有结构化信息，特别是涉及对象之间关系的信息。我们引入了一个数学模型，将关系学习形式化为超图恢复，以研究FMs的预训练。在我们的框架中，世界被表示为一个超图，数据被抽象为来自超边的随机样本。我们从理论上研究了预训练模型（PTM）恢复这个超图的可行性，并分析了在极小-极优风格下的数据效率。通过将丰富的图论集成到PTMs领域，我们的数学框架为从独特视角深入理解预训练提供了强大工具，并可在各种场景下使用。作为示例，我们将该框架扩展到多模态学习中的实体对齐。

论文链接: https://arxiv.org/pdf/2406.11249

cs.AI: 离线强化学习中线性函数逼近中固有贝尔曼误差的作用

原标题: The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation

作者: Noah Golowich, Ankur Moitra

机构: 麻省理工学院

摘要: 在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是，MDP 具有较低的固有贝尔曼误差，这意味着线性值函数相对于贪婪策略具有线性贝尔曼备份。这个假设是自然的，因为它基本上是值迭代成功所需的最小假设。我们提出了一个计算效率高的算法，该算法在数据集上满足单策略覆盖条件时成功，即输出一个价值至少等于数据集充分覆盖的任何策略的策略。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也在单策略覆盖下提供了已知的第一个保证。
在固有贝尔曼误差 ${\varepsilon_{\mathrm{BE}}} > 0$ 的情况下，我们展示了我们的算法的次优性误差随着 $\sqrt{\varepsilon_{\mathrm{BE}}}$ 缩放。此外，我们证明了次优性随着 $\sqrt{\varepsilon_{\mathrm{BE}}}$ 缩放的情况对于任何算法都无法改进。我们的下界与许多其他具有误差估计的强化学习设置形成对比，在这些设置中，通常可以获得与误差估计误差线性退化的性能。

论文链接: https://arxiv.org/pdf/2406.11686

cs.AI: Emotion-LLaMA: 使用指令调节的多模态情感识别与推理

原标题: Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

作者: Zebang Cheng, Zhi-Qi Cheng, Jun-Yan He, Jingdong Sun, Kai Wang, Yuxiang Lin, Zheng Lian, Xiaojiang Peng, Alexander Hauptmann

机构: 深圳科技大学卡内基梅隆大学阿里巴巴集团新加坡国立大学中国科学院自动化研究所

摘要: 准确的情绪感知对于各种应用至关重要，包括人机交互、教育和咨询。然而，传统的单模态方法通常无法捕捉现实世界情绪表达的复杂性，因为情绪表达本质上是多模态的。此外，现有的多模态大语言模型（MLLMs）在整合音频和识别微妙的面部微表情方面面临挑战。为了解决这个问题，我们引入了包含28,618个粗粒度和4,487个细粒度注释样本的MERR数据集，涵盖了各种情绪类别。这个数据集使模型能够从不同情境中学习，并推广到实际应用中。此外，我们提出了Emotion-LLaMA，这是一个模型，通过情绪特定的编码器无缝集成音频、视觉和文本输入。通过将特征对齐到一个共享空间，并使用经过修改的LLaMA模型进行指导调整，Emotion-LLaMA显著增强了情绪识别和推理能力。广泛的评估显示，Emotion-LLaMA优于其他MLLMs，在EMER的Clue Overlap（7.83）和Label Overlap（6.25）上取得最高分，在MER2023挑战赛上获得0.9036的F1分数，并在DFEW数据集的零样本评估中获得最高的UAR（45.59）和WAR（59.37）。

论文链接: https://arxiv.org/pdf/2406.11161

Github: https://github.com/zebangcheng/emotion-llama

cs.AI: 是否可以通过一个回答“是”或“否”的 Oracle 实现高效的 PAC 学习？

原标题: Is Efficient PAC Learning Possible with an Oracle That Responds ‘Yes’ or ‘No’?

作者: Constantinos Daskalakis, Noah Golowich

机构: 麻省理工学院 CSAIL & Archimedes AI

摘要: 经验风险最小化（ERM）原则在机器学习中产生了巨大影响，既为基于ERM的学习算法提供了近乎最优的理论保证，也推动了深度学习中许多最近的经验成功。在本文中，我们研究了一个问题，即执行ERM的能力（在给定数据集上计算最小化经验风险的假设）是否对高效学习是必要的：特别地，是否存在比ERM更弱的预言者，仍然可以实现可学习性？我们肯定地回答了这个问题，表明在PAC学习二元分类的可实现设置中，可以使用一个仅返回一个指示给定数据集是否可实现某个类中的某个概念的单个比特的预言者来学习概念类。我们的算法的样本复杂度和预言者复杂度多项式地取决于假设类的VC维度，从而表明使用我们更弱的预言者只需支付多项式代价。我们的结果扩展到了对于对偶学习设置，需要稍微加强预言者，以及部分概念、多类别和实值学习设置。在部分概念类设置中，在我们的工作之前，即使使用标准ERM预言者，也没有已知的预言者高效算法。因此，我们的结果回答了Alon等人（2021年）提出的一个问题，即是否存在能够在这种设置中实现高效可学习性的算法原则。

论文链接: https://arxiv.org/pdf/2406.11667

cs.AI: 基于注意力机制的深度强化学习在模块化量子架构中的量子比特分配任务中的应用

原标题: Attention-Based Deep Reinforcement Learning for Qubit Allocation in Modular Quantum Architectures

作者: Enrico Russo, Maurizio Palesi, Davide Patti, Giuseppe Ascia, Vincenzo Catania

机构: 卡塔尼亚大学意大利

摘要: 模块化、分布式和多核架构目前被认为是量子计算系统可扩展性的一种有前途的方法。整合多个量子处理单元需要经典和量子相干通信，引入了与量子状态在核心之间传输相关的噪声和量子退相干挑战。优化通信变得至关重要，量子电路的编译和映射到物理量子比特必须最小化状态转移，同时遵守架构约束。编译过程，本质上是一个 NP 难题，即使对于少量量子比特，也需要大量的搜索时间才能最优解。为了有效解决这一挑战，我们主张利用能够快速生成解决方案的启发式映射器。在这项工作中，我们提出了一种新颖的方法，采用深度强化学习（DRL）方法来学习特定多核架构的这些启发式。我们的 DRL 智能体结合了 Transformer 编码器和图神经网络。它使用自注意机制对量子电路进行编码，并通过基于注意力的指针机制生成输出，直接表示逻辑量子比特与物理核心匹配的概率。这使得有效地选择逻辑量子比特的最佳核心成为可能。实验评估表明，所提出的方法在减少核间通信和最小化在线解决时间方面可以胜过基线方法。这项研究通过引入一种基于学习的启发式方法，为高效的量子电路编译和映射做出了贡献，推动了可扩展量子计算系统的进步。

论文链接: https://arxiv.org/pdf/2406.11452

cs.AI: 超越三元组：上下文知识图表示与推理

原标题: Move Beyond Triples: Contextual Knowledge Graph Representation and Reasoning

作者: Chengjin Xu, Muzhi Li, Cehao Yang, Xuhui Jiang, Lumingyuan Tang, Yiyan Qi, Jian Guo

机构: 国际数字经济学院 IDEA Research 中国香港中文大学计算机科学与工程系中国科学院计算技术研究所 AI安全重点实验室

摘要: 知识图谱（KGs）是许多AI应用中的基础结构，通过三元组表示实体及其相互关系。然而，基于三元组的知识图谱缺乏关系知识的上下文信息，如时间动态和来源细节，这对于全面的知识表示和有效的推理至关重要。相反，\textbf{上下文知识图谱}（CKGs）通过整合诸如时间有效性、地理位置和来源可靠性等附加信息，扩展了传统结构。这种整合提供了对知识更微妙和准确的理解，使得知识图谱能够提供更丰富的见解并支持更复杂的推理过程。在这项工作中，我们首先讨论基于三元组的知识图谱的固有局限性，并介绍上下文知识图谱的概念，突出它们在知识表示和推理中的优势。然后，我们提出\textbf{KGR $^3$ ，一种富含上下文的知识图谱推理范式}，利用大语言模型（LLMs）检索候选实体和相关上下文，根据检索到的信息对它们进行排名，并推断是否已获取足够信息来回答查询。我们的实验结果表明，KGR $^3$ 显著提高了知识图谱完成（KGC）和知识图谱问答（KGQA）任务的性能，验证了在知识表示和推理中整合上下文信息的有效性。

论文链接: https://arxiv.org/pdf/2406.11160

cs.AI: YOLO-FEDER FusionNet：一种新颖的用于无人机检测的深度学习架构

原标题: YOLO-FEDER FusionNet: A Novel Deep Learning Architecture for Drone Detection

作者: Tamara R. Lenhard, Andreas Weinmann, Stefan Jäger, Tobias Koch

机构: 德国航空航天中心（DLR）德国应用科学大学达姆施塔特分校

摘要: 图像识别无人机的主要方法通常依赖于使用诸如YOLOv5之类的通用目标检测算法。虽然这些算法在识别单一背景下的无人机方面表现出色，但它们在复杂、高纹理环境中往往表现不佳。在这种情况下，无人机会与背景融为一体，产生伪装效果，从而对检测质量产生不利影响。为解决这一问题，我们引入了一种名为YOLO-FEDER FusionNet的新型深度学习架构。与传统方法不同，YOLO-FEDER FusionNet将通用目标检测方法与伪装目标检测技术的专业优势相结合，以增强无人机检测能力。对YOLO-FEDER FusionNet的全面评估显示了所提出模型的效率，并展示了在减少漏检和误报方面的显著改进。

论文链接: https://arxiv.org/pdf/2406.11641

cs.AI: 用于合成医疗数据评估和报告的评分卡

原标题: Scorecards for Synthetic Medical Data Evaluation and Reporting

作者: Ghada Zamzmi, Adarsh Subbaswamy, Elena Sizikova, Edward Margerrison, Jana Delfino, Aldo Badano

机构: 美国食品药品监督管理局（FDA）

摘要: 越来越多地利用合成医疗数据（SMD）来训练和测试医疗保健中的 AI 工具，这需要一个系统性框架来评估 SMD 的质量。目前缺乏标准化方法来评估 SMD，特别是在其在各种医疗场景中的适用性方面，这是其在医疗应用中更广泛接受和利用的重要障碍。在这里，我们概述了一个旨在满足医疗应用的独特要求的评估框架，并介绍了 SMD 计分卡的概念，它可以作为伴随人工生成数据集的全面报告。这可以帮助标准化评估，并使 SMD 开发人员能够通过识别需要关注的领域并确保合成数据更准确地逼近患者数据来评估和进一步提高 SMD 的质量。

论文链接: https://arxiv.org/pdf/2406.11143

cs.AI: 由GPT 驱动的需求工程培训访谈脚本生成器

原标题: GPT-Powered Elicitation Interview Script Generator for Requirements Engineering Training

作者: Binnur Görer, Fatma Başak Aydemir

机构: 微软乌特勒支大学

摘要: 引诱性访谈是最常见的需求引出技术，熟练掌握进行这些访谈对需求引出至关重要。传统的培训方法通常局限于教科书学习，可能无法充分解决访谈技术的实际复杂性。通过实际训练不同的访谈场景对于理解如何将理论知识应用于现实环境至关重要。然而，教育访谈材料短缺，因为创建访谈脚本需要技术专长和创造力。为解决这一问题，我们开发了一个专门用于自动生成访谈脚本的GPT智能体。该GPT智能体配备了专门针对需求引出访谈程序的指南和最佳实践的知识库。我们采用提示链接方法来缓解GPT的输出长度限制，以便能够生成详尽和详细的访谈脚本。这涉及将访谈分成几个部分，并为每个部分精心设计不同的提示，从而允许为每个部分生成完整的内容。通过标准的自然语言生成评估指标和专家判断研究评估生成的脚本，确认它们在需求工程培训中的适用性。

论文链接: https://arxiv.org/pdf/2406.11439

cs.AI: 线性贝尔曼完备性足以实现具有少动作的高效在线强化学习

原标题: Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions

作者: Noah Golowich, Ankur Moitra

机构: 麻省理工学院

摘要: 强化学习（RL）中最自然的函数逼近方法之一是值迭代，通过解决一系列回归问题归纳生成最优值函数的近似值。为确保值迭代的成功，通常假定贝尔曼完备性成立，这确保这些回归问题是良好定义的。我们研究在线 RL 模型中在贝尔曼完备性下学习最优策略的问题，其中采用线性函数逼近。在线性设置中，虽然在贝尔曼完备性下已知存在统计有效的算法（例如 Jiang 等人（2017）；Zanette 等人（2020）），但这些算法都依赖于需要解决非凸优化问题的全局乐观原则。特别地，目前尚不清楚是否存在计算有效的算法。在本文中，我们提出了第一个在动作数量为任意常数时在线性贝尔曼完备性下的强化学习多项式时间算法。

论文链接: https://arxiv.org/pdf/2406.11640

cs.AI: 长代码竞技场：长上下文代码模型的一组基准测试

原标题: Long Code Arena: a Set of Benchmarks for Long-Context Code Models

作者: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin

机构: JetBrains Research Delft University of Technology

摘要: 如今，代码和自然语言处理领域正在迅速发展。特别是，模型在处理长上下文窗口方面变得更加优秀 - 支持的上下文大小在过去几年内增加了数个数量级。然而，在代码处理方面，缺乏超越单个上下文文件的基准，而最流行的基准仅限于单个方法。通过这项工作，我们旨在通过引入Long Code Arena来填补这一空白，这是一个包含六个用于需要项目范围上下文的代码处理任务的基准套件。这些任务涵盖了代码处理的不同方面：基于库的代码生成、CI构建修复、项目级代码完成、提交消息生成、错误定位和模块摘要。对于每个任务，我们提供了一个经过手工验证的用于测试的数据集，一个评估套件，并基于流行的大语言模型提供了开源基线解决方案，以展示数据集的使用方式，并简化其他研究人员的采用。我们在HuggingFace Spaces上发布了基准页面，其中包含排行榜、所有数据集的HuggingFace Hub链接，以及带有基线的GitHub存储库链接：此处是链接。

论文链接: https://arxiv.org/pdf/2406.11612

其他链接: https://huggingface.co/spaces/JetBrains-Research/long-code-arena

cs.AI: 分析树形神经网络在回归任务中的行为

原标题: Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks

作者: Peter Samoaa, Mehrdad Farahani, Antonio Longa, Philipp Leitner, Morteza Haghir Chehreghani

机构: 查尔默斯理工大学特伦托大学

摘要: 深度学习领域的格局已经大大拓展了源代码分析的边界，特别是通过利用结构表示，如抽象语法树（AST）。虽然这些方法在分类任务中表现出了有效性，但它们在回归应用中的效力，比如从源代码预测执行时间，仍然未被充分探讨。本文致力于解码基于树状神经网络模型在这种回归挑战背景下的行为。我们将已建立的模型–基于树的卷积神经网络（CNNs）、Code2Vec 和基于 Transformer 的方法–扩展到通过将源代码解析为 AST 来预测源代码的执行时间。我们的比较分析显示，虽然这些模型在代码表示方面是基准，但在回归任务中表现出了局限性。为了解决这些不足，我们提出了一种新颖的双 Transformer 方法，它同时作用于源代码标记和 AST 表示，利用交叉注意机制增强两个领域之间的可解释性。此外，我们探讨了将图神经网络（GNNs）调整到这个基于树的问题中，理论上由于 AST 的图形特性而具有固有的兼容性。对真实世界数据集的实证评估显示，我们的双 Transformer 模型优于所有其他基于树的神经网络和基于 GNN 的模型。此外，我们提出的双 Transformer 展现出了在不同数据集上的显著适应性和稳健性表现。

论文链接: https://arxiv.org/pdf/2406.11437

Github: https://github.com/petersamoaa/tree_based_nn_error_analysis

cs.AI: CoSQA+：通过匹配代码增强代码搜索数据集

原标题: CoSQA+: Enhancing Code Search Dataset with Matching Code

作者: Jing Gong, Yanghui Wu, Linxi Liang, Zibin Zheng, Yanlin Wang

机构: 中山大学

摘要: 语义代码搜索，检索与给定自然语言查询匹配的代码，是提高软件工程生产力的重要任务。现有的代码搜索数据集存在问题：要么使用不切实际的查询，要么存在代码不匹配的情况，通常使用一对一的查询-代码配对，这无法反映查询可能有多个有效代码匹配的现实情况。本文介绍了 CoSQA+，将高质量查询（从 CoSQA 中重复使用）与多个合适的代码配对。我们从不同来源收集代码候选项，并通过将查询与这些代码配对形成候选对。利用大型语言模型（LLMs）的强大功能，我们自动化对配对进行注释、过滤和为没有合适匹配的查询生成代码。通过大量实验，CoSQA+已经证明比 CoSQA 具有更高的质量。在 CoSQA+ 上训练的模型表现出改进的性能。此外，我们提出了一个新的指标 Mean Multi-choice Reciprocal Rank（MMRR），用于评估一对多的代码搜索性能。我们在此 https URL 提供代码和数据。

论文链接: https://arxiv.org/pdf/2406.11589

Github: https://github.com/DeepSoftwareAnalytics/CoSQA_Plus

cs.AI: AnyTrans：使用大规模模型翻译图像中的任意文本

原标题: AnyTrans: Translate AnyText in the Image with Large Scale Models

作者: Zhipeng Qian, Pei Zhang, Baosong Yang, Kai Fan, Yiwei Ma, Derek F. Wong, Xiaoshuai Sun, Rongrong Ji

机构: 厦门大学阿里巴巴集团澳门大学

摘要: 本文介绍了 AnyTrans，这是一个全面的框架，用于执行图像中任意文本的翻译任务（TATI），其中包括多语言文本翻译和图像内文本融合。我们的框架利用大规模模型（如大语言模型（LLMs）和文本引导扩散模型）的优势，在翻译过程中结合来自文本和视觉元素的上下文线索。LLMs 的少样本学习能力允许通过考虑整体上下文来翻译碎片化的文本。同时，扩散模型的先进修补和编辑能力使得将翻译后的文本无缝融入原始图像成为可能，同时保留其风格和逼真感。此外，我们的框架可以完全使用开源模型构建，无需训练，因此易于访问和扩展。为了推动 TATI 任务的进展，我们精心编制了一个名为 MTIT6 的测试数据集，其中包含来自六种语言对的多语言文本图像翻译数据。

论文链接: https://arxiv.org/pdf/2406.11432

cs.AI: 四元数生成对抗神经网络及其在彩色图像修复中的应用

原标题: Quaternion Generative Adversarial Neural Networks and Applications to Color Image Inpainting

作者: Duan Wang, Dandan Zhu, Meixiang Zhao, Zhigang Jia

摘要: 彩色图像修复是图像科学中的一项具有挑战性的任务。现有方法基于实部操作，对彩色图像的红色、绿色和蓝色通道分别进行处理，忽略了每个通道之间的相关性。为了充分利用每个通道之间的相关性，本文提出了一种四元数生成对抗神经网络（QGAN）模型及相关理论，并将其应用于解决具有大面积缺失的彩色图像修复问题。首先，给出了四元数反卷积的定义，并提出了四元数批量归一化。其次，将上述两个创新模块应用于生成对抗网络以提高稳定性。最后，将QGAN应用于彩色图像修复，并与其他最先进的算法进行比较。实验结果表明，QGAN在具有大面积缺失的彩色图像修复中具有优势。

论文链接: https://arxiv.org/pdf/2406.11567

cs.AI: 合作强化学习中功率正则化的好处

原标题: The Benefits of Power Regularization in Cooperative Reinforcement Learning

作者: Michelle Li, Michael Dennis

机构: 麻省理工学院加州大学伯克利分校

摘要: 合作多智能体强化学习（MARL）算法，仅训练以优化任务奖励的能力，可能导致权力集中，其中单个智能体的失败或敌对意图可能摧毁系统中每个智能体的奖励。在团队的背景下，明确考虑权力分配是很有用的，以确保没有人成为单点故障。在这里，我们认为在合作RL系统中明确规范权力集中可以导致更具鲁棒性的系统，以应对单个智能体的失败、敌对攻击和合作伙伴激励变化。为此，我们定义了一个实用的权力配对度量，捕捉任何合作伙伴影响自我智能体奖励的能力，然后提出了一个平衡任务奖励和权力集中的权力规范化目标。在给定这个新目标的情况下，我们展示了总是存在一个平衡点，每个智能体都在玩一个平衡权力和任务奖励的最佳响应。此外，我们提出了两种朝向这个权力规范化目标训练智能体的算法：基于样本的权力规范化（SBPR），在训练过程中注入敌对数据；以及通过内在动机实现权力规范化（PRIM），将内在动机添加到训练目标中以调节权力。我们的实验表明，这两种算法成功地平衡了任务奖励和权力，导致比仅任务奖励基线更低的权力行为，并避免了系统中的智能体偏离策略时发生灾难性事件。

论文链接: https://arxiv.org/pdf/2406.11240

cs.AI: AIC MLLM：用于稳健机器人操作的自主交互式校正MLLM

原标题: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

作者: Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong

机构: 北京大学中国科学院计算技术研究所

摘要: 机器人系统反思和纠正失败的能力对其与现实物体稳定交互至关重要。观察到多模态大语言模型（MLLMs）的泛化和推理能力，先前的方法旨在利用这些模型相应地增强机器人系统。然而，这些方法通常侧重于使用额外的MLLM进行高层规划校正，对于利用失败样本来纠正低层接触姿势的利用有限。为了填补这一空白，我们提出了一种自主交互校正（AIC）MLLM，利用先前的低层交互经验来纠正SE(3)姿势预测。具体而言，AIC MLLM最初被微调以获得姿势预测和反馈提示理解能力。我们通过与物体的交互精心设计了两种类型的提示指令：1）视觉蒙版用于突出不可移动部分以进行位置校正，2）文本描述用于指示旋转校正的潜在方向。在推理过程中，引入了一个反馈信息提取模块来识别失败原因，使AIC MLLM能够自适应地纠正姿势预测，进一步增强操纵稳定性，我们设计了一个测试时间适应策略，使AIC MLLM能够更好地适应当前场景配置。最后，在模拟和真实环境中进行了大量实验来评估所提出的方法。结果表明，我们的AIC MLLM可以通过利用交互经验提示有效地纠正失败样本。可以在此 https URL 找到真实世界演示。

论文链接: https://arxiv.org/pdf/2406.11548

其他链接: http://prompts.To

cs.AI: 一个带有推荐系统的协作数据分析系统，面向多样化用户。

原标题: A Collaborative Data Analytics System with Recommender for Diverse Users

作者: Siu Lung Ng, Hirad Baradaran Rezaei, Fethi Rabhi

机构: 新南威尔士大学计算机科学与工程学院

摘要: 本文介绍了 SLEGO（Software-Lego）系统，这是一个协作分析平台，通过基于云的平台和模块化、可重用的微服务，弥合了有经验的开发人员和新手用户之间的差距。这些微服务使开发人员能够共享他们的分析工具和工作流程，而简单的图形用户界面（GUI）则允许新手用户在不需要编程技能的情况下构建全面的分析流水线。SLEGO由知识库和大语言模型（LLM）驱动的推荐系统支持，增强了微服务的选择和集成，提高了分析流水线构建的效率。金融和机器学习的案例研究说明了SLEGO如何促进模块化微服务的共享和组装，显著提高了资源的可重用性和团队协作。结果突显了SLEGO在通过整合模块化设计、知识库和推荐系统来实现数据分析民主化方面的作用，促进了更具包容性和高效的分析环境。

论文链接: https://arxiv.org/pdf/2406.11232

cs.AI: 正式认证的近似模型计数

原标题: Formally Certified Approximate Model Counting

作者: Yong Kiam Tan, Jiong Yang, Mate Soos, Magnus O. Myreen, Kuldeep S. Meel

机构: 新加坡科学研究与工业研究院（I2R）、新加坡国立大学、瑞典查尔默斯理工大学、加拿大多伦多大学

摘要: 近似模型计数是近似计算输入布尔公式解的数量的任务。针对合取范式（CNF）公式的最先进的近似模型计数器ApproxMC提供了一种可扩展的方法，可以在可能近似正确（PAC）的情况下获得模型计数。然而，ApproxMC近似的有效性依赖于对其随机算法的仔细理论分析以及其高度优化实现的正确性，特别是后者与能够原生处理奇偶（XOR）约束的增量CNF可满足性求解器的有状态交互。

我们提出了第一个近似模型计数的认证框架，具有对输出近似质量的形式化验证保证。我们的方法结合了：（i）在Isabelle/HOL证明助手中对算法的PAC保证进行静态、一次性的形式化证明；以及（ii）动态、每次运行时，使用证明证书验证ApproxMC对外部CNF-XOR求解器的调用。我们详细介绍了我们建立这两部分验证之间严格连接的一般方法，包括我们的蓝图，将形式化的随机算法转化为验证的证明检查器，以及我们为ApproxMC及其内部CNF-XOR求解步骤设计的证明证书。在实验中，我们展示了证书生成对近似计数器实现几乎没有额外开销，并且当给定相同的时间和内存限制时，我们的证书检查器能够完全验证84.7%的实例生成的证书。

论文链接: https://arxiv.org/pdf/2406.11414

cs.AI: 参数透露的信息比损失函数更多吗？

原标题: Do Parameters Reveal More than Loss for Membership Inference?

作者: Anshuman Suri, Xiao Zhang, David Evans

机构: 弗吉尼亚大学 CISPA Helmholtz信息安全中心

摘要: 成员推断攻击旨在推断个体记录是否被用于训练模型，作为揭示审计的关键工具。虽然这种评估对于展示风险很有用，但在计算上很昂贵，并且通常对潜在对手对模型和训练环境的访问做出强烈假设，因此并不能提供关于潜在攻击泄漏的非常严格的界限。我们展示了关于黑盒访问足以实现最佳成员推断的先前说法在大多数有用的设置（如随机梯度下降）中并不成立，而实现最佳成员推断确实需要白盒访问。我们通过一种新的白盒推断攻击 IHA（逆Hessian攻击）验证了我们的发现，该攻击明确利用模型参数，利用计算逆Hessian向量乘积。我们的结果表明，审计和对手都可能从访问模型参数中受益，我们倡导进一步研究用于成员隐私审计的白盒方法。

论文链接: https://arxiv.org/pdf/2406.11544

Github: https://github.com/iamgroot42/iha_hild

cs.AI: DistPred：一种用于回归和预测的无分布概率推断方法

原标题: DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting

作者: Daojun Liang, Haixia Zhang, Dongfeng Yuan

机构: 山东大学控制科学与工程学院青岛交通学院

摘要: 传统的回归和预测任务通常只提供确定性的点估计。为了估计响应变量的不确定性或分布信息，通常使用贝叶斯推断、模型集成或MC Dropout等方法。这些方法要么假设样本的后验分布遵循高斯过程，要么需要进行数千次前向传递以生成样本。我们提出了一种名为DistPred的新方法，用于回归和预测任务，它克服了现有方法的局限性，同时保持简单和强大。具体而言，我们将衡量预测分布与目标分布之间差异的适当评分规则转化为可微分的离散形式，并将其用作损失函数来端到端地训练模型。这使得模型能够在单次前向传递中采样大量样本，以估计响应变量的潜在分布。我们已经将我们的方法与多个现有方法在多个数据集上进行了比较，并取得了最先进的性能。此外，我们的方法显著提高了计算效率。例如，与最先进的模型相比，DistPred的推理速度快了90倍。实验结果可以通过此 https URL 进行复现。

论文链接: https://arxiv.org/pdf/2406.11397

Github: https://github.com/Anoise/DistPred

cs.AI: 通过明确的工件增强来提高全幻灯片图像的质量控制

原标题: Improving Quality Control of Whole Slide Images by Explicit Artifact Augmentation

作者: Artur Jurgas, Marek Wodzinski, Marina D’Amato, Jeroen van der Laak, Manfredo Atzori, Henning Müller

机构: AGH克拉科夫大学

摘要: 全切片图像获取中存在的人工干预和重新扫描问题，在临床工作流程和研究导向的环境中普遍存在，需要人工干预和重新扫描。克服这一挑战需要开发质量控制算法，受到组织病理学中相关标注数据有限的限制。对于检测方法的地面真实标注进行手动标注是昂贵且耗时的。本文通过提出一种专门用于增加带有伪影的全切片图像的方法来解决这一问题。该工具可以无缝地从外部库生成并混合伪影到给定的组织病理学数据集中。然后利用增强数据集来训练伪影分类方法。评估显示它们在伪影分类中的有用性，根据伪影类型，AUROC的改进从0.10到0.01不等。该框架、模型、权重和地面真实标注已经免费发布，以促进开放科学和可重复研究。

论文链接: https://arxiv.org/pdf/2406.11538

cs.AI: GitHub Copilot：完美的代码补全工具？

原标题: GitHub Copilot: the perfect Code compLeeter?

作者: Ilja Siroš, Dave Singelée, Bart Preneel

机构: COSIC, KU Leuven

摘要: 这篇论文旨在使用自定义的自动化框架，基于LeetCode问题集评估GitHub Copilot生成的代码质量。我们评估了Copilot在4种编程语言（Java、C++、Python3和Rust）中的结果。我们旨在评估Copilot在代码生成阶段的可靠性，生成代码的正确性以及其对编程语言、问题难度级别和问题主题的依赖性。除此之外，我们评估了代码的时间和内存效率，并将其与平均人类结果进行了比较。总共，我们为每种编程语言生成了1760个问题的解决方案，并评估了每个问题的所有Copilot建议，导致在为期2个月的时间内向LeetCode提交了超过50000个解决方案。我们发现Copilot成功解决了大多数问题。然而，在生成Java和C++代码方面，Copilot比在Python3和Rust中更成功。此外，在Python3的情况下，Copilot在代码生成阶段被证明相当不可靠。我们还发现Copilot的排名靠前的建议并不总是最佳的。此外，我们分析了问题主题如何影响正确率。最后，根据LeetCode的统计信息，我们可以得出结论，Copilot生成的代码比平均人类更有效率。

论文链接: https://arxiv.org/pdf/2406.11326

Github: https://github.com/iljasir/copilotsolverforleetcode

cs.AI: FullCert：神经网络训练和推理的确定性端到端认证

原标题: FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks

作者: Tobias Lorenz, Marta Kwiatkowska, Mario Fritz

机构: CISPA Helmholtz信息安全中心 University of Oxford

摘要: 现代机器学习模型对训练数据（毒化攻击）和推理数据（对抗样本）的操纵都很敏感。认识到这一问题，学术界已经开发出许多经验性的防御方法来抵御这两种攻击，而且最近还提出了针对推理时攻击的可证明认证方法。然而，针对训练时攻击，这样的保证仍然大多缺乏。在这项工作中，我们提出了 FullCert，这是第一个具有可靠、确定性边界的端到端认证器，可以证明对抗训练时和推理时攻击的稳健性。我们首先限定了对手在考虑的威胁模型下可以对训练数据进行的所有可能扰动。利用这些约束，我们限定了扰动对模型参数的影响。最后，我们限定了这些参数变化对模型预测的影响，从而实现了对毒化和对抗样本的联合稳健性保证。为了促进这种新颖的认证范式，我们将理论工作与一个新的开源库 BoundFlow 相结合，该库可以在有界数据集上进行模型训练。我们在两个不同的数据集上进行了实验，展示了 FullCert 的可行性。

论文链接: https://arxiv.org/pdf/2406.11522

cs.AI: 时间激光雷达深度补全

原标题: Temporal Lidar Depth Completion

作者: Pietari Kaskela, Philipp Fischer, Timo Roman

机构: 英伟达

摘要: 给定自动驾驶车辆的激光雷达测量数据，我们可以投影这些点并生成稀疏深度图像。深度补全旨在通过填充和插值稀疏深度值来增加这种深度图像的分辨率。与大多数现有方法一样，我们利用摄像头图像作为在非常稀疏或遮挡区域的指导。此外，我们提出了一种利用先前时间步信息的时间算法，利用循环。在这项工作中，我们展示了如何修改最先进的方法 PENet 以从循环中获益。我们的算法在 KITTI 深度补全数据集上实现了最先进的结果，同时在神经网络参数和浮点运算方面仅增加不到百分之一的额外开销。特别是对于遥远物体和包含少量激光雷达深度样本的区域，准确性得到了改善。即使在没有任何地面真实值的区域（如天空和屋顶），我们观察到了大幅改进，这些改进并未被现有评估指标捕捉到。

论文链接: https://arxiv.org/pdf/2406.11315

cs.AI: 复合模式注册表

原标题: Compound Schema Registry

作者: Silvery D. Fu, Xuewei Chen

机构: 加利福尼亚大学伯克利分校 System Design Studio

摘要: 模式演变在管理数据库系统中至关重要，以确保在不同数据版本之间的兼容性。模式注册表通常通过管理、验证和确保模式兼容性来解决实时数据流中的模式演变挑战。然而，当前的模式注册表在处理复杂的句法变更（如字段重命名或类型更改）时存在困难，这往往需要大量手动干预并可能会中断服务。为了增强模式演变的灵活性，我们提出利用复合人工智能系统促进广义模式演变（GSE）。该系统利用大语言模型（LLMs）来解释模式变更的语义，支持更广泛范围的句法修改，而不会中断数据流。我们的方法包括开发一种特定任务的语言，模式转换语言（STL），以生成模式映射作为中间表示（IR），简化在不同数据处理平台上集成模式变更。初步结果表明，这种方法可以提高模式映射的准确性和效率，展示了广义模式演变在实际应用中的潜力。

论文链接: https://arxiv.org/pdf/2406.11227

cs.AI: 重新审视领域泛化中的伪相关性

原标题: Revisiting Spurious Correlation in Domain Generalization

作者: Bin Qin, Jiangmeng Li, Yi Li, Xuesong Wu, Yupeng Wang, Wenwen Qiang, Jianwen Cao

机构: 中国科学院软件研究所

摘要: 不失一般性，现有的机器学习技术可能会学习依赖于领域的虚假相关性，这加剧了模型在分布外（OOD）场景中的泛化问题。为了解决这个问题，最近的研究构建了一个结构因果模型（SCM）来描述数据生成过程中的因果关系，从而激励方法来避免模型学习虚假相关性。然而，从机器学习的角度来看，这样的理论分析忽略了数据生成过程和表示学习过程之间微妙的差异，导致基于前者的因果分析不能很好地适应后者。为此，我们探索构建一个用于表示学习过程的SCM，并进一步对潜在的虚假相关性机制进行深入分析。我们强调，调整错误的协变量会引入偏差，因此需要根据实际应用场景正确选择虚假相关性机制。在这方面，我们证实了所提出的SCM的正确性，并进一步提出通过引入倾向得分加权估计器来控制OOD泛化中的混杂偏差，该方法可以作为即插即用模块集成到任何现有的OOD方法中。实证结果全面展示了我们的方法在合成和大规模真实OOD数据集上的有效性。

论文链接: https://arxiv.org/pdf/2406.11517

cs.AI: 在制造业中使用因果机器学习进行管理决策–重新加工，还是不重新加工？

原标题: Management Decisions in Manufacturing using Causal Machine Learning – To Rework, or not to Rework?

作者: Philipp Schwarz, Oliver Schacht, Sven Klaassen, Daniel Grünbaum, Sebastian Imhof, Martin Spindler

机构: 汉堡大学 ams Osram

摘要: 在这篇论文中，我们提出了一个基于数据驱动的模型，用于估计制造系统中最佳返工策略。我们考虑了允许可选返工步骤的多阶段、基于批次的系统中的单个生产阶段。虽然返工决策取决于批次和系统的中间状态，但最终产品检验以及因此而进行的实际产量评估要延迟到生产完成之时。修复步骤均匀地应用于批次，可能会改善其中一些个体项目，同时会降低其他项目的质量。因此，挑战在于平衡潜在的产量改善与返工成本之间的关系。鉴于这一决策问题固有的因果关系特性，我们提出了一个因果模型来估计产量改善。我们应用因果机器学习方法，特别是双重/无偏机器学习（DML）技术，来从数据中估计条件处理效应，并制定返工决策的策略。我们使用来自光电半导体制造的真实数据验证了我们的决策模型，在白光发光二极管（LED）的颜色转换过程中实现了2-3%的产量改善。

论文链接: https://arxiv.org/pdf/2406.11308

cs.AI: 通过能量扩散学习迭代推理

原标题: Learning Iterative Reasoning through Energy Diffusion

作者: Yilun Du, Jiayuan Mao, Joshua B. Tenenbaum

机构: 麻省理工学院

摘要: 我们引入了通过能量扩散进行迭代推理（IRED）的新框架，用于学习各种任务的推理，通过能量优化来制定推理和决策问题。IRED 学习能量函数来表示输入条件和期望输出之间的约束。训练后，IRED 根据问题难度在推断过程中调整优化步骤的数量，使其能够解决超出其训练分布范围的问题，例如更复杂的数独难题、具有大数值幅度的矩阵补全和更大图中的路径规划。我们方法成功的关键在于两种新技术：学习一系列经退火处理的能量景观以便更容易进行推理，以及结合得分函数和能量景观监督以便更快速和更稳定地训练。我们的实验表明，IRED 在连续空间推理、离散空间推理和规划任务中优于现有方法，特别是在更具挑战性的场景中。代码和可视化内容请参见此网址。

论文链接: https://arxiv.org/pdf/2406.11179

Github: https://energy-based-model.github.io/ired/

cs.AI: MMDU：LVLMs 的多轮多图像对话理解基准和指令调整数据集

原标题: MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

作者: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang

机构: 武汉大学上海人工智能实验室香港中文大学 MThreads, Inc.

摘要: 生成自然而有意义的回复，以与多模式人类输入进行交流，是大视觉语言模型（LVLMs）的基本能力。虽然当前的开源LVLMs在简化场景（如单轮单图像输入）中表现出有希望的性能，但它们在现实对话场景（如在具有多轮和多图像的长上下文历史中遵循指令）中表现不佳。现有的LVLM基准主要侧重于单选问题或简短回答，这并不能充分评估LVLMs在现实世界人机交互应用中的能力。因此，我们引入了MMDU，一个全面的基准测试，以及MMDU-45k，一个大规模指令调优数据集，旨在评估和改进LVLMs在多轮和多图像对话中的能力。我们利用聚类算法从开源维基百科中找到相关的图像和文本描述，并在GPT-4o模型的帮助下由人类注释者构建问题-答案对。MMDU最多包含18k个图像+文本标记，20个图像和27轮，至少比以前的基准测试长5倍，对当前的LVLMs构成挑战。我们对使用MMDU的15个代表性LVLMs进行的深入分析表明，由于有限的对话指令调优数据，开源LVLMs落后于闭源对手。我们证明，在MMDU-45k上微调开源LVLMs显著弥补了这一差距，生成更长更准确的对话，并提高了MMDU和现有基准测试的分数（MMStar：+1.1％，MathVista：+1.5％，ChartQA：+1.2％）。我们的贡献为弥合当前LVLM模型与现实应用需求之间的差距铺平了道路。该项目可在此https网址上找到。

论文链接: https://arxiv.org/pdf/2406.11833

Github: https://github.com/Liuziyu77/MMDU

cs.AI: 关于图剪枝的忠实度可行性

原标题: On the Feasibility of Fidelity $^-$ for Graph Pruning

作者: Yong-Min Shin, Won-Yong Shin

机构: 延世大学

摘要: 作为评估图神经网络（GNNs）解释质量的流行定量指标之一，忠实度衡量了在去除输入图中不重要部分后的输出差异。由于忠实度具有直观的解释，即当解释中被认为不重要的特征被移除时，基础模型应产生类似的预测，因此被广泛使用。这引发了一个自然的问题：“忠实度是否会引起全局（软）掩码以进行图修剪？”为了解决这个问题，我们旨在探索利用忠实度衡量来进行图修剪的潜力，最终提高GNN模型的效率。为此，我们提出了受忠实度启发的修剪（FiP）框架，这是一个有效的框架，用于从局部解释中构建全局边缘掩码。我们的实证观察使用了7种边缘归因方法，令人惊讶的是，总体可解释的AI方法在图修剪性能方面优于专门针对GNN的方法。

论文链接: https://arxiv.org/pdf/2406.11504

cs.AI: DELRec: 将序列模式提炼以增强基于大语言模型的推荐

原标题: DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation

作者: Guohao Sun, Haoyi Zhang

机构: 东华大学

摘要: 顺序推荐（SR）任务通过捕捉用户过去互动和他们不断变化的偏好之间的联系，提高了推荐准确性。传统模型通常仅关注于捕捉训练数据中的顺序模式，忽略了来自外部来源的项目标题中嵌入的更广泛的上下文和语义信息。这限制了它们的预测能力和适应性。最近，由于其先进的理解能力和强大的泛化能力，大语言模型（LLMs）在SR任务中显示出了潜力。研究人员尝试通过将SR模型的信息纳入来增强LLMs的推荐性能。然而，先前的方法遇到了问题，如：1）仅在结果级别影响LLMs；2）LLMs推荐方法复杂度增加导致解释性降低；3）LLMs对SR模型信息的理解和利用不完整。为解决这些问题，我们提出了一个新颖的框架DELRec，旨在从SR模型中提取知识，并使LLMs能够轻松理解和利用这些补充信息，以实现更有效的顺序推荐。DELRec包括两个主要阶段：1）SR模型模式提炼，专注于使用两种精心设计的策略通过软提示提取SR模型展示的行为模式；2）基于LLMs的顺序推荐，旨在微调LLMs以有效利用提炼的辅助信息执行SR任务。在三个真实数据集上进行的大量实验结果验证了DELRec框架的有效性。

论文链接: https://arxiv.org/pdf/2406.11156

cs.AI: 在未知环境中的具身指令跟随

原标题: Embodied Instruction Following in Unknown Environments

作者: Zhenyu Wu, Ziwei Wang, Xiuwei Xu, Jiwen Lu, Haibin Yan

机构: 北京邮电大学清华大学卡内基梅隆大学

摘要: 使具有实体的智能体能够根据自然语言完成复杂的人类指令对于家庭服务中的自主系统至关重要。传统方法只能在已知环境中完成人类指令，其中所有交互对象都提供给了实体智能体，并且直接将现有方法部署到未知环境通常会生成操作不存在对象的不可行计划。相反，我们提出了一种用于未知环境中复杂任务的具体指令跟随（EIF）方法，其中智能体高效地探索未知环境，生成利用现有对象完成抽象指令的可行计划。具体而言，我们构建了一个包括高层任务规划器和低层探索控制器的分层具体指令跟随框架，其中使用多模态大语言模型。然后，我们利用动态区域注意力构建了场景的语义表示地图，展示已知的视觉线索，其中任务规划和场景探索的目标与人类指令保持一致。对于任务规划器，我们根据任务完成过程和已知的视觉线索为人类目标的实现生成可行的逐步计划。对于探索控制器，基于生成的逐步计划和已知的视觉线索预测最佳导航或对象交互策略。实验结果表明，我们的方法可以在204个复杂的人类指令（如做早餐和整理房间）中实现45.09%的成功率，这些指令在大型房屋级场景中。

论文链接: https://arxiv.org/pdf/2406.11818

cs.AI: 传送门理论：建模跨世界反事实因果关系的一种通用简单方法

原标题: Teleporter Theory: A General and Simple Approach for Modeling Cross-World Counterfactual Causality

作者: Jiangmeng Li, Bin Qin, Qirui Ji, Yi Li, Wenwen Qiang, Jianwen Cao, Fanjiang Xu

机构: 中国科学院软件研究所

摘要: 利用结构因果模型（SCM）的发展，研究人员可以建立图形模型，探索机器学习技术背后的因果机制。随着机器学习应用复杂性的增加，单世界干预主义因果分析遇到了理论适应性的限制。因此，跨世界反事实方法扩展了我们对因果关系的理解，超越了观察数据，使我们能够对替代情景进行假设推理。然而，跨世界变量的共同参与，包括反事实变量和真实世界变量，挑战了图形模型的构建。双网络是一个微妙的尝试，建立一种共生关系，以弥合图形建模与引入反事实之间的差距，尽管在泛化方面仍有改进空间。在这方面，我们展示了双网络在某些跨世界反事实情景中的理论突破。为此，我们提出了一种新颖的传送门理论，建立了反事实的一般且简单的图形表示，为确定连接多个世界的传送门变量提供了标准。在理论应用中，我们确定引入所提出的传送门理论可以直接从跨世界SCM中获取反事实变量和真实世界变量之间的条件独立性，而无需复杂的代数推导。因此，我们可以通过跨世界符号推导进一步确定反事实因果效应。我们展示了传送门理论对实际应用的普适性。遵循所提出的理论，我们构建了一个即插即用的模块，并通过基准实验证实了其有效性。

论文链接: https://arxiv.org/pdf/2406.11501

cs.AI: 通过阶段式增强微调进行少样本识别

原标题: Few-Shot Recognition via Stage-Wise Augmented Finetuning

作者: Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong

机构: 德克萨斯农工大学澳门大学

摘要: 少样本识别旨在仅利用少量预定义概念的标记示例来训练分类模型，在下游任务中，标注可能成本高昂。在另一个相关的研究领域中，零样本识别假设没有访问任何下游任务数据，通过使用预训练的视觉-语言模型（VLMs）取得了巨大进展。在这个领域中，检索增强学习（RAL）通过检索和学习与下游概念相关的外部数据，有效提高了零样本准确性。受这些进展的启发，我们的工作探索了将RAL应用于少样本识别。尽管在文献中尚未充分探讨（直到现在！），这似乎是直接的，但我们提出了将RAL应用于少样本识别的新挑战和机遇。首先，也许令人惊讶的是，仅仅在大量检索数据上微调VLM几乎无法超越最先进的零样本方法，这是由于检索数据的分布不平衡以及与少样本标记数据相比的领域差距。其次，仅在少样本示例上微调VLM明显优于先前的方法，而在检索数据和少样本数据混合上微调则产生了更好的结果。第三，为了减轻分布不平衡和领域差距问题，我们提出了分阶段增强微调（SWAT）方法，该方法涉及第一阶段对混合数据进行端到端微调，第二阶段仅在少样本数据上重新训练分类器。大量实验证明，SWAT在标准基准数据集上取得了最佳性能，准确度比先前的工作高出约10%。代码可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.11148

Github: https://github.com/tian1327/SWAT

cs.AI: 利用大规模视觉模型增强机器人抓取的简要调查

原标题: A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping

作者: Abhi Kamboj, Katherine Driggs-Campbell

摘要: 机器人抓取在现实场景中是一项困难的运动任务，构成了在各行各业部署功能强大机器人的主要障碍。值得注意的是，数据稀缺使得对学习模型而言抓取特别具有挑战性。计算机视觉领域的最新进展见证了基于大量来自互联网的数据的无监督训练机制的成功增长，现在几乎所有知名模型都利用预训练的骨干网络。在这种背景下，我们开始研究大规模视觉预训练在提高机器人抓取性能方面的潜在益处。这份初步文献综述揭示了关键挑战，并勾勒了未来研究中视觉预训练用于机器人操作的潜在方向。

论文链接: https://arxiv.org/pdf/2406.11786

cs.AI: 在线上下文学习用于社交合规导航

原标题: Online Context Learning for Socially-compliant Navigation

作者: Iaroslav Okunevich, Alexandre Lombard, Tomas Krajnik, Yassine Ruichek, Zhi Yan

摘要: 机器人社交导航需要适应不同的人类因素和环境背景。然而，由于这些因素和背景难以预测且无法穷尽列举，传统的基于学习的方法在确保机器人在长期和跨环境部署中的社交属性方面存在困难。本文介绍了一种在线上下文学习方法，旨在赋予机器人在线适应新的社交环境的能力。所提出的方法采用了两层结构。底层采用基于深度强化学习的方法构建，以确保基本机器人导航命令的输出。上层采用基于在线机器人学习的方法实现，以社交化底层建议的控制命令。使用社区范围的模拟器进行的实验表明，我们的方法优于现有技术。在最具挑战性的场景中的实验结果表明，我们的方法将现有技术的性能提高了8%。所提出方法的源代码、使用的数据以及用于预训练步骤的工具将在此 https URL 上公开提供。

论文链接: https://arxiv.org/pdf/2406.11495

Github: https://github.com/Nedzhaken/SOCSARL-OL

cs.AI: 从像素到进展：利用卫星图像生成贫困地区道路网络，以获取社会经济洞见

原标题: From Pixels to Progress: Generating Road Network from Satellite Imagery for Socioeconomic Insights in Impoverished Areas

作者: Yanxin Xi, Yu Liu, Zhicheng Liu, Sasu Tarkoma, Pan Hui, Yong Li

机构: 赫尔辛基大学清华大学香港科技大学 (广州)

摘要: 可持续发展目标（SDGs）旨在解决社会挑战，如消除贫困，改善贫困地区脆弱人群的生活。这些地区依赖道路基础设施建设来促进可及性和经济发展。尽管像OpenStreetMap这样的公开数据可用于监测道路状况，但贫困地区的数据完整性有限。同时，深度学习技术和卫星图像显示出在地球监测方面具有巨大潜力。为了解决贫困地区道路网络评估的挑战，我们开发了一个系统化的道路提取框架，结合了编码器-解码器架构和卫星图像上的形态学操作，为跨学科研究人员提供了一个集成的工作流程。在贫困地区的实际数据上进行的道路网络提取的大量实验，使F1分数比基准方法提高了42.7％，重建了大约80％的实际道路。我们还提出了一个全面的道路网络数据集，涵盖中国382个贫困县约794,178平方公里的区域和1704.8万人口。生成的数据集进一步用于在贫困县进行社会经济分析，显示道路网络建设对区域经济发展产生积极影响。技术附录、代码和生成的数据集可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.11282

Github: https://github.com/tsinghua-fib-lab/Road_network_extraction_impoverished_counties

cs.AI: Vul-RAG: 通过知识级RAG增强基于大语言模型的漏洞检测

原标题: Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG

作者: Xueying Du, Geng Zheng, Kaixin Wang, Jiayi Feng, Wentai Deng, Mingwei Liu, Xin Peng, Tao Ma, Yiling Lou

机构: 复旦大学阿里巴巴集团南京大学中山大学

摘要: 漏洞检测对于软件质量保证至关重要。近年来，深度学习模型（尤其是大语言模型）在漏洞检测方面表现出了潜力。在这项工作中，我们提出了一种基于LLM的漏洞检测技术Vul-RAG，它利用知识级检索增强生成（RAG）框架来检测给定代码中的漏洞，分为三个阶段。首先，Vul-RAG通过从现有CVE实例中利用LLMs提取多维知识来构建漏洞知识库；其次，对于给定的代码片段，Vul-RAG从构建的知识库中基于功能语义检索相关的漏洞知识；第三，Vul-RAG利用LLMs通过推理检查给定代码片段的漏洞，判断检索到的漏洞知识中漏洞原因和修复方案的存在。我们在构建的基准PairVul上对Vul-RAG进行评估，结果显示Vul-RAG在准确率/成对准确率上相对改进了12.96%/110%，明显优于所有基准。此外，我们的用户研究表明，Vul-RAG生成的漏洞知识可以作为高质量解释，可以将手动检测的准确率从0.60提高到0.77。

论文链接: https://arxiv.org/pdf/2406.11147

cs.AI: NLDF：用于高效3D说话头生成的神经光动态场

原标题: NLDF: Neural Light Dynamic Fields for Efficient 3D Talking Head Generation

作者: Niu Guanchen

机构: 安徽大学 SecondAffiliation ThirdAffiliation FourthAffiliation

摘要: 基于神经辐射场模型的语音生成已经展示出有希望的视觉效果。然而，NeRF 的渲染速度较慢严重限制了其应用，因为需要在数百个采样点上进行繁重的计算过程来合成一个像素。在这项工作中，提出了一种新颖的神经光动态场模型，旨在实现生成高质量的3D语音人脸并显著加速。NLDF基于光段表示光场，并使用深度网络一次性学习整个光束的信息。在学习过程中应用了知识蒸馏，并且使用基于NeRF的合成结果来指导NLDF中光段的正确着色。此外，提出了一种新颖的主动池训练策略，重点关注高频运动，特别是说话者的嘴部和眉毛。该方法有效地表示了3D语音视频生成中的面部光动态，并且与NeRF方法相比，实现了大约30倍更快的速度，同时具有可比较的生成视觉质量。

论文链接: https://arxiv.org/pdf/2406.11259

cs.AI: 使用平均奖励目标的受限强化学习：基于模型和无模型算法

原标题: Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms

作者: Vaneet Aggarwal, Washim Uddin Mondal, Qinbo Bai

摘要: 强化学习（RL）作为一种多才多艺的框架，用于顺序决策，在机器人技术、自动驾驶、推荐系统、供应链优化、生物学、力学和金融等各个领域都有应用。这些应用的主要目标是最大化平均奖励。现实世界中的场景通常要求在学习过程中遵守特定的约束条件。
本专著侧重于探讨在平均奖励马尔可夫决策过程（MDPs）的背景下，针对受限制的强化学习的各种基于模型和无模型方法。研究始于对基于模型的策略的探讨，深入探讨了乐观面对不确定性和后验抽样两种基础方法。随后，讨论转向参数化的无模型方法，其中探讨了基于原始-对偶策略梯度的算法作为受限MDPs的解决方案。该专著提供后悔保证，并分析了每种讨论设置的约束违规情况。
在上述探索中，我们假设潜在的MDP是遍历的。此外，本专著将讨论扩展到为弱通信MDPs量身定制的结果，从而扩大了其研究结果的范围，并增加了对更广泛实际场景的相关性。

论文链接: https://arxiv.org/pdf/2406.11481

cs.AI: 任务：问我任何事情

原标题: Task Me Anything

作者: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

机构: 华盛顿大学 Allen人工智能研究所

摘要: 大型多模态语言模型（MLMs）的基准现在用于同时评估模型的一般能力，而不是评估特定能力。因此，当开发人员想要确定哪些模型适用于他们的应用程序时，他们会被大量基准所淹没，并且对哪个基准的结果最能反映他们特定用例感到不确定。本文介绍了Task-Me-Anything，这是一个生成根据用户需求定制的基准的引擎。Task-Me-Anything保持了一个可扩展的视觉资产分类法，并可以以程序方式生成大量任务实例。此外，它通过算法有效地处理用户关于MLM性能的查询，而不超出计算预算。它包含113K张图片，10K个视频，2K个3D对象资产，超过365个对象类别，655个属性和335个关系。它可以生成750M个图像/视频问答对，重点评估MLM的感知能力。Task-Me-Anything揭示了一些关键见解：开源MLMs在对象和属性识别方面表现出色，但缺乏空间和时间理解；每个模型都展示出独特的优势和劣势；通常较大的模型表现更好，尽管也存在例外；而GPT4o在识别旋转/移动对象和区分颜色方面存在挑战。

论文链接: https://arxiv.org/pdf/2406.11775

Github: https://github.com/jieyuz2/taskmeanything

cs.AI: 自由实体匹配作为一个复合 AI 工具链

原标题: Liberal Entity Matching as a Compound AI Toolchain

作者: Silvery D. Fu, David Wang, Wen Zhang, Kathleen Ge

机构: 加州大学伯克利分校 System Design Studio

摘要: 实体匹配（EM）是识别两个描述是否指向同一实体的任务，在数据管理中至关重要。传统方法已经从基于规则的发展到基于人工智能的方法，然而目前使用大语言模型（LLMs）的技术往往由于依赖静态知识和刚性、预定义提示而表现不佳。在本文中，我们介绍了Libem，这是一个复合人工智能系统，旨在通过采用灵活的、面向工具的方法来解决这些局限性。Libem通过动态工具使用、自我完善和优化来支持实体匹配，使其能够根据数据集和性能指标调整和完善其过程。与传统的独立人工智能EM系统不同，后者往往缺乏模块化，这阻碍了迭代设计改进和系统优化，Libem提供了一个可组合和可重用的工具链。这种方法旨在为基于人工智能的数据管理中正在进行的讨论和发展做出贡献。

论文链接: https://arxiv.org/pdf/2406.11255

cs.AI: 低层视觉中的扩散模型：一项调查

原标题: Diffusion Models in Low-Level Vision: A Survey

作者: Chunming He, Yuqi Shen, Chengyu Fang, Fengyang Xiao, Longxiang Tang, Yulun Zhang, Wangmeng Zuo, Zhenhua Guo, Xiu Li

摘要: 深度生成模型在低级视觉任务中引起了重大关注，因为它们具有生成能力。其中，以前向扩散过程和反向去噪过程为特征的扩散模型解决方案已被广泛赞誉，因为它们能够生成质量和多样性优秀的样本。这确保了生成具有复杂纹理信息的视觉吸引人的结果。尽管它们取得了显著成功，但在综合调查中存在一个明显的差距，该调查将这些开创性的基于扩散模型的工作融合在一起并组织相应的线索。本文提出了基于扩散模型技术的全面审查。我们提出了三种通用的扩散建模框架，并探讨了它们与其他深度生成模型的相关性，建立了理论基础。在此之后，我们介绍了扩散模型的多角度分类，考虑了底层框架和目标任务。此外，我们总结了应用于其他任务的扩散模型，包括医学、遥感和视频场景。此外，我们概述了常用的基准和评估指标。我们对基于扩散模型的技术在三个重要任务中的性能和效率进行了彻底评估。最后，我们阐明了当前扩散模型的局限性，并提出了未来研究的七个有趣方向。这一全面的研究旨在促进对在低级视觉任务背景下去噪扩散模型周围情况的深刻理解。在此 https URL 中可以找到超过 20 个低级视觉任务中基于扩散模型的技术的精心策划列表。

论文链接: https://arxiv.org/pdf/2406.11138

Github: https://github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision

cs.AI: 朝向理解情绪以进行积极的心理健康对话

原标题: Towards Understanding Emotions for Engaged Mental Health Conversations

作者: Kellie Yu Hui Sim, Kohleen Tijing Fortuno, Kenny Tsu Wei Choo

机构: 新加坡科技与设计大学

摘要: 在心理健康环境中，及时提供支持和干预至关重要。随着需要与习惯于通过短信交流的年轻人接触的增加，心理健康提供者正在探索并采用基于文本的媒体，如聊天机器人、基于社区的论坛、在线治疗与持牌专业人士以及由受过训练的响应者运营的热线。为了支持这些基于文本的心理健康媒体，特别是用于危机护理，我们正在开发一个系统，利用击键动态和情感分析的组合来进行被动情感感知。我们对这一系统的早期研究认为，对短文本消息和键盘输入模式的分析可以提供情感信息，这些信息可用于支持客户和响应者。我们利用初步研究结果讨论了将人工智能应用于支持心理健康提供者提供更好护理的未来方向。

论文链接: https://arxiv.org/pdf/2406.11135

cs.AI: 基于大语言模型的字幕增强语言查询音频源分离性能提升，用于 DCASE 挑战 2024 任务 9。

原标题: Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9

作者: Do Hyun Lee, Yoonah Song, Hong Kook Kim

机构: 光州科学技术学院AI研究生院、Aunion AI公司

摘要: 我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离（LASS）任务。为了增强LASS的性能，所提出的方法利用大语言模型（LLMs）生成与训练数据集中每个句子对应的多个标题。为此，我们首先进行实验，确定用较少数量的标题进行标题增强的最有效提示。使用这些增强标题训练的LASS模型在DCASE 2024任务9验证集上表现出比没有增强训练的模型更好的性能。这项研究突出了基于LLM的标题增强在推进语言查询音频源分离方面的有效性。

论文链接: https://arxiv.org/pdf/2406.11248

cs.AI: 利用高分辨率显微图像识别木材种类的深度学习方法

原标题: Deep Learning methodology for the identification of wood species using high-resolution macroscopic images

作者: David Herrera-Poyatos, Andrés Herrera-Poyatos, Rosana Montes, Paloma de Palacios, Luis G. Esteban, Alberto García Iruela, Francisco García Fernández, Francisco Herrera

机构: 格拉纳达大学安达卢西亚数据科学与计算智能研究所西班牙马德里理工大学森林与自然环境工程高等技术学院

摘要: 木材种类识别领域需要取得重大进展，以支持可持续的木材贸易。在这项工作中，我们致力于通过木材的高分辨率宏观图像来自动化木材种类的识别。这个问题的主要挑战在于木材中的细粒度图案对于准确识别木材种类至关重要，而这些图案并没有被传统卷积神经网络（CNN）在低/中分辨率图像上训练时正确学习到。我们提出了一种基于补丁推理投票的木材深度学习识别方法，简称TDLI-PIV方法。我们的提议利用了补丁概念和高分辨率木材宏观图像的可用性，以克服CNN在木材识别中面临的固有挑战。TDLI-PIV方法能够捕捉木材中的细粒度图案，并且通过协作投票推理过程提高了鲁棒性和预测准确性。
在这项工作中，我们还介绍了一个名为GOIMAI-Phase-I的新的木材宏观图像数据集，该数据集是通过光学放大获得的，以捕捉细微的细节，与其他公开可用的数据集形成对比。更具体地说，GOIMAI-Phase-I中的图像是使用附加到相机的24倍放大镜的智能手机拍摄的。我们的数据集包含2120张木材图像，涵盖了37种受法律保护的木材种类。
我们的实验评估了TDLI-PIV方法的性能，包括与文献中其他方法的比较，探索数据增强方法以及数据集大小对TDLI-PIV准确性的影响。

论文链接: https://arxiv.org/pdf/2406.11772

cs.AI: SpoT-Mamba：在具有选择性状态空间的时空图上学习长程依赖

原标题: SpoT-Mamba: Learning Long-Range Dependency on Spatio-Temporal Graphs with Selective State Spaces

作者: Jinhyeok Choi, Heehyeon Kim, Minhyeong An, Joyce Jiyoung Whang

机构: 韩国科学技术院(KAIST)

摘要: 时空图（STG）预测是一个在现实世界中具有广泛应用的关键任务，包括交通和天气预测。尽管最近提出了几种方法来模拟STG中的复杂动态，但解决长距离时空依赖仍然是一个重大挑战，导致性能提升有限。受最近提出的名为Mamba的状态空间模型的启发，该模型显示出捕获长距离依赖关系的显著能力，我们提出了一个名为SpoT-Mamba的新的STG预测框架。SpoT-Mamba通过扫描各种特定于节点的行走序列生成节点嵌入。基于节点嵌入，它进行时间扫描以捕获长距离时空依赖关系。对真实世界交通预测数据集的实验结果证明了SpoT-Mamba的有效性。

论文链接: https://arxiv.org/pdf/2406.11244

Github: https://github.com/bdi-lab/spot-mamba

cs.AI: 通过统计合同激励优质文本生成

原标题: Incentivizing Quality Text Generation via Statistical Contracts

作者: Eden Saig, Ohad Einav, Inbal Talgam-Cohen

机构: 以色列理工学院以色列理工学院特拉维夫大学

摘要: 随着大语言模型（LLMs）的成功增加了对机器生成文本的需求，当前的按标记付费定价方案导致了一种在经济学中被称为道德风险的激励错配：生成文本的智能体有强烈的动机通过更喜欢价格更便宜的模型而不是尖端模型来降低成本，而且这可以在“幕后”完成，因为智能体在内部执行推理。在这项工作中，我们从经济学的角度来解决这个问题，提出了一个基于绩效支付的合同框架，以激励质量。我们研究了一个委托代理博弈，其中代理使用昂贵的推理生成文本，合同根据自动质量评估确定委托人对文本的支付。由于当内部推理成本未知时标准合同理论不适用，我们引入了成本稳健的合同。作为我们的主要理论贡献，我们通过将最优成本稳健合同直接对应于统计学中最优复合假设检验的结果，从而推广了Saig等人（NeurIPS’23）的结果。我们通过为一系列目标和LLM评估基准推导合同来在经验上评估我们的框架，并发现与考虑成本的对应物相比，成本稳健合同只牺牲了目标价值的轻微增加。

论文链接: https://arxiv.org/pdf/2406.11118

Github: https://github.com/edensaig/llm-contracts

cs.AI: DustNet: 熟练的神经网络对撒哈拉沙尘的预测

原标题: DustNet: skillful neural network predictions of Saharan dust

作者: Trish E. Nowak, Andy T. Augousti, Benno I. Simmons, Stefan Siegert

机构: 埃克塞特大学金斯顿大学 Penryn生态与保护中心

摘要: 悬浮在大气中的数百万吨矿尘与天气和气候相互作用。在天气模型中准确表示矿尘至关重要，但仍然具有挑战性。大规模天气模型使用高性能超级计算机，需要数小时才能完成预测。这种计算负担使它们只能包含矿尘的月度气候平均值作为输入状态，从而抑制了它们的预测准确性。在这里，我们介绍了 DustNet，这是一个简单、准确且超快的 24 小时预测气溶胶光学厚度 AOD 的模型。DustNet 在不到 8 分钟内训练，在台式电脑上仅需 2 秒即可生成预测。由 DustNet 创建的预测在粗糙的 1 x 1 度分辨率上，与地面真实卫星数据相比，95% 的网格位置表现优于最先进的基于物理的模型。我们的结果显示 DustNet 具有快速准确的 AOD 预测潜力，这可能改变我们对矿尘对天气模式影响的理解。

论文链接: https://arxiv.org/pdf/2406.11754

cs.AI: 超越：生成模型可以胜过训练它们的专家

原标题: Transcendence: Generative Models Can Outperform The Experts That Train Them

作者: Edwin Zhang, Vincent Zhu, Naomi Saphra, Anat Kleiman, Benjamin L. Edelman, Milind Tambe, Sham M. Kakade, Eran Malach

机构: 哈佛大学加州大学圣巴巴拉分校普林斯顿大学谷歌DeepMind公司康普纳研究所苹果公司

摘要: 生成模型的训练目标很简单，即模仿它们所训练数据引发的条件概率分布。因此，当生成模型在由人类生成的数据上进行训练时，我们可能不指望这个人工模型能够在原始目标上胜过人类。在这项工作中，我们研究了超越现象：当一个生成模型实现了超越生成其数据的专家能力的情况。我们通过训练一个自回归 Transformer 从棋局记录中下棋来展示超越现象，并展示训练模型有时可以比数据集中的所有玩家表现更好。我们在理论上证明了超越是通过低温采样实现的，并在实验中进行了严格评估。最后，我们讨论了超越的其他来源，为未来在更广泛背景下对这一现象进行研究奠定了基础。

论文链接: https://arxiv.org/pdf/2406.11741

cs.AI: 想象力策略：使用生成点云模型来学习操作策略

原标题: Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies

作者: Haojie Huang, Karl Schmeckpeper, Dian Wang, Ondrej Biza, Yaoyao Qian, Haotian Liu, Mingxi Jia, Robert Platt, Robin Walters

机构: 东北大学机器人动力学研究所伍斯特理工学院布朗大学

摘要: 人类可以在规划过程中想象目标状态，并执行动作以实现这些目标。在这项工作中，我们提出了一种名为Imagination Policy的新型多任务关键帧策略网络，用于解决高精度的拾取和放置任务。Imagination Policy不是直接学习动作，而是生成点云来想象所需的状态，然后使用刚性动作估计将其转化为动作。这将动作推断转变为一个局部生成任务。我们利用生成过程中任务中的拾取和放置对称性，并实现了对未见配置的极高样本效率和泛化能力。最后，与几个强基线方法相比，我们在RLbench基准测试中展示了各种任务的最先进性能。

论文链接: https://arxiv.org/pdf/2406.11740

如果想您想查看常用AI工具的中文文档，可以使用 www.aidoczh.com，里面有Langchain、Milvus、AutoGen、DSPy等工具的官方文档的中文翻译。