2024年6月25日Arxiv人工智能相关论文

最新推荐文章于 2024-07-10 14:06:56 发布

数智笔记

最新推荐文章于 2024-07-10 14:06:56 发布

阅读量773

点赞数 11

分类专栏：论文速递文章标签：人工智能

本文链接：https://blog.csdn.net/wjjc1017/article/details/139965647

版权

论文速递专栏收录该内容

73 篇文章 8 订阅

订阅专栏

cs.AI: QuadrupedGPT：朝向在开放世界中多才多艺的四足智能体

原标题: QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds

作者: Ye Wang, Yuting Mei, Sipeng Zheng, Qin Jin

机构: 中国人民大学北京智能科技研究院

摘要: 宠物虽然提供陪伴，但它们有限的智力限制了与人类的高级推理和自主交互。考虑到这一点，我们提出了QuadrupedGPT，这是一个多功能智能体，旨在掌握广泛复杂任务，其灵活性可与宠物相比。为了实现这一目标，主要挑战包括：i) 有效利用多模态观测进行决策；ii) 掌握灵活的运动控制和路径规划；iii) 发展先进认知以执行长期目标。QuadrupedGPT使用大型多模态模型（LMM）处理人类命令和环境背景。凭借其广泛的知识库，我们的智能体能够自主分配适当的参数以适应运动策略，并指导规划一个安全而高效的路径朝向目标，利用语义感知的地形分析。此外，QuadrupedGPT具备问题解决能力，能够通过高级推理将长期目标分解为一系列可执行的子目标。在各种基准测试中进行的广泛实验证实，QuadrupedGPT能够灵活处理多个任务，包括复杂的指令，展示了通向开放式世界中多用途四足智能体的重要进展。我们的网站和代码可以在此链接找到。

论文链接: https://arxiv.org/pdf/2406.16578

Github: https://quadruped-hub.github.io/Quadruped-GPT/

cs.AI: CausalMMM：学习市场营销组合建模的因果结构

原标题: CausalMMM: Learning Causal Structure for Marketing Mix Modeling

作者: Chang Gong, Di Yao, Lei Zhang, Sheng Chen, Wenbin Li, Yueyang Su, Jingping Bi

机构: 中国科学院计算技术研究所

摘要: 在线广告中，营销组合建模（MMM）用于预测品牌店铺的总商品交易量（GMV），帮助决策者调整各种广告渠道的预算分配。传统的基于回归技术的MMM方法可能在处理营销复杂性方面存在失败的风险。尽管一些方法尝试对因果结构进行编码以实现更好的预测，但它们严格限制于因果结构必须事先知晓且不可更改的情况下。本文定义了一个新的因果MMM问题，该问题能够从数据中自动发现可解释的因果结构，并产生更好的GMV预测结果。为了实现因果MMM，需要解决两个关键挑战：（1）因果异质性。不同类型的店铺具有不同的因果结构。（2）营销响应模式。各种营销响应模式，如传递效应和形状效应，在实践中已被验证。我们认为因果MMM需要动态地为不同的店铺发现特定的因果结构，并且预测结果应符合已知的营销响应模式。因此，我们提出了CausalMMM，它在变分推断框架中整合了Granger因果性，用于衡量不同渠道之间的因果关系，并预测GMV，同时通过时间和饱和营销响应模式的正则化来提高预测精度。大量实验证明，CausalMMM不仅可以在合成数据集上实现因果结构学习的卓越性能，改进幅度在5.7%至7.1%之间，还能增强代表性电子商务平台上的GMV预测结果。

论文链接: https://arxiv.org/pdf/2406.16728

cs.AI: 预期运行时间比较：广度优先搜索与恒定深度重启随机游走

原标题: Expected Runtime Comparisons Between Breadth-First Search and Constant-Depth Restarting Random Walks

作者: Daniel Platnick, Richard Anthony Valenzano

机构: 多伦多大都会大学向量研究所

摘要: 当贪婪搜索算法遇到局部最小值或平台时，搜索通常退化为广度优先搜索（BrFS），或者使用局部搜索技术试图找到一种出路。在这项工作中，我们正式分析了BrFS和常深度重启随机游走（RRW）的性能——这两种方法通常用于寻找从平台/局部最小值出口，以更好地理解每种方法最适合的情况。具体而言，我们正式推导了在给定目标深度处的均匀分布目标集合情况下，BrFS的预期运行时间。然后我们证明，如果在目标深度有足够多的目标，RRW将比BrFS更快地搜索树。我们将这个阈值称为交叉点。我们的界定显示，交叉点随树的分支因子、目标深度和随机游走深度误差线性增长，而树的大小则随分支因子和目标深度呈指数增长。最后，我们讨论了此界定的实际影响和适用性。

论文链接: https://arxiv.org/pdf/2406.16697

cs.AI: 不同分布鲁棒优化层

原标题: Differentiable Distributionally Robust Optimization Layers

作者: Xutao Ma, Chao Ning, Wenli Du

机构: 清华大学

摘要: 近年来，决策集中学习引起了越来越多的研究兴趣，将优化问题嵌入学习流程中，并展示了比预测集中方法更出色的性能。然而，对于分布鲁棒优化（DRO），这是一种在不确定性下进行决策的流行范式，如何将其嵌入为一层，即如何相对于一个模糊集合区分决策，仍然是未知的。在本文中，我们为具有参数化二阶锥模糊集合的通用混合整数 DRO 问题开发了这样的可微分 DRO 层，并讨论了将其扩展到 Wasserstein 模糊集合的方法。为了区分混合整数决策，我们提出了一种新颖的双视角方法，通过不同的原则处理决策的连续和离散部分。具体来说，我们构建了一个可微分的基于能量的替代方法来实现双视角方法，并使用重要性采样来估计其梯度。我们进一步证明了这样的替代方法在正则化下享有渐近收敛性。作为所提出的可微分 DRO 层的应用，我们为情境分布鲁棒决策任务开发了一种新颖的决策集中学习流程，并在实验中将其与预测集中方法进行比较。

论文链接: https://arxiv.org/pdf/2406.16571

cs.AI: 黑客一个替代模型的方法来实现XAI

原标题: Hacking a surrogate model approach to XAI

作者: Alexander Wilhelm, Katharina A. Zweig

机构: 德国人工智能研究中心 (DFKI) RPTU Kaiserslautern-Landau

摘要: 近年来，高度复杂的AI系统的新应用数量显著增加。算法决策系统（ADM）是其中之一，AI系统在这些系统中取代了人类专家的决策过程。作为确保这类系统公平和透明的一种方法，可解释AI（XAI）变得更加重要。实现解释性的一种方法是使用替代模型，即基于黑盒模型的输入输出关系训练新的简化机器学习模型的想法。简化的机器学习模型可以是决策树，人类通常能够直观理解这种模型。然而，目前对替代模型如何有效近似黑盒模型并不清楚。

我们的主要假设是，一个良好的替代模型方法应该能够引起人类对这种歧视行为的关注；在我们的研究之前，我们假设一个替代决策树能够在其最初几个级别上识别出这种模式。然而，在本文中，我们表明，即使受到歧视的子群体在其他所有类别中是相同的，也没有从黑盒ADM系统中获得单个积极的决策，系统操作者也可以将群体成员的归属问题推迟到任意低的级别。

然后，我们将这一发现推广到指出在决策树的确切级别上提出歧视性问题，并显示在更现实的场景中，当歧视仅发生在某个劣势群体的部分成员时，隐藏这种歧视甚至更为可行。我们的方法可以轻松推广到其他替代模型。

论文链接: https://arxiv.org/pdf/2406.16626

cs.AI: 神经消息传递在时间图中推断序列模式

原标题: Inference of Sequential Patterns for Neural Message Passing in Temporal Graphs

作者: Jan von Pichowski, Vincenzo Perri, Lisi Qarkaxhija, Ingo Scholtes

机构: Julius-Maximilians-Universität Würzburg

摘要: 在动态图中建模时间模式是当前时间感知图神经网络发展中的重要研究问题。一个特定的时间图事件序列是否构成时间模式不仅取决于其发生频率。我们考虑在时间图中它是否偏离了时间戳随机重排的预期。虽然考虑这样一个随机基准对于建模时间模式非常重要，但它在当前时间图神经网络中大多被忽视。为了解决这个问题，我们提出了HYPA-DBGNN，这是一种新颖的两步方法，结合了以下两个步骤：(i) 基于统计上合理的空模型推断图数据时间序列中的异常顺序模式，以及 (ii) 利用高阶De Bruijn图的神经消息传递方法，其边缘捕获了过度表示的顺序模式。我们的方法利用超几何图集合来识别第一和高阶De Bruijn图中的异常边，这些图编码了事件的时间顺序。该模型引入了归纳偏置，增强了模型的可解释性。我们评估了我们的方法在使用基准数据集和展示其在集成归纳偏置方面能力的合成数据集上进行静态节点分类的效果。我们展示了该框架在检测实证数据集中相似模式方面的有效性，结果表明在节点分类任务中相比基准方法具有更优的性能。据我们所知，我们的工作是首次引入利用时间和因果序列异常的统计信息的图神经网络。HYPA-DBGNN代表了连接统计图推断和神经图表示学习之间差距的路径，具有应用于静态图神经网络的潜力。

论文链接: https://arxiv.org/pdf/2406.16552

cs.AI: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization

原标题: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization

作者: Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu

机构: 福熙人工智能实验室网易公司

摘要: 定制图像生成，旨在合成具有一致特征的图像，在诸如叙事、肖像生成和角色设计等应用中具有重要意义。然而，先前的方法在保持高保真一致性方面遇到了挑战，原因是特征提取不足以及参考角色概念混淆。因此，我们提出了角色适配器（Character-Adapter），这是一个即插即用的框架，旨在生成保留参考角色细节的图像，确保高保真一致性。角色适配器采用提示引导的分割技术，以确保参考角色的细粒度区域特征，并利用动态区域级适配器来减轻概念混淆。我们进行了大量实验证明了角色适配器的有效性。定量和定性结果均表明，与其他方法相比，角色适配器在一致性角色生成方面取得了最先进的性能，改善了24.8%。

论文链接: https://arxiv.org/pdf/2406.16537

cs.AI: 同态和嵌入STRIPS规划模型

原标题: Homomorphisms and Embeddings of STRIPS Planning Models

作者: Arnaud Lequen, Martin C. Cooper, Frédéric Maris

机构: IRIT 法国oulouse

摘要: 确定两个STRIPS规划实例是否同构是规划实例之间比较的最简形式。它也是一个特定问题的特例，该问题涉及在规划实例 $P$ 与另一个实例 $P_0$ 的子实例之间找到同构。这种映射的一个应用是从包含解决方案的编译形式 $P_0$ 中高效地生成包含P的所有解决方案的编译形式。我们还介绍了从实例 $P$ 嵌入到另一个实例 $P_0$ 的概念，这使我们能够推断如果 $P$ 是不可解的，则 $P_0$ 没有解决方案-计划。在本文中，我们研究了这些问题的复杂性。我们展示了第一个问题是GI-complete的，因此理论上可以在准多项式时间内解决。虽然我们证明了其余的问题是NP-complete的，但我们提出了一种算法来建立同构（如果可能）。我们在基准问题上进行了大量实验试验，结果明确表明，在预处理中应用约束传播可以极大地提高SAT求解器的效率。

论文链接: https://arxiv.org/pdf/2406.16555

cs.AI: 朝着全面的偏好数据收集以支持奖励建模

原标题: Towards Comprehensive Preference Data Collection for Reward Modeling

作者: Yulan Hu, Qingyang Li, Sheng Ouyang, Ge Chen, Kaihui Chen, Lijun Mei, Xucheng Ye, Fuzheng Zhang, Yong Liu

机构: 人民大学北京中科院

摘要: 强化学习从人类反馈（RLHF）促进了大语言模型（LLMs）与人类偏好的对齐，从而提升了生成响应的质量。RLHF 的关键组成部分是奖励模型，该模型在推理阶段训练于偏好数据并输出标量奖励。然而，偏好数据的收集仍缺乏深入的调查。最近的研究表明，偏好数据由AI或人类收集，其中在成对回应中确定了选择和拒绝的实例。我们质疑这一过程是否有效地过滤噪声并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个增量步骤：提示生成、响应生成、响应过滤和人工标注。这种结构化方法确保了高质量偏好的收集，同时减少了对人工劳动的依赖。我们基于不同阶段收集的数据进行了全面的实验，展示了所提出的数据收集方法的有效性。

论文链接: https://arxiv.org/pdf/2406.16486

cs.AI: 避免生成AI模型中有害医疗产品推荐和超标推广的防护栏杆

原标题: Guardrails for avoiding harmful medical product recommendations and off-label promotion in generative AI models

作者: Daniel Lopez-Martinez

机构: 亚马逊

摘要: 生成AI（GenAI）模型在各种医疗任务中展示了显著的能力。然而，由于这些模型是使用具有非常有限人类监督的通用数据集进行训练的，它们可能学习到的医疗产品用途未经充分评估其安全性和有效性，也未经监管机构批准。鉴于GenAI可能影响用户的规模，未经审查的建议会构成公共健康风险。在这项工作中，我们提出了一种识别潜在有害产品建议的方法，并使用了最近的多模态大语言模型进行了演示。

论文链接: https://arxiv.org/pdf/2406.16455

cs.AI: NARRepair: 非自回归代码生成模型用于自动程序修复

原标题: NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair

作者: Zhenyu Yang, Zhen Yang, Zhongxing Yu

机构: 山东大学

摘要: 随着深度学习技术的进步，自动程序修复（APR）技术的性能已经达到了一个新水平。先前基于深度学习的APR技术基本上是以自回归（AR）的方式修改程序语句，这种方法根据过去的值预测未来的值。由于逐词生成的方式，基于AR的APR技术存在巨大的时间延迟。这一负面影响掩盖了APR技术在实际软件开发中的广泛采用。

为了解决这个问题，我们旨在将非自回归（NAR）方法应用于APR任务，该方法可以以并行的方式输出目标代码，避免巨大的推理延迟。为了有效地适应NAR方式进行APR任务，本文提出了NARRepair，这是第一个为APR任务定制的NAR代码生成模型。NARRepair具有三个主要的创新点，包括：1）使用修复动作来减轻过度修正问题，2）从AST中提取依赖信息以减轻缺乏词间依赖信息的问题，3）采用两阶段解码来减轻缺乏上下文信息的问题。我们在APR社区中使用的三个广泛使用的数据集上评估了NARRepair，结果表明我们的技术能显著提高推理速度同时保持高修复准确性。

论文链接: https://arxiv.org/pdf/2406.16526

cs.AI: 记忆增强神经求解器用于组合优化中的高效适应您需要关于特定术语的翻译吗？

原标题: Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

作者: Felix Chalumeau, Refiloe Shabe, Noah de Nicola, Arnu Pretorius, Thomas D. Barrett, Nathan Grinsztajn

机构: 南非开普敦大学

摘要: 组合优化对许多现实世界的应用至关重要，但由于其（NP-）难度，仍然存在挑战。在现有方法中，启发式方法通常在质量和可扩展性之间提供最佳权衡，使其适合工业应用。虽然强化学习（RL）提供了一个灵活的框架来设计启发式方法，但在工业求解器中，其采纳率仍然不完全。现有的学习方法仍然缺乏适应特定实例并充分利用可用的计算预算的能力。当前最佳方法要么依赖于一组预先训练的策略，要么依赖于数据效率低下的微调；因此在预算约束条件下未能充分利用新的可用信息。作为回应，我们提出了MEMENTO，这是一种RL方法，利用记忆来提高神经求解器在推理时的适应性。MEMENTO能够根据先前决策的结果动态更新行动分布。我们验证了其在基准问题上的有效性，特别是旅行推销员问题和容量限制车辆路径问题，证明它可以成功地与标准方法结合，以在给定预算下提升它们的性能，无论在内部还是外部分布，改善它们在所有12个评估任务中的表现。

论文链接: https://arxiv.org/pdf/2406.16424

cs.AI: $\text{Alpha}^2$ : 使用深度强化学习发现逻辑公式化的Alpha

原标题: $\text{Alpha}^2$ : Discovering Logical Formulaic Alphas using Deep Reinforcement Learning

作者: Feng Xu, Yan Yin, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Zongzhang Zhang

机构: 南京大学香港大学

摘要: Alpha 在量化交易中起着关键作用，提供信号。与表达能力强但易于过拟合的黑匣子 Alpha 相比，行业高度重视发现具有解释性和分析易用性的公式化 Alpha。本文重点研究公式化 Alpha 的发现。先前关于自动生成一系列公式化 Alpha 的研究主要基于遗传编程（GP），但已知存在对初始种群敏感、转向局部最优和计算速度慢等问题。最近使用深度强化学习（DRL）进行 Alpha 发现的努力尚未完全解决关键的实际考虑因素，如 Alpha 之间的相关性和有效性，这对其效果至关重要。本文提出了一种使用 DRL 进行 Alpha 发现的新框架，通过将 Alpha 发现过程形式化为程序构建。我们的智能体 $\text{Alpha}^2$ 组装了一个针对评估指标优化的 Alpha 程序。一个由 DRL 引导的搜索算法根据潜在 Alpha 结果的价值估计导航搜索空间。评估指标鼓励提高 Alpha 的性能和多样性，以实现更好的最终交易策略。我们对 Alpha 的搜索形式化还带来了预计算维度分析的优势，确保 Alpha 的逻辑合理性，并在很大程度上修剪了庞大的搜索空间。在真实股票市场的实证实验中，证明了 $\text{Alpha}^2$ 能够识别出多样且有效的 Alpha，显著提升了最终交易策略的性能。我们方法的代码可在此 https URL 获得。

论文链接: https://arxiv.org/pdf/2406.16505

Github: https://github.com/x35f/alpha2

cs.AI: UNICAD：攻击检测、噪音减少和新类别识别的统一方法

原标题: UNICAD: A Unified Approach for Attack Detection, Noise Reduction and Novel Class Identification

作者: Alvaro Lopez Pellicer, Kittipos Giatgong, Yi Li, Neeraj Suri, Plamen Angelov

机构: 兰卡斯特大学

摘要: 随着深度神经网络（DNNs）的广泛应用，它们对于对抗攻击的脆弱性以及处理未见类别的能力限制提出了重要挑战。目前的技术提供了针对特定对抗攻击场景、分类或演化学习的离散解决方案。然而，真实世界的系统需要能够在不牺牲分类准确性的情况下，检测和应对广泛的对抗攻击，并在未见情景中灵活应对。本文提出了UNICAD作为一个整合多种技术的新型框架，以提供自适应解决方案。
针对目标图像分类，UNICAD利用原型和基于相似性的DNN以及去噪自编码器实现了准确的图像分类，检测到未见类别，并能从对抗攻击中恢复。我们在CIFAR-10数据集上的实验突显了UNICAD在对抗缓解和未见类分类方面的效果，优于传统模型。

论文链接: https://arxiv.org/pdf/2406.16501

cs.AI: 跨领域通过元优化方法传输偏好倾向

原标题: Cross-domain Transfer of Valence Preferences via a Meta-optimization Approach

作者: Chuang Zhao, Hongke Zhao, Ming He, Xiaomeng Li, Jianping Fan

机构: 空字符串

摘要: 跨领域推荐提供了缓解数据稀疏性和冷启动问题的潜在途径。作为经典的跨领域研究类型，嵌入和映射旨在确定一个通用映射函数，用于在两个领域之间进行表示转换。然而，先前的粗粒度偏好表示、非个性化映射函数以及过度依赖重叠用户限制了它们的性能，特别是在重叠用户稀少的情况下。为了解决上述挑战，我们提出了一种新的跨领域方法，即CVPM。CVPM将跨领域兴趣转移形式化为参数化元学习和自监督学习的混合架构，不仅在更细的层次上转移用户偏好，还通过非重叠用户的知识增强信号。具体而言，通过对用户偏好和偏好倾向理论的深入洞察，我们认为用户的正向偏好和负面行为之间存在显著差异，因此采用不同的编码器学习它们的分布。特别地，我们进一步利用预训练模型和项目流行度来采样伪交互项目，以确保两个分布的完整性。为了保证偏好转移的个性化，我们将每个用户的映射视为两部分，即通用转换和个性化偏差，其中用于生成个性化偏差的网络由元学习器输出。此外，除了针对重叠用户的监督损失外，我们还为来自群体和个体级别的非重叠用户设计对比任务，以避免模型偏斜并增强表示的语义。详尽的数据分析和广泛的实验结果证明了我们提出的框架的有效性和进步性。

论文链接: https://arxiv.org/pdf/2406.16494

cs.AI: 新兴的前向-前向学习中的新黑比安动态：对神经形态计算的影响

原标题: Emerging NeoHebbian Dynamics in Forward-Forward Learning: Implications for Neuromorphic Computing

作者: Erik B. Terres-Escudero, Javier Del Ser, Pablo García-Bringas

机构: 德乌斯托大学技纳利亚巴斯克大学

摘要: 神经计算的进展主要依赖于梯度反向传播算法（BP）。然而，最近转向非稳态数据建模突显了这一启发式方法的局限性，揭示出其适应能力远不及生物大脑所见。与BP不同的是，权重更新是通过反向错误传播路径计算的，而赫布学习动态则仅利用层内信息进行突触更新。这激发了对生物合理学习算法的兴趣，假设其能够克服BP的缺点。在这一背景下，Hinton最近引入了前向算法（FFA），该算法为每一层采用本地学习规则，并在多个数据建模任务中经验性地证明了其有效性。在这项工作中，我们认为当采用平方欧几里得范数作为驱动本地学习的优良函数时，结果得到的FFA等效于新赫布学习规则。为验证此结果，我们比较了模拟网络中FFA的训练行为及其在尖峰神经网络中的赫布适应性。我们的实验表明，FFA的两个版本均产生类似的准确性和潜在分布。本研究结果提供了将生物学习规则与当前使用的训练算法联系起来的经验证据，从而为将FFA的积极成果推广到赫布学习规则铺平了道路。同时，我们的结果表明，在FFA下训练的模拟网络可以直接应用于神经形态计算，从而减少能源使用并提高计算速度。

论文链接: https://arxiv.org/pdf/2406.16479

cs.AI: 寻找不确定性中的确定性：双阶段统一框架解决动态面部表情识别中的不确定性

原标题: Seeking Certainty In Uncertainty: Dual-Stage Unified Framework Solving Uncertainty in Dynamic Facial Expression Recognition

作者: Haoran Wang, Xinji Mai, Zeng Tao, Xuan Tong, Junxiong Lin, Yan Wang, Jiawen Yu, Boyang Wang, Shaoqi Yan, Qing Zhao, Ziheng Zhou, Shuyong Gao, Wenqiang Zhang

机构: 复旦大学上海工程研究中心

摘要: 当代的动态面部表情识别（DFER）技术的最新状态已经取得了显著进展，通过从视频内容中推导面部表情的情感映射，基于对大量数据集的训练。然而，DFER 数据集包含大量噪声数据。噪声源自于质量低下的采集，使得逻辑标注困难，并导致由于注释偏差而发生误标注的情况，产生了两种主要类型的不确定性：关于数据可用性的不确定性和关于标签可靠性的不确定性。针对这两种不确定性，我们精心设计了一个两阶段框架，旨在寻求在广泛的不确定数据中找到确信的数据（SCIU）。该举措旨在清除DFER数据集中的这些不确定性，从而确保只有清洁、经过验证的数据用于训练过程。为了减轻低质量样本的问题，我们引入了粗粒度修剪（CGP）阶段，该阶段评估样本权重，并修剪那些由于其低权重而无法使用的样本。对于带有错误标注的样本，精细修正（FGC）阶段评估预测稳定性，以纠正错误标记的数据。此外，SCIU被构想为一个通用兼容、即插即用的框架，旨在与现有的DFER方法无缝集成。在流行的DFER数据集和多个基准方法上进行的严格实验证明了SCIU显著提升性能指标的能力。

论文链接: https://arxiv.org/pdf/2406.16473

cs.AI: 学习在 Wilson-Cowan 模型中的元种群

原标题: Learning in Wilson-Cowan model for metapopulation

作者: Raffaele Marino, Lorenzo Buffoni, Lorenzo Chicchi, Francesca Di Patti, Diego Febbe, Lorenzo Giambagli, Duccio Fanelli

机构: 佛罗伦萨大学佩鲁贾大学

摘要: 对于元种群的Wilson-Cowan模型，一种神经大网络模型，将大脑的不同亚皮层区域视为连接节点，连接表示这些区域之间的各种结构、功能或有效的神经连接。每个区域包括与标准Wilson-Cowan模型一致的兴奋性和抑制性细胞群体的相互作用。通过将稳定吸引子结合到这种元种群模型的动态中，我们将其转变为能够实现高图像和文本分类准确性的学习算法。我们在MNIST和Fashion MNIST上测试它，与卷积神经网络结合在CIFAR-10和TF-FLOWERS上，在Transformer架构（BERT）的配合下在IMDB上，始终展示高分类准确性。这些数值评估表明，对于元种群的Wilson-Cowan模型进行最小修改可以揭示独特且以前未观察到的动态。

论文链接: https://arxiv.org/pdf/2406.16453

cs.AI: 理论上的混合专家在持续学习中。

原标题: Theory on Mixture-of-Experts in Continual Learning

作者: Hongbo Li, Sen Lin, Lingjie Duan, Yingbin Liang, Ness B. Shroff

机构: 新加坡科技与设计大学俄亥俄州立大学

摘要: 持续学习（CL）因其适应随时间推移而到来的新任务的能力而受到重视。在CL中，灾难性遗忘（旧任务）被认为是一个主要问题，因为模型适应新任务。最近，混合专家（MoE）模型已被证明可以有效减轻CL中的灾难性遗忘，通过利用一个门控网络来使多个专家之间的任务分散和多样化。然而，对MoE及其在CL中学习性能影响的理论分析尚不足。本文通过过参数化线性回归任务的视角提供了首个理论结果，以表征MoE在CL中的影响。我们通过证明MoE模型能够通过多样化其专家来专注于不同任务，同时其路由器学习选择每个任务的正确专家并在所有专家之间平衡负载，从而证明了MoE相对于单个专家的好处。我们的研究进一步表明了一个有趣的事实，即在CL中的MoE需要在足够的训练轮次后终止门控网络的更新，以实现系统的收敛，而在不考虑持续任务到达的现有MoE研究中则不需要这样做。此外，我们提供了期望遗忘和整体泛化误差的显式表达式，以表征MoE在CL学习性能中的好处。有趣的是，增加更多的专家在收敛之前需要额外的轮次，这可能不会提高学习性能。最后，我们在合成和真实数据集上进行实验证明了这些线性模型洞察力扩展到深度神经网络（DNNs）上，同时也为MoE在CL中的实际算法设计提供了启示。

论文链接: https://arxiv.org/pdf/2406.16437

cs.AI: 动态伪标签优化在点监督核分割中的应用

原标题: Dynamic Pseudo Label Optimization in Point-Supervised Nuclei Segmentation

作者: Ziyue Wang, Ye Zhang, Yifeng Wang, Linghan Cai, Yongbing Zhang

机构: 哈尔滨工业大学深圳校区国立新加坡大学

摘要: 深度学习在细胞核分割方面取得了显著的成果，但对像素级标签的大量需求仍然是一个重大挑战。为了减轻标注负担，现有方法利用点标签生成模型训练的伪掩模。然而，生成的掩模与真实情况不可避免地存在差异，并且在网络训练过程中未能合理处理这些差异，导致分割模型表现不佳。为了解决这个问题，我们提出了一个名为 DoNuSeg 的框架，实现了在点监督的细胞核分割中的动态伪标签优化。具体来说，DoNuSeg利用类激活图（CAMs）自适应捕获语义与标注点相似的区域。为了利用层次特征中的语义多样性，我们设计了一个动态选择模块，从不同编码器块的CAMs中选择最佳的伪掩模。同时，提出了一个CAM引导的对比模块，进一步增强了伪掩模的准确性。除了利用CAMs提供的语义信息外，我们还考虑了点标签固有的位置先验，开发了一种任务解耦结构，有效区分细胞核。大量实验表明，DoNuSeg优于现有的点监督方法。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.16427

Github: https://github.com/shinning0821/MICCAI24-DoNuSeg

cs.AI: 稳定正常化：减少扩散方差以实现稳定和清晰的正态

原标题: StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

作者: Chongjie Ye, Lingteng Qiu, Xiaodong Gu, Qi Zuo, Yushuang Wu, Zilong Dong, Liefeng Bo, Yuliang Xiu, Xiaoguang Han

机构: 香港中文大学（深圳）、阿里巴巴集团

摘要: 这项工作解决了从单眼彩色输入（即图像和视频）中进行高质量表面法线估计的挑战，这一领域最近通过重新利用扩散先验得到了革新。然而，先前的尝试仍然面临随机推断的困难，与图像到法线任务的确定性特性相冲突，以及昂贵的集成步骤，这减慢了估计过程。我们的方法，StableNormal，通过减少推断方差来减轻扩散过程的随机性，从而在不需要额外集成处理的情况下产生“稳定而锐利”的法线估计。StableNormal在极端光照、模糊和低质量等挑战性成像条件下表现出良好的稳健性。它还能够抵抗透明和反射表面以及充斥着大量物体的混乱场景。具体而言，StableNormal采用了粗到精的策略，首先使用一步法法线估计器（YOSO）得出一个相对粗糙但可靠的初始法线猜测，然后通过语义引导的细化过程（SG-DRN）来提炼法线以恢复几何细节。StableNormal的有效性通过在标准数据集（如DIODE-indoor、iBims、ScannetV2和NYUv2）中的竞争性表现以及在表面重建和法线增强等各种下游任务中得到了证明。这些结果表明，StableNormal保留了精确法线估计所需的“稳定性”和“锐利性”。StableNormal代表了重新利用扩散先验进行确定性估计的初步尝试。为了普及这一方法，代码和模型已在该网址公开提供。

论文链接: https://arxiv.org/pdf/2406.16864

其他链接: http://hf.co/Stable-X

cs.AI: 故障检测对电力网拓扑优化的影响：一项综合分析

原标题: Fault Detection for agents on power grid topology optimization: A Comprehensive analysis

作者: Malte Lehna, Mohamed Hassouna, Dmitry Degtyar, Sven Tomforde, Christoph Scholz

机构: 弗劳恩霍夫IEE 基尔大学

摘要: 使用深度强化学习（DRL）进行传输网络拓扑优化越来越受到关注。各种研究人员提出了不同的DRL智能体，通常在Learning to Run a Power Network（L2RPN）挑战中的Grid2Op环境上进行基准测试。这些环境具有其逼真的时间序列和潜在的电力流后端的优势。然而，对智能体生存或失败的解释并不总是清晰的，因为存在各种潜在原因。在这项工作中，我们专注于电网故障以识别模式并在先验上检测它们。我们收集了WCCI 2022 L2RPN环境中三种不同智能体的故障时间序列，总计约40,000个数据点。通过聚类，我们能够检测出五个不同的群集，识别出不同的故障类型。此外，我们提出了一种多类别预测方法来预测故障并评估五种不同的模型。在这里，轻量梯度增强机器（LightGBM）表现出最佳性能，准确率达到86%。它还能在91%的时间内正确识别故障和生存观察结果。最后，我们提供了详细的特征重要性分析，识别了电网中的关键特征和区域。

论文链接: https://arxiv.org/pdf/2406.16426

cs.AI: 探索频率感知提示在跨领域少样本分类中的应用

原标题: Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting

作者: Tiange Zhang, Qing Cai, Feng Gao, Lin Qi, Junyu Dong

机构: 中国海洋大学

摘要: 跨领域少样本学习在元学习的推动下取得了显著进展。然而，大多数现有方法更多关注通过特征调整或任务多样性改进来学习领域自适应的归纳偏置（元知识），却忽视了深度网络倾向于依赖高频提示做出分类决策的现象，从而降低了学习到的归纳偏置的鲁棒性，因为高频信息易受噪声信息干扰。因此，在本文中，我们首次尝试提出一种带有频率感知的互注意力的跨领域少样本分类方法，可以让网络在面对新的识别任务时模拟人类视觉感知选择不同频率提示的过程。具体来说，首先提出了一种频率感知提示机制，通过将分解的源图像的高频成分进行正态分布抽样或置零，来获取频率感知增强样本。然后，设计了一个互注意力模块来学习在跨领域少样本学习设置下的可泛化归纳偏置。更重要的是，所提出的方法是一个即插即用的模块，可以直接应用于大多数现有的跨领域少样本学习方法中。在跨领域少样本学习基准测试上的实验结果显示，我们提出的方法有效性显著，并且稳健地提高了现有跨领域少样本学习方法的性能。更多资源请见该网址。

论文链接: https://arxiv.org/pdf/2406.16422

Github: https://github.com/tinkez/FAP_CDFSC

cs.AI: PenSLR：使用集成技术的波斯语端到端手语识别

原标题: PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling

作者: Amirparsa Salmankhah, Amirreza Rajabi, Negin Kheirmand, Ali Fadaeimanesh, Amirreza Tarabkhah, Amirreza Kazemzadeh, Hamed Farbeh

机构: 阿米尔卡比尔工业大学

摘要: 手语识别（SLR）是一个快速发展的领域，旨在弥补听障人士与没有听力损失的人之间的沟通差距。现有的波斯手语（PSL）解决方案仅限于词级别的解释，突显出需要更先进和全面的解决方案。此外，先前针对其他语言的工作主要集中在操作神经网络架构或硬件配置，而不是从多模型聚合结果中获益。在本文中，我们介绍了PenSLR，一个基于手套的手语系统，包括由深度学习框架驱动的惯性测量单元（IMU）和五个灵活传感器，能够预测可变长度的序列。我们通过利用连接主义时间分类（CTC）损失函数，以端到端的方式实现了这一目标，消除了对输入信号进行分割的需要。为了进一步增强其能力，我们提出了一种新的集成技术，通过利用称为星型对齐的多序列对齐算法。此外，我们引入了一个新的PSL数据集，包括16个PSL手势，总计超过3000个时间序列样本。我们利用该数据集基于四个词级别和句子级别的指标评估了系统的性能。我们的评估结果显示，PenSLR在主体独立和主体相关设置中分别达到了显著的词级准确率，分别为94.58%和96.70%。这些成就归因于我们的集成算法，在相应情景中不仅提高了词级性能0.51%和1.32%，而且分别显著提高了1.46%和4.00%的句子级准确性。

论文链接: https://arxiv.org/pdf/2406.16388

cs.AI: 自动从屏幕截图生成 UI 代码：一种基于分而治之的方法

原标题: Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach

作者: Yuxuan Wan, Chaozheng Wang, Yi Dong, Wenxuan Wang, Shuqing Li, Yintong Huo, Michael R. Lyu

机构: 香港中文大学

摘要: 网站在今天的数字世界中至关重要，目前有超过11.1亿个活跃网站，每天约有252,000个新网站上线。将网站布局设计转换为功能性 UI 代码是网站开发中耗时但不可或缺的步骤。将视觉设计手动转换为功能代码的方法对非专家来说具有显著挑战。为了探索自动设计到代码的解决方案，我们首先对 GPT-40 进行了激励性研究，并识别出生成 UI 代码过程中的三种问题类型：元素遗漏、元素失真和元素错位。我们进一步揭示，专注于较小的视觉段落可以帮助多模态大语言模型（MLLMs）减少这些生成过程中的失败。在本文中，我们提出了 DCGen，这是一种基于分而治之的方法，用于自动将网页设计转换为 UI 代码。DCGen 首先将屏幕截图分成可管理的段落，为每个段落生成描述，然后将它们重新组装成完整的屏幕截图的 UI 代码。我们使用包含真实网站和各种 MLLMs 的数据集进行了广泛测试，并展示 DCGen 在视觉相似性上比竞争方法提高了高达14%。据我们所知，DCGen 是第一个基于片段感知的基于提示的方法，直接从屏幕截图生成 UI 代码。

论文链接: https://arxiv.org/pdf/2406.16386

cs.AI: 通过课程图稀疏化实现轻量化图神经网络搜索

原标题: Towards Lightweight Graph Neural Network Search with Curriculum Graph Sparsification

作者: Beini Xie, Heng Chang, Ziwei Zhang, Zeyang Zhang, Simin Wu, Xin Wang, Yuan Meng, Wenwu Zhu

机构: 清华大学兰州大学

摘要: 图神经架构搜索（GNAS）在各种图结构任务上取得了优越的性能。然而，现有的GNAS研究忽视了在资源受限场景下应用GNAS的可能性。本文提出设计一种联合图数据和架构机制，通过有价值的图数据识别重要的子架构。为了搜索最优轻量级图神经网络（GNNs），我们提出了一种带有图稀疏化和网络修剪的轻量级图神经架构搜索（GASSIP）方法。特别地，GASSIP包括一个操作修剪的架构搜索模块，以实现高效的轻量级GNN搜索。同时，我们设计了一种新颖的课程图数据稀疏化模块，结合架构感知的边移除难度测量，帮助选择最优的子架构。通过两个可微分掩码的辅助，我们迭代优化这两个模块，以有效地搜索最优轻量级架构。在五个基准测试上的广泛实验表明了GASSIP的有效性。特别是，我们的方法在搜索的GNNs模型参数减半或更少，并获得与之相当或更高的节点分类性能，并且图更为稀疏。

论文链接: https://arxiv.org/pdf/2406.16357

cs.AI: 定向领域微调：为特定训练任务量身定制不同模态

原标题: Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks

作者: Daniel Wen, Nafisa Hussain

机构: 加州大学圣克鲁兹分校

摘要: 大语言模型（LLMs）和大视觉语言模型（LVLMs）一直处于人工智能领域的前沿，特别是在文本生成、视频字幕和问答任务中。通常，将这些模型训练在更广泛的知识库或数据集上，可以增加其泛化能力，学习主题之间的关系并识别模式。然而，我们建议针对每个模态任务提供特定的指导数据集，并使用LORA来微调模型参数。通过我们的方法，我们可以消除与给定任务无关的所有噪声，同时确保模型生成的精度提高。

论文链接: https://arxiv.org/pdf/2406.16346

cs.AI: Prompt-Consistency Image Generation (PCIG): 一个统一的框架，整合大语言模型、知识图谱和可控扩散模型

原标题: Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models

作者: Yichen Sun, Zhixuan Chu, Zhan Qin, Kui Ren

机构: 浙江大学

摘要: 快速发展的文本到图像（T2I）生成模型使得能够根据文本描述合成高质量图像成为可能。尽管取得了显著进展，这些模型在生成内容时往往容易产生与输入文本相矛盾的情况，这给它们的可靠性和实际部署提出了挑战。为解决这一问题，我们引入了一种基于扩散的新框架，显著增强生成图像与其描述的一致性，解决了视觉输出与文本输入之间的不一致性问题。我们的框架基于对不一致现象的全面分析，根据其在图像中的表现进行分类。利用最先进的大语言模型，我们首先提取对象并构建知识图谱，预测这些对象在可能生成的图像中的位置。然后，我们将一个最先进的可控图像生成模型与视觉文本生成模块集成起来，生成一幅与原始提示一致的图像，由预测的对象位置引导。通过在先进的多模态幻觉基准上进行大量实验，我们展示了我们方法在准确生成图像并避免与原始提示不一致方面的有效性。代码可通过此链接访问：https://xxx。

论文链接: https://arxiv.org/pdf/2406.16333

Github: https://github.com/TruthAI-Lab/PCIG

cs.AI: 多模态图基准

原标题: Multimodal Graph Benchmark

作者: Jing Zhu, Yuhang Zhou, Shengyi Qian, Zhongmou He, Tong Zhao, Neil Shah, Danai Koutra

机构: 密歇根大学 Snap Inc. 马里兰大学

摘要: 关联非结构化数据与结构化信息对于需要相关性搜索的现实世界任务至关重要。然而，现有的图学习基准往往忽视了与每个节点关联的丰富语义信息。为了弥合这一差距，我们引入了多模态图基准（MM-GRAPH），这是第一个全面的多模态图基准，融合了文本和视觉信息。MM-GRAPH超越了以往的努力，以前者主要集中于具有不同连接模式的文本属性图。MM-GRAPH包括五个不同规模的图学习数据集，适用于不同的学习任务。它们的多模态节点特征使得在真实场景中对图学习算法进行更全面的评估成为可能。为促进多模态图学习的研究，我们进一步提供了对各种图神经网络在多种模态特征存在下性能的广泛研究。MM-GRAPH旨在促进多模态图学习的研究，并推动更先进、更健壮的图学习算法的发展。通过提供多样化的数据集和基准，MM-GRAPH使研究人员能够在现实环境中评估和比较其模型，最终提高依赖多模态图数据的真实应用的性能。

论文链接: https://arxiv.org/pdf/2406.16321

cs.AI: 从语言到视觉再到MOT的Transformer进展：基于Transformer的多目标跟踪的文献综述

原标题: The Progression of Transformers from Language to Vision to MOT: A Literature Review on Multi-Object Tracking with Transformers

作者: Abhi Kamboj

机构: 伊利诺伊大学

摘要: Transformer 神经网络架构通过注意力层实现自回归序列到序列建模。最初用于机器翻译应用，但已经彻底改变了自然语言处理。最近，transformers 还被应用于广泛的模式识别任务，特别是在计算机视觉领域。在这篇文献综述中，我们描述了利用 transformers 在计算机视觉中的主要进展。然后，我们专门关注多目标跟踪（MOT），讨论了 transformers 如何在最新的 MOT 工作中越来越具竞争力，但仍然落后于传统的深度学习方法。

论文链接: https://arxiv.org/pdf/2406.16784

cs.AI: UBiSS：一种用于视频双模语义摘要的统一框架

原标题: UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos

作者: Yuting Mei, Linli Yao, Qin Jin

机构: 人民大学中国北京北京大学

摘要: 随着视频数据量的激增，包括视觉-文本（VM）和文本-视觉（TM）等视频摘要技术越来越受关注。然而，单模态摘要不可避免地丢失了视频的丰富语义信息。本文针对更全面的视频摘要任务，即视频的双模态语义摘要（BiSSV），进行了研究。具体而言，我们首先构建了一个大规模数据集 BIDS，格式为（视频，VM-摘要，TM-摘要）三元组。与传统的处理方法不同，我们的构建过程包含一个旨在保留长视频中最显著内容的 VM-摘要提取算法。基于 BIDS，我们提出了一个统一的框架 UBiSS 用于 BiSSV 任务，该框架模拟视频中的显著信息，并同时生成 TM-摘要和 VM-摘要。我们进一步通过基于列表排序的目标优化我们的模型，以提高其捕捉亮点的能力。最后，我们提出了一个度量标准 $NDCG_{MS}$ ，用于联合评估双模态摘要。实验证明，我们的统一框架比多阶段摘要管道实现了更好的性能。代码和数据可在此网址获取。

论文链接: https://arxiv.org/pdf/2406.16301

Github: https://github.com/MeiYutingg/UBiSS

cs.AI: 放松等变图神经网络对物理动力学学习的连续约束

原标题: Relaxing Continuous Constraints of Equivariant Graph Neural Networks for Physical Dynamics Learning

作者: Zinan Zheng, Yang Liu, Jia Li, Jianhua Yao, Yu Rong

机构: 香港科技大学广州

摘要: 将Euclidean symmetries（例如旋转等变性）作为归纳偏好引入到图神经网络中，已经提高了它们在无界物理动力学建模中的泛化能力和数据效率。然而，在各种科学和工程应用中，动力学的对称性通常是离散的，这是由于边界条件所致。因此，现有的GNNs要么忽视了必要的对称性，导致表示能力不佳，要么施加了过多的等变性，无法泛化到未观察到的对称动力学。在这项工作中，我们提出了一个通用的离散等变图神经网络（DEGNN），它保证了对给定离散点群的等变性。具体来说，我们展示了这种离散等变消息传递可以通过将几何特征转换为置换不变嵌入来构造。通过放松连续等变约束，DEGNN可以利用更多的几何特征组合来逼近未观察到的物理对象相互作用函数。基于排名或汇聚置换不变函数的两种DEGNN实现方法被提出。我们将DEGNN应用于各种物理动力学，包括粒子、分子、人群和车辆动态。在20个场景中，DEGNN明显优于现有的最先进方法。此外，我们展示了DEGNN具有数据效率，可以用更少的数据学习，并且可以在未观察到的方向等情况下进行泛化。

论文链接: https://arxiv.org/pdf/2406.16295

cs.AI: 提取能源材料的薄膜结构利用Transformer

原标题: Extracting thin film structures of energy materials using transformers

作者: Chen Zhang, Valerie A. Niemann, Peter Benedek, Thomas F. Jaramillo, Mathieu Doucet

机构: 奥克岭国家实验室斯坦福大学 SLAC国家加速器实验室

摘要: Neutron-Transformer Reflectometry and Advanced Computation Engine（N-TRACE），使用Transformer架构的神经网络模型，用于中子反射数据分析。它提供快速、准确的初始参数估计和高效的优化，改善了锂介导的氮还原电化学合成过程的实时数据分析的效率和精度，对其他化学转化和电池具有相关性。尽管在系统间泛化方面存在限制，但显示了将Transformer作为模型基础的潜力，可以替代模拟反射数据的试错方法。

论文链接: https://arxiv.org/pdf/2406.16741

cs.AI: 减少通过近似和内存共享反向传播的微调内存开销

原标题: Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation

作者: Yuchen Yang, Yingdong Shi, Cheems Wang, Xiantong Zhen, Yuxuan Shi, Jun Xu

机构: 清华大学百度

摘要: 微调预训练的大模型以解决下游任务是一个重要问题，然而由于大规模参数导致的巨大内存开销问题。本工作致力于从激活函数和层归一化的角度减少微调过程中的内存开销。为此，我们提出了近似反向传播（Approx-BP）理论，该理论提供了在前向和后向传播中解耦的理论可行性。我们将Approx-BP理论应用于反向传播训练，并推导出GELU和SiLU激活函数的内存高效替代方案，在保持其前向传播不变的同时，利用ReLU的导数函数进行后向传播。此外，我们引入了一种内存共享反向传播策略，使得激活内存可以被两个相邻层共享，从而消除激活内存使用的冗余。我们的方法既不会增加额外的计算，也不会降低训练效率。我们对预训练视觉和语言模型进行了广泛的实验，结果表明我们的提议可以将峰值内存使用减少高达约30%。我们的代码已在此网址发布。

论文链接: https://arxiv.org/pdf/2406.16282

Github: https://github.com/yyyyychen/LowMemoryBP

cs.AI: 卷积神经网络用于在DESI（暗能量光谱仪）中对Lyman断层星系进行分类和红移回归

原标题: Convolutional neural network for Lyman break galaxies classification and redshift regression in DESI (Dark Energy Spectroscopic Instrument)

作者: Julien Taran

机构: ROB

摘要: DESI 是一个开创性的国际项目，旨在在5年内观测超过4000万个类星体和星系，以创建天空的三维地图。这张地图将使我们能够探索宇宙学的多个方面，从暗能量到中微子质量。我们在此关注 DESI 观测到的一种物体，即莱曼突破星系（LBGs）。我们的目标是利用它们的光谱确定它们是否确实是LBGs，并据此利用所谓的红移现象确定它们与地球的距离。这将使我们能够在DESI的三维地图上定位这些星系。

因此，我们的目标是开发一种卷积神经网络（CNN），灵感来自于QuasarNET（详见arXiv:1808.09955），同时进行分类（LBG类型或非）和回归任务（确定LBGs的红移）。最初，采用数据增强技术，如在波长上移动光谱、向光谱添加噪声或添加合成光谱，将模型训练数据集从3,019个数据增加到超过66,000个。在第二阶段，通过转移学习和贝叶斯优化调整超参数等修改QuasarNET架构，显著提高了模型性能。

在纯度/效率曲线上取得了最高达26%的增益，该曲线用于评估模型性能，特别是在低（约2）和高（约4）红移区域。最佳模型的平均分数为94%，而初始模型为75%。

论文链接: https://arxiv.org/pdf/2406.16730

其他链接: https://arxiv.org/abs/1808.09955

cs.AI: 修复文本到图像扩散模型中由注意力引导的特征增强中的灾难性忽略

原标题: Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement

作者: Zhiyuan Chang, Mingyang Li, Junjie Wang, Yi Liu, Qing Wang, Yang Liu

机构: 中国科学院软件研究所北京中国科学院信息系统综合信息系统科技中国科学院软件研究所北京智能游戏国家重点实验室北京中国科学院大学南洋理工大学

摘要: 文本到图像扩散模型（T2I DMs）因其能够从文本描述中生成高质量图像而引起了广泛关注。然而，这些模型通常生成的图像与输入提示不完全一致，导致语义不一致问题。在这些语义不一致中，最突出的问题是灾难性忽视，即由T2I DMs生成的图像缺少提示中提到的关键对象。我们首先对这一问题进行了实证研究，探讨了灾难性忽视的普遍性，潜在的特征增强缓解策略以及所得到的见解。在实证研究的指导下，我们提出了一种名为Patcher的自动修复方法，用于解决T2I DMs中的灾难性忽视问题。具体而言，Patcher首先确定提示中是否有任何被忽视的对象，然后对这些被忽视的对象应用基于注意力的特征增强，从而修复提示。在三个版本的稳定扩散实验结果表明，Patcher有效修复了灾难性忽视问题，在图像生成中相比基线实现了10.1%到16.3%的更高正确率。

论文链接: https://arxiv.org/pdf/2406.16272

cs.AI: 视频无限：分布式长视频生成

原标题: Video-Infinity: Distributed Long Video Generation

作者: Zhenxiong Tan, Xingyi Yang, Songhua Liu, Xinchao Wang

机构: 国立新加坡大学

摘要: 扩散模型最近在视频生成领域取得了显著的成果。尽管表现令人鼓舞，生成的视频通常受限于少量帧数，导致片段仅持续几秒钟。生成更长视频的主要挑战包括大量的内存需求和在单个GPU上需要的延长处理时间。一个简单的解决方案是将工作负载分配到多个GPU上，然而这会带来两个问题：（1）确保所有GPU有效通信以共享时间和上下文信息，以及（2）修改现有的视频扩散模型，通常是在短序列上训练的，以创建更长的视频而无需额外训练。为了解决这些问题，本文介绍了Video-Infinity，一个分布式推理管道，支持跨多个GPU的并行处理，用于生成长视频。具体而言，我们提出了两个一致的机制：片段并行和双范围注意力。片段并行优化了跨GPU收集和共享上下文信息，从而最小化通信开销，而双范围注意力调节了时间自注意力，有效平衡设备间的局部和全局上下文。这两个机制共同协作，分担工作负载，实现快速生成长视频。在8 x Nvidia 6000 Ada GPU（48G）设置下，我们的方法能够在约5分钟内生成长达2,300帧的视频，使得视频生成速度比先前方法快100倍。

论文链接: https://arxiv.org/pdf/2406.16260

cs.AI: 公共宪法人工智能

原标题: Public Constitutional AI

作者: Gilad Abiri

机构: 乔治亚法律评论

摘要: 我们越来越多地受到人工智能机构的影响。随着人工智能决策日益不可避免地进入医疗、教育和法律等领域，我们必须面对一个重要问题：我们如何确保人工智能系统具有有效治理所必需的合法性？本文认为，为了确保人工智能的合法性，我们需要采用能够让公众参与设计和约束人工智能系统的方法，确保这些技术反映社区共享的价值观。人工智能宪法，由Anthropic提出，代表了朝着这一目标迈出的一步，提供了一种民主控制人工智能的模式。然而，虽然人工智能宪法致力于将明确原则硬编码到人工智能模型中以增强透明度和问责性，但在两个关键方面仍存在不足：解决个体人工智能决策的不透明性和促进真正的民主合法性。为了克服这些局限性，本文提出了“公共人工智能宪法”。这一方法设想了一个参与性过程，各种利益相关者，包括普通公民，将在其中讨论指导人工智能开发的原则。由此产生的“人工智能宪法”将具有流行作者的合法性，使人工智能治理扎根于公众意愿。此外，本文提议设立“人工智能法院”来制定“人工智能案例法”，为实现人工智能培训中的宪法原则提供具体示例。这种不断发展的宪法原则和案例法的结合旨在使人工智能治理更加响应公众价值观。通过将人工智能治理扎根于审议民主过程中，公共人工智能宪法为赋予自动化机构真正的民主合法性提供了一条道路，应对人工智能系统日益强大带来的独特挑战，同时确保其与公共利益的一致性。

论文链接: https://arxiv.org/pdf/2406.16696

cs.AI: 用户故事辅导（UST）以支持敏捷软件开发人员

原标题: User Story Tutor (UST) to Support Agile Software Developers

作者: Giseldo da Silva Neo, José Antão Beltrão Moura, Hyggo Oliveira de Almeida, Alana Viana Borges da Silva Neo, Olival de Gusmão Freitas Júnior

机构: 联邦阿拉戈斯联邦学院格朗德联邦大学 Macei ó联邦大学

摘要: 用户故事记录了使用敏捷实践的项目中必须构建的内容。用户故事用于估算工作量，通常以故事点为单位，并计划在一个迭代中应完成的工作。因此，有必要培训软件工程师如何创建简单、易读和全面的用户故事。因此，我们设计、实施、应用和评估了一个名为用户故事导师（UST）的Web应用程序。 UST 检查给定用户故事的描述，以确保可读性，并在需要时推荐改进的适当实践。 UST 还使用机器学习技术估算用户故事的工作量，以故事点为单位。因此，当编写和审查用户故事时，UST 可以支持敏捷开发团队的持续教育。根据技术接受模型（TAM）和AttrakDiff，40名敏捷从业者评估了UST的易用性。 TAM 评估的平均值在几乎所有考虑的变量中都很好。应用AttrakDiff评估框架产生了类似的良好结果。显然，UST 可以以较高的可靠性使用。应用UST来辅助编写用户故事是一种可行的技术，至少可以被敏捷开发用来补充和增强当前的用户故事创建。

论文链接: https://arxiv.org/pdf/2406.16259

cs.AI: MEReQ: 最大熵残差-Q 逆 RL 用于来自干预的样本高效对齐

原标题: MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention

作者: Yuxin Chen, Chen Tang, Chenran Li, Ran Tian, Peter Stone, Masayoshi Tomizuka, Wei Zhan

机构: 加州大学伯克利分校德克萨斯大学奥斯汀分校

摘要: 将机器人行为与人类偏好对齐对于在以人为中心的环境中部署具有体现式 AI 智能体至关重要。一种有前景的解决方案是通过人类干预进行交互式模仿学习，其中人类专家观察策略的执行并提供干预作为反馈。然而，现有方法通常未能有效利用先前的策略以促进学习，从而阻碍了样本效率。在这项工作中，我们引入了MEReQ（最大熵残差 Q 逆强化学习），旨在通过人类干预实现高效样本对齐。MEReQ不是推断完整的人类行为特征，而是推断捕捉人类专家和先前策略潜在奖励函数之间差异的残差奖励函数。然后，它使用残差 Q 学习（RQL）根据这个残差奖励函数将策略与人类偏好对齐。对模拟和真实世界任务的广泛评估表明，MEReQ实现了通过人类干预的样本高效策略对齐。

论文链接: https://arxiv.org/pdf/2406.16258

cs.AI: 不确定性感知的无奖励探索与通用函数逼近

原标题: Uncertainty-Aware Reward-Free Exploration with General Function Approximation

作者: Junkai Zhang, Weitong Zhang, Dongruo Zhou, Quanquan Gu

机构: 深度之眼

摘要: 探索和学习多任务掌握在环境中通过强化学习（RL）提出了重大挑战。无监督RL通过训练策略使用内在奖励而非外在奖励来应对此挑战。然而，目前的内在奖励设计和无监督RL算法通常忽视了收集样本的异质性，从而降低了它们的样本效率。为了克服这一限制，本文提出了一种名为\alg 的无奖励RL算法。我们算法的关键思想是基于环境探索的不确定性感知内在奖励，并使用不确定性加权的学习过程来处理不同样本中的异质性。理论上，我们展示了为了找到一个 $\epsilon$ -最优策略，GFA-RFE 需要收集 $\tilde{O} (H^2 \log N_{\mathcal F} (\epsilon) \mathrm{dim} (\mathcal F) / \epsilon^2 )$ 个周期数，其中 $\mathcal F$ 是具有覆盖数 $N_{\mathcal F} (\epsilon)$ 和广义 eluder 维度 $\mathrm{dim} (\mathcal F)$ 的值函数类。这样的结果胜过所有现有的无奖励RL算法。我们进一步在DeepMind控制套件中实现并评估了GFA-RFE在各种领域和任务中的表现。实验结果显示，GFA-RFE在性能上优于或与最先进的无监督RL算法相媲美。

论文链接: https://arxiv.org/pdf/2406.16255

cs.AI: 视觉语言一致性引导的多模态提示学习，用于盲人 AI 生成图像质量评估

原标题: Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment

作者: Jun Fu, Wei Zhou, Qiuping Jiang, Hantao Liu, Guangtao Zhai

机构: 中国科学院

摘要: 最近，文本提示调优在适应对自然图像质量评估的对比语言-图像预训练（CLIP）模型方面显示出了启发性能力。然而，这种单模态提示学习方法仅调优了CLIP模型的语言分支。这对于将CLIP模型适应于AI生成的图像质量评估（AGIQA）来说是不够的，因为AGI与自然图像在视觉上存在差异。此外，AGI与用户输入文本提示之间的一致性，与AGI的感知质量相关，尚未被研究用来指导AGIQA。在这封信中，我们提出了一种以视觉语言一致性为指导的多模态提示学习方法，用于盲目的AGIQA，名为CLIP-AGIQA。具体而言，我们在CLIP模型的语言和视觉分支中分别引入可学习的文本和视觉提示。此外，我们设计了一个文本到图像对齐质量预测任务，其学到的视觉语言一致性知识用于指导上述多模态提示的优化。在两个公共AGIQA数据集上的实验结果表明，所提出的方法优于现有的质量评估模型。源代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.16641

Github: https://github.com/JunFu1995/CLIP-AGIQA

cs.AI: 图形增强的大语言模型用于个性化健康洞察：睡眠分析案例研究

原标题: Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis

作者: Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani

摘要: 健康监测系统通过实现生理和行为数据的持续捕获，彻底改变了现代医疗保健，这些数据对预防措施和早期干预至关重要。将这些数据与大语言模型（LLMs）集成显示出提供互动健康建议的潜力，但传统方法如检索增强生成（RAG）和微调往往未能充分利用可穿戴设备中复杂、多维和时间相关的数据。这些传统方法通常由于动态整合和解释多样化健康数据流的能力不足，而仅提供有限的可操作和个性化健康洞见。作为响应，本文引入了一个图增强的LLM框架，旨在显著增强个性化健康洞见的清晰度。利用层次图结构，该框架捕获了患者内部和患者间的关系，通过来自随机森林模型的动态特征重要性得分丰富LLM提示。通过COVID-19封锁期间对20名大学生进行的睡眠分析案例研究，展示了我们的模型生成高效可操作和个性化健康洞见的潜力。我们利用另一个LLM评估洞见的相关性、全面性、可操作性和个性化程度，解决了处理和解释复杂健康数据的模型关键需求。我们的研究结果表明，通过我们的框架增强提示可以在所有四个标准上显著改进。通过我们的框架，我们能够引发为特定患者量身定制的精心设计、更具思考性的回应。

论文链接: https://arxiv.org/pdf/2406.16252

cs.AI: 特征融合用于人体活动识别的参数优化多阶段图卷积网络和Transformer模型

原标题: Feature Fusion for Human Activity Recognition using Parameter-Optimized Multi-Stage Graph Convolutional Network and Transformer Models

作者: Mohammad Belal (1), Taimur Hassan (2), Abdelfatah Ahmed (1), Ahmad Aljarah (1), Nael Alsheikh (1), Irfan Hussain (1) ((1) Khalifa University of Science and Technology, Abu Dhabi, United Arab Emirates, (2) Abu Dhabi University, Abu Dhabi, United Arab Emirates)

机构: 哈利法科技大学阿布扎比大学

摘要: 人类活动识别（HAR）是一个关键的研究领域，涉及使用计算机和机器视觉技术理解人类运动。深度学习已经成为这一任务的强大工具，使用诸如卷积神经网络（CNNs）和Transformer的模型来捕捉人类运动的各个方面。这项工作的一个关键贡献是通过特征融合来提高HAR准确性，捕捉空间和时间特征，这对于开发更准确和稳健的活动识别系统具有重要意义。研究使用了来自HuGaDB、PKU-MMD、LARa和TUG数据集的感测数据。通过训练和评估PO-MS-GCN和Transformer两个模型，结果表明PO-MS-GCN表现优于现有的模型。HuGaDB和TUG实现了高准确率和F1分数，而LARa和PKU-MMD的分数较低。特征融合改善了各个数据集的结果。

论文链接: https://arxiv.org/pdf/2406.16638

cs.AI: 评估深度学习算法选择模型对进化对抗实例的鲁棒性

原标题: Evaluating the Robustness of Deep-Learning Algorithm-Selection Models by Evolving Adversarial Instances

作者: Emma Hart, Quentin Renau, Kevin Sim, Mohamad Alissa

机构: 爱丁堡那比尔大学

摘要: 深度神经网络（DNN）越来越多地被用于在组合优化领域中执行算法选择，特别是因为它们可以容纳避免设计和计算特征的输入表示。来自使用图像作为输入的领域的证据表明，深度卷积网络容易受到对抗样本的影响，即实例的轻微扰动可能导致DNN误分类。然而，目前尚不清楚最近显示为算法选择器的深度递归网络（DRN）是否同样易受攻击，尤其是在装箱问题领域。我们使用进化算法（EA）来找出来自两个现有在线装箱基准的实例扰动，这些扰动导致训练后的DRN误分类：根据数据集，成功生成了高达原始实例的56%的对抗样本。对新的误分类实例的分析揭示了一些训练实例的“脆弱性”，即在这些实例中，很容易找到一个小的扰动导致误分类，以及影响这一现象的因素。最后，该方法生成了大量新的误分类实例，这些实例的分类置信度变化很大，为创建更加健壮的模型提供了丰富的新训练数据来源。

论文链接: https://arxiv.org/pdf/2406.16609

数智笔记

关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024年6月25日Arxiv人工智能相关论文

原标题作者机构: 人民大学中国北京北京大学摘要: 随着视频数据量的激增，包括视觉-文本（VM）和文本-视觉（TM）等视频摘要技术越来越受关注。然而，单模态摘要不可避免地丢失了视频的丰富语义信息。本文针对更全面的视频摘要任务，即视频的双模态语义摘要（BiSSV），进行了研究。具体而言，我们首先构建了一个大规模数据集 BIDS，格式为（视频，VM-摘要，TM-摘要）三元组。与传统的处理方法不同，我们的构建过程包含一个旨在保留长视频中最显著内容的 VM-摘要提取算法。
复制链接

扫一扫