2024年6月10日Arxiv人工智能相关论文

cs.AI: 用于训练通用智能体的大规模多智能体小游戏

原标题: Massively Multiagent Minigames for Training Generalist Agents

作者: Kyoung Whan Choe, Ryan Sullivan, Joseph Suárez

机构: MIT

摘要: 我们介绍 Meta MMO,这是一个包含多智能体小游戏的集合,可用作强化学习基准。Meta MMO 是建立在 Neural MMO 之上的,后者是一个大规模多智能体环境,已经成为两个前期 NeurIPS 比赛的研究对象。我们的工作通过学习使用一组权重来玩多个小游戏,扩展了 Neural MMO 的功能。我们在 MIT 许可下发布了环境、基准和训练代码。我们希望 Meta MMO 能够推动 Neural MMO 的进一步发展,并且更广泛地作为多智能体泛化的有用基准。

论文链接: https://arxiv.org/pdf/2406.05071

Github: https://github.com/kywch/meta-mmo

cs.AI: 在缺失和矛盾条件存在的情况下对数学推理的鲁棒性评估

原标题: Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions

作者: Shi-Yu Tian, Zhi Zhou, Lin-Han Jia, Lan-Zhe Guo, Yu-Feng Li

机构: 南京大学、南京大学人工智能学院、南京大学智能科学与技术学院

摘要: 大语言模型(LLMs)在推理任务上展示了令人印象深刻的性能,可以通过少样本提示技术进一步提高。然而,当前的评估主要集中在精心构建的基准测试上,忽视了现实世界中出现缺失和矛盾条件的推理问题,即所谓的模糊问题。我们的观察表明,现有的少样本提示技术在这种情况下效果不佳,经常提供过于自信的答案或幻觉。为了进一步研究这个问题,我们开发了一个名为“具有缺失和矛盾条件的问题(PMC)”的基准测试,并引入了两个新的指标来评估少样本提示方法在这些场景中的性能。我们使用PMC基准测试进行的分析揭示了在明确定义的问题的数学推理性能和识别模糊问题的能力之间的权衡困境。为了应对PMC提出的挑战,我们提出了一种名为SMT-LIB提示(SLP)的新型少样本提示方法,该方法利用SMT-LIB语言对问题进行建模,而不是直接解决问题。随后,双重检查求解策略检查解的可满足性和唯一性,并提供最终反馈。广泛的实验证明了我们的SLP方法在处理具有缺失和矛盾条件的问题时相对于现有的少样本提示方法的优越性。我们将开源我们的基准测试和代码,以促进未来的研究。

论文链接: https://arxiv.org/pdf/2406.05055

cs.AI: 通过在低数据环境中使用合成数据来提高室内温度预测

原标题: Enhancing Indoor Temperature Forecasting through Synthetic Data in Low-Data Environments

作者: Zachari Thiry, Massimiliano Ruocco, Alessandro Nocente, Michail Spitieris

摘要: 预测室内温度对于实现HVAC系统的高效控制非常重要。在这个任务中,有限的数据可用性是一个挑战,因为大部分可用的数据是在标准操作期间获取的,极端情况和瞬态过程(如温度大幅增加或减少)被事实上排除在外。获取这样的数据需要大量能源消耗和专用设施,限制了可用数据的数量和多样性。然而,与成本相关的限制不允许持续全年获取数据。为了解决这个问题,我们研究了利用最先进的基于人工智能的方法进行合成数据生成的数据增强技术的有效性。受实际和实验动机的启发,我们探索了真实数据和合成数据的融合策略,以改进预测模型。这种方法减轻了在涉及建筑物中重复加热和冷却循环的情况下持续获取大量时间序列数据的需求。在我们的评估中,1)我们独立评估了合成数据生成器的性能,特别关注最先进的基于人工智能的方法;2)我们衡量了在后续的预测任务中引入合成增强数据的效用,其中我们使用了一个简单的模型在两个不同的场景中:1)我们首先研究了一种将真实数据和合成生成的数据相结合的增强技术来扩展训练数据集,2)我们深入研究了利用合成数据来解决数据集不平衡的问题。我们的结果突出了合成数据增强在提高预测准确性和减轻训练方差方面的潜力。通过实证实验,我们展示了通过整合合成数据可以实现显著的改进,从而为低数据情境下更强大的预测模型铺平了道路。

论文链接: https://arxiv.org/pdf/2406.04890

cs.AI: MeLFusion: 使用扩散模型从图像和语言线索合成音乐

原标题: MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models

作者: Sanjoy Chowdhury, Sayan Nag, K J Joseph, Balaji Vasan Srinivasan, Dinesh Manocha

机构: 里兰大学,多伦多大学,Adobe Research

摘要: 音乐是一种能够传达情感和感觉的普遍语言。它是整个创意媒体范围的重要组成部分,包括电影和社交媒体帖子等。能够合成音乐的机器学习模型主要是基于对音乐的文本描述进行条件训练的。受到音乐家不仅从电影剧本中创作音乐,还通过可视化手段创作音乐的启发,我们提出了MeLFusion,这是一个可以有效利用文本描述和相应图像的线索来合成音乐的模型。MeLFusion是一个具有新颖的“视觉突触”的文本到音乐扩散模型,它有效地将视觉模态中的语义融入到生成的音乐中。为了促进这一领域的研究,我们引入了一个新的数据集MeLBench,并提出了一个新的评估指标IMSM。我们详尽的实验评估表明,将视觉信息添加到音乐合成流程中显著提高了生成音乐的质量,无论是客观还是主观评估,FAD得分的相对增益高达67.98%。我们希望我们的工作能够引起对这个实用但相对未被充分探索的研究领域的关注。

论文链接: https://arxiv.org/pdf/2406.04673

cs.AI: SLOPE:使用学习的最优剪枝扩展进行搜索

原标题: SLOPE: Search with Learned Optimal Pruning-based Expansion

作者: Davor Bokan, Zlatan Ajanovic, Bakir Lacevic

机构: University of Sarajevo RWTH Aachen University

摘要: 启发式搜索通常用于运动规划和路径查找问题,用于在图中找到最短路径,同时保证完整性和最优效率。缺点是空间复杂度,特别是在内存中存储所有扩展的子节点并对大型活动节点列表进行排序,这在具有有限机载计算能力的实时场景中可能成为问题。为了解决这个问题,我们提出了基于学习的最优修剪扩展搜索(SLOPE),它学习了节点与可能最优路径之间的距离,而不是学习成本估计值。然后根据该距离修剪不受欢迎的节点,从而减小开放列表的大小。这确保搜索仅探索靠近最优路径的区域,同时降低内存和计算成本。与传统的学习方法不同,我们的方法与估计成本估计启发式方法正交,为改进搜索效率提供了一种互补策略。我们通过将其作为独立搜索方法和与学习的启发式函数结合使用来证明我们方法的有效性,实现了可比或更好的节点扩展指标,同时降低了开放列表中子节点的数量。我们的代码可以在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.04935

Github: https://github.com/dbokan1/SLOPE

cs.AI: AI的合理人标准

原标题: The Reasonable Person Standard for AI

作者: Sunayana Rane

摘要: 随着人工智能系统越来越多地应用于人类行为已经设定了规范的领域,AI治理和AI对齐研究面临的挑战是以对社会有用和有建设性的方式来规范它们的行为。回答这个问题的一种方法是问:我们如何管理模型所模拟的人类行为?为了评估人类行为,美国法律系统通常使用“合理人标准”。合理行为的概念几乎在法律的各个领域都有涉及。法律系统通常根据在类似情况下一个合理人会做什么来判断当事人的行为。本文认为,合理人标准为我们在模型中应该开发、探索和进行压力测试的行为类型提供了有用的指导。它解释了合理性在法律的关键领域如何被定义和使用,并使用案例说明了合理人标准如何适用于每个领域和背景中的人工智能行为,以及我们对“合理”行为的社会理解如何为AI研究人员提供有用的技术目标。

论文链接: https://arxiv.org/pdf/2406.04671

cs.AI: 在线适应以增强模仿学习策略

原标题: Online Adaptation for Enhancing Imitation Learning Policies

作者: Federico Malato, Ville Hautamaki

机构: 东芬兰大学

摘要: 模仿学习使得自主智能体能够从人类示例中学习,而无需奖励信号。然而,如果提供的数据集没有正确地包含任务,或者任务过于复杂无法建模,这样的智能体就无法复现专家策略。我们提出通过在线适应来从这些失败中恢复。我们的方法将预训练策略提出的动作与专家记录的相关经验相结合。这种组合结果是一个紧密跟随专家的适应动作。我们的实验表明,适应的智能体比纯粹的模仿学习对应物表现更好。值得注意的是,即使基础的非适应策略发生灾难性失败,适应的智能体仍然能够达到合理的性能。

论文链接: https://arxiv.org/pdf/2406.04913

Github: https://github.com/fmalato/online_adaptation

cs.AI: 考虑可接受性放松的学习价值对齐策略的算法

原标题: Algorithms for learning value-aligned policies considering admissibility relaxation

作者: Andrés Holgado-Sánchez, Joaquín Arias, Holger Billhardt, Sascha Ossowski

机构: CETINIA, Universidad Rey Juan Carlos

摘要: 新兴领域的“价值意识工程”声称,软件智能体和系统应该具备价值意识,即它们必须根据人类价值观做出决策。在这个背景下,这些智能体必须能够明确地推理出不同行动方案与这些价值观的一致程度。为此,价值观通常被建模为对状态或行动的偏好,然后进行聚合以确定与某个特定价值观最大程度一致的行动序列。最近,这一层面还考虑了额外的价值可接受性约束。

然而,通常需要放宽这些约束的版本,这大大增加了计算与价值一致策略的复杂性。为了获得能够考虑可接受性放宽的价值一致决策的高效算法,我们提出使用学习技术,特别是我们使用了受限强化学习算法。在本文中,我们提出了两种算法,基于局部一致性的 ϵ - A D Q L \epsilon\text{-}ADQL ϵ-ADQL算法和其在决策序列上的扩展 ϵ - C A D Q L \epsilon\text{-}CADQL ϵ-CADQL算法。我们在干旱情景下的水分配问题中验证了它们的效率。

论文链接: https://arxiv.org/pdf/2406.04838

cs.AI: 先进的支付安全系统:集成了XGBoost、CatBoost和SMOTE。

原标题: Advanced Payment Security System:XGBoost, CatBoost and SMOTE Integrated

作者: Qi Zheng, Chang Yu, Jin Cao, Yongshun Xu, Qianwen Xing, Yinxin Jin

机构: 东北大学 约翰霍普金斯大学 麻省大学洛厄尔分校 芝加哥大学 密歇根大学安娜堡分校

摘要: 随着各种在线和移动支付系统的兴起,交易欺诈已成为金融安全的重大威胁。本研究探讨了先进的机器学习模型(特别是XGBoost和LightGBM)在开发更准确和稳健的支付安全保护方面的应用。为了增强数据可靠性,我们对数据源进行了细致处理,并使用SMOTE(合成少数类过采样技术)来解决类别不平衡问题并改善数据表示。通过选择高度相关的特征,我们旨在加强训练过程并提升模型性能。我们对我们提出的模型进行了全面的性能评估,将其与传统方法(包括随机森林、神经网络和逻辑回归)进行了比较。我们严格评估了精确度、召回率和F1得分等关键指标的有效性。我们详细的分析和比较表明,将SMOTE与XGBoost和LightGBM相结合,为支付安全保护提供了一种高效而强大的机制。结果表明,这些模型不仅优于传统方法,而且在推进交易欺诈预防领域方面具有重要的潜力。

论文链接: https://arxiv.org/pdf/2406.04658

其他链接: http://Model.To

cs.AI: Ada-VE:使用自适应运动先验进行无需训练的一致视频编辑

原标题: Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior

作者: Tanvir Mahmud, Mustafa Munir, Radu Marculescu, Diana Marculescu

机构: 德克萨斯大学奥斯汀分校

摘要: 视频到视频合成模型面临着重大挑战,例如确保在帧之间生成一致的角色、保持平滑的时间过渡以及在快速运动中保持质量。引入了完全跨帧自注意机制可以改善角色一致性,但这增加了计算复杂性。这种完全跨帧自注意机制还包含冗余细节,并且由于计算成本的原因限制了可以共同编辑的帧数。此外,跨帧注意力中缺乏帧对时间一致性和视觉质量产生不利影响。为了解决这些限制,我们提出了一种新的自适应运动引导的跨帧注意机制,它在保留语义细节和时间一致性的同时大大降低了复杂性。具体而言,我们在跨帧注意中选择性地结合连续帧的移动区域,并根据光流采样稀疏地包含静止区域。这种技术允许增加共同编辑的帧数而不增加额外的计算开销。对于较长的视频编辑时间,现有方法主要集中在帧插值或从共同编辑的关键帧进行流变形,这往往导致模糊的帧或降低的时间一致性。为了改进这一点,我们引入了共同编辑帧的KV缓存,并在所有中间帧中重复使用相同的KV,从而显著提高了中间帧的质量和时间一致性。总体而言,我们的运动采样方法在保持卓越的预测质量的同时,能够使用大约三倍于现有联合编辑方法的关键帧。Ada-VE在使用完全扩展的自注意力进行40帧联合编辑时,实现了高达4倍的加速,而不会影响视觉质量或时间一致性。

论文链接: https://arxiv.org/pdf/2406.04873

cs.AI: 在没有梯度噪声的情况下,制造重尾的权重矩阵谱

原标题: Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise

作者: Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang

机构: LinkedIn Inc Nanjing University Dartmouth College Stanford University

摘要: 现代深度神经网络(NN)的训练策略往往会导致层权重的重尾(HT)频谱。对这一现象的广泛研究发现,具有HT权重频谱的NNs往往具有良好的泛化能力。关于这种HT频谱出现的普遍观点认为,在训练过程中梯度噪声是一个重要的因素。我们的研究表明,梯度噪声并非生成HT权重频谱所必需:经过有限的训练步骤后,使用全批量梯度下降/Adam训练的两层NNs的权重可以呈现HT频谱。为此,我们首先确定了学习率的尺度,使得一步全批量Adam可以在浅层NN中实现特征学习,特别是在学习单个索引教师模型时。接下来,我们展示了使用这样(足够)大的学习率进行多个优化器步骤可以将大部分权重的频谱转变为HT分布。为了理解这种行为,我们提出了一种基于权重矩阵和优化器更新的奇异向量的新视角。我们展示了HT权重频谱源于“尖峰”,该尖峰是由特征学习生成并与主要部分相互作用以生成HT频谱。最后,我们分析了在不同学习率下进行多个优化器更新后HT权重频谱与泛化之间的相关性。

论文链接: https://arxiv.org/pdf/2406.04657

cs.AI: LLavaGuard: 基于VLM的视觉数据集筛选和安全评估的安全保障措施

原标题: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

作者: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski

机构: TU Darmstadt DFKI hessian.AI Ontocord Centre for Cognitive Science

摘要: 我们介绍了LlavaGuard,这是一系列基于VLM的安全模型,为评估视觉内容的安全合规性提供了一个多功能框架。具体而言,我们设计了LlavaGuard用于数据集注释和生成模型的保护。为此,我们收集并注释了一个高质量的视觉数据集,其中包含广泛的安全分类,我们使用该数据集来调整VLM在上下文感知的安全风险上的表现。作为一个关键创新,LlavaGuard的新响应包含了全面的信息,包括安全评级、违反的安全类别和深入的理由。此外,我们引入的可定制的分类体系使得LlavaGuard能够根据不同场景进行上下文特定的对齐。我们的实验突出了LlavaGuard在复杂和现实世界应用中的能力。我们提供了从7B到34B参数的检查点,展示了最先进的性能,即使是最小的模型也超过了GPT-4等基准。我们公开提供我们的数据集和模型权重,并邀请进一步的研究来满足社区和环境的多样化需求。

论文链接: https://arxiv.org/pdf/2406.05113

cs.AI: 降水预测的深度学习:从时间序列预测的角度进行调查

原标题: Deep learning for precipitation nowcasting: A survey from the perspective of time series forecasting

作者: Sojung An, Tae-Jin Oh, Eunha Sohn, Donghyun Kim

机构: 韩国大气预报系统研究所、韩国国家气象卫星中心、韩国高丽大学

摘要: 基于深度学习的时间序列降水预测在估计高分辨率数据集中的运动流能力方面占据主导地位。对降水即时预测的日益关注为当前预测技术的进步提供了重要机遇。然而,对于使用深度学习进行时间序列降水预测的深入调查仍然很少。因此,本文系统地回顾了时间序列降水预测模型的最新进展。具体而言,我们研究了背景组件中的以下关键点,包括:i)预处理,ii)目标函数,和iii)评估指标。然后,我们根据预测未来帧的方法将预测模型分为“递归”和“多样本”策略,并研究了使用这些策略的模型的影响和性能评估。最后,我们在公共基准上评估了当前基于深度学习的降水预测模型,讨论了它们的局限性和挑战,并提出了一些有前景的研究方向。我们的贡献在于提供对时间序列降水预测的更好理解,并为未来的稳健AI解决方案的开发提供支持。

论文链接: https://arxiv.org/pdf/2406.04867

cs.AI: 通过优化特征归因的聚合,可以提供更好的解释

原标题: Provably Better Explanations with Optimized Aggregation of Feature Attributions

作者: Thomas Decker, Ananta R. Bhattarai, Jindong Gu, Volker Tresp, Florian Buettner

摘要: 使用特征归因进行事后解释是理解和验证不透明机器学习模型预测的常见做法。尽管有许多可用的技术,但个别方法通常会产生不一致和不稳定的结果,从而对它们的整体可靠性产生质疑。在这项工作中,我们旨在通过结合不同方法或它们的变体的多个解释来系统地提高特征归因的质量。为此,我们提出了一种新方法,用于推导出特征归因的最优凸组合,从而产生对模型行为的鲁棒性或忠实度等所需质量标准的可证明改进。通过涉及各种模型架构和常用特征归因技术的广泛实验,我们证明了我们的组合策略始终优于个别方法和现有基准。

论文链接: https://arxiv.org/pdf/2406.05090

cs.AI: OCDB:重新审视因果发现,提供一个全面的基准和评估框架

原标题: OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework

作者: Wei Zhou, Hong Huang, Guowen Zhang, Ruize Shi, Kehan Yin, Yuanyuan Lin, Bang Liu

机构: 华中科技大学 DIRO, Université de Montréal Mila Canada CIFAR AI Chair

摘要: 大语言模型(LLMs)在各种自然语言处理任务中表现出色,但在可解释性和可信度方面仍存在挑战,限制了它们在高风险领域的应用。因果发现提供了一种改善透明度和可靠性的有希望的方法。然而,当前的评估往往是片面的,缺乏对可解释性性能的评估。此外,这些评估依赖于合成数据,缺乏对真实世界数据集的全面评估。这导致有潜力的方法可能被忽视。为了解决这些问题,我们提出了一个灵活的评估框架,其中包含评估因果结构和因果效应差异的指标,这些指标是帮助提高LLMs可解释性的关键属性。我们引入了基于真实数据的开放因果发现基准(OCDB),以促进公平比较和算法优化。此外,我们的新指标考虑了无向边,使有向无环图(DAGs)和完成部分有向无环图(CPDAGs)之间的公平比较成为可能。实验结果显示现有算法在真实数据上的泛化能力存在显著不足,突显了性能改进的潜力以及我们的框架在推进因果发现技术方面的重要性。

论文链接: https://arxiv.org/pdf/2406.04598

cs.AI: 合作元学习与梯度增强

原标题: Cooperative Meta-Learning with Gradient Augmentation

作者: Jongyun Shin, Seunjin Han, Jangho Kim

机构: Kookmin University

摘要: 模型无关元学习(MAML)是最常用的基于梯度的元学习方法之一,由内循环和外循环组成。MAML通过内部更新从元初始化参数中学习新任务,并在外部循环中找到元初始化参数。通常,将噪声注入模型梯度中以增强梯度是一种常用的正则化方法。在这项工作中,我们提出了一种新颖的合作元学习框架,称为CML,它利用梯度级别的正则化和梯度增强。我们将可学习的噪声注入到模型梯度中以实现模型的泛化。CML的关键思想是引入无内部更新但具有外部循环更新的合作学习者,以增强梯度以找到更好的元初始化参数。由于合作学习者不在内循环中进行更新,因此在元训练后可以轻松删除。因此,CML仅通过元学习者进行推理,无需额外的成本和性能降低。我们证明了CML在基于梯度的元学习方法中很容易应用,并且在少样本回归、少样本图像分类和少样本节点分类任务中提高了性能。我们的代码位于此https URL。

论文链接: https://arxiv.org/pdf/2406.04639

Github: https://github.com/JJongyn/CML

cs.AI: CTBENCH:一个用于认证训练的库和基准测试

原标题: CTBENCH: A Library and Benchmark for Certified Training

作者: Yuhao Mao, Stefan Balauca, Martin Vechev

机构: ETH Zurich INSAIT Sofia University

摘要: 训练可靠的神经网络是一项重要但具有挑战性的任务。虽然已经提出了许多(确定性的)认证训练算法,但它们通常在不同的训练计划、认证方法和系统地调整过的超参数上进行评估,这使得很难比较它们的性能。为了解决这个挑战,我们引入了CTBENCH,这是一个统一的库和一个高质量的认证训练基准,它在公平的设置和系统地调整过的超参数下评估所有算法。我们展示了(1)CTBENCH中几乎所有算法在算法改进的程度上超过了文献中相应的报告性能,从而建立了新的最先进技术,(2)当我们用公平的训练计划、公平的认证方法和调整良好的超参数来增强过时的基准时,最近算法的声称优势显著下降。基于CTBENCH,我们提供了对认证训练当前状态的新见解,并提出了未来的研究方向。我们相信CTBENCH将成为未来认证训练研究的基准和测试平台。

论文链接: https://arxiv.org/pdf/2406.04848

cs.AI: 鲁棒的奖励设计用于马尔可夫决策过程

原标题: Robust Reward Design for Markov Decision Processes

作者: Shuo Wu, Haoxiang Ma, Jie Fu, Shuo Han

机构: 清华大学

摘要: 奖励设计问题研究了领导者和追随者之间的互动,其中领导者旨在通过修改追随者的奖励函数来塑造追随者的行为,以最大化领导者的回报。当前的奖励设计方法依赖于对追随者如何对奖励修改做出反应的准确模型,而这可能对建模的准确性敏感。为了解决这个敏感性问题,我们提出了一种解决方案,可以对建模追随者时的不确定性提供鲁棒性,包括:1)追随者在存在非唯一最佳反应时如何打破平局,2)对追随者感知奖励修改的不精确知识,以及3)追随者的有界理性。我们的鲁棒解决方案在温和条件下保证存在,并可以通过求解混合整数线性规划来获得数值解。对多个测试案例进行的数值实验表明,与标准方法相比,我们的解决方案提高了鲁棒性,而且计算成本增加不明显。

论文链接: https://arxiv.org/pdf/2406.05086

cs.AI: 扩展自动提取伪代码

原标题: Scaling Automatic Extraction of Pseudocode

作者: Levent Toksoz, Gang Tan, C. Lee Giles

机构: The Pennsylvania State University

摘要: 学术论文中的伪代码提供了一种简洁的方式来表达其中实现的算法。伪代码也可以被视为一种中介表示,有助于弥合编程语言和自然语言之间的差距。拥有大量的伪代码集合可以提供各种好处,从增强算法理解、促进进一步的算法设计,到为自然语言处理或计算机视觉基于模型的任务(如自动代码生成和光学字符识别)提供支持。我们通过从arXiv论文中提取近32万个伪代码示例来创建了一个大型伪代码集合。这个过程涉及扫描超过220万篇学术论文,其中有1000篇进行了手动检查和标记。我们的方法包括一个定制化的提取机制来优化覆盖范围,以及基于随机抽样的验证机制来检查其准确性和可靠性,考虑到集合的固有异质性。此外,我们还提供了对常见伪代码结构的洞察,支持聚类和统计分析。值得注意的是,这些分析表明伪代码的使用呈指数增长趋势,突显了它们的日益重要性。

论文链接: https://arxiv.org/pdf/2406.04635

cs.AI: 去噪感知对比学习用于噪声时间序列

原标题: Denoising-Aware Contrastive Learning for Noisy Time Series

作者: Shuang Zhou, Daochen Zha, Xiao Shen, Xiao Huang, Rui Zhang, Fu-Lai Chung

机构: 香港理工大学、莱斯大学、海南大学、明尼苏达大学

摘要: 时间序列自监督学习(SSL)旨在利用无标签数据进行预训练,以减少对标签的依赖。尽管近年来取得了巨大的成功,但对于时间序列中潜在噪声的讨论有限,这可能严重影响现有SSL方法的性能。为了减少噪声,事实上的策略是在模型训练之前应用传统的去噪方法。然而,这种预处理方法可能无法完全消除SSL中噪声的影响,原因有两个:(i)时间序列中多样的噪声类型使得自动确定合适的去噪方法变得困难;(ii)在将原始数据映射到潜在空间后,噪声可能被放大。在本文中,我们提出了一种去噪感知对比学习(DECL)方法,它使用对比学习目标来减少表示中的噪声,并自动为每个样本选择合适的去噪方法。对各种数据集进行了大量实验证明了我们方法的有效性。代码已开源。

论文链接: https://arxiv.org/pdf/2406.04627

Github: https://github.com/betterzhou/DECL

cs.AI: 原始的智能体一阶优化

原标题: Primitive Agentic First-Order Optimization

作者: R. Sala

摘要: 高效的数值优化方法可以提高性能,减少计算在许多应用中的环境影响。本研究提出了一个概念验证研究,将原始状态表示和智能体-环境交互作为有限预算优化设置中的一阶优化器。通过强化学习(RL)在一组训练实例上,近似计算出顺序更新选择算法迭代步骤的最优策略,这些实例属于一般形式的低维部分状态表示,考虑了进展和资源使用的方面。对于所研究的案例研究,将训练好的智能体部署到未见过的二次优化问题类的实例中,优于具有优化超参数的传统最优算法。结果表明,基本的强化学习方法结合简洁的部分状态表示可以用作处理强化学习优化中的复杂性的启发式方法,为智能化优化方法铺平了道路。

论文链接: https://arxiv.org/pdf/2406.04841

cs.AI: 图像解释的分类度量:朝着构建可靠的XAI评估的方向前进

原标题: Classification Metrics for Image Explanations: Towards Building Reliable XAI-Evaluations

作者: Benjamin Fresz, Lena Lörcher, Marco Huber

机构: 德国弗劳恩霍夫制造工程和自动化研究所(Fraunhofer Institute for Manufacturing Engineering and Automation IPA)和斯图加特大学工业制造和管理研究所(Institute of Industrial Manufacturing and Management IFF, University of Stuttgart)

摘要: 计算机视觉模型的决策过程 - 特别是深度神经网络 - 具有不透明的性质,这意味着这些决策无法被人类理解。因此,在过去的几年中,已经提出了许多方法来提供人类可理解的解释。对于图像分类,最常见的方法是显著性方法,它们为输入图像提供(超)像素级的特征归因分数。但是它们的评估仍然存在问题,因为它们的结果不能简单地与未知的真实情况进行比较。为了克服这个问题,已经定义了许多不同的代理指标,这些指标 - 就像解释性方法本身一样 - 往往是基于直觉构建的,因此可能不可靠。本文开发了新的显著性方法评估指标,并在ImageNet上对常见的显著性方法进行了基准测试。此外,还提出了一种基于心理测量测试概念的可靠性评估方案。所使用的代码可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.05068

Github: https://github.com/lelo204/ClassificationMetricsForImageExplanations

cs.AI: 在数据稀缺情况下的图挖掘

原标题: Graph Mining under Data scarcity

作者: Appan Rakaraddi, Lam Siew-Kei, Mahardhika Pratama, Marcus de Carvalho

机构: 南洋理工大学 澳大利亚南澳大学

摘要: 深度学习模型已经被提出用于图中的节点分类。然而,在标记数据稀缺的情况下,它们往往表现不佳。尽管已经引入了用于图的少样本学习来克服这个问题,但现有的模型不容易适应通用图学习框架,如图神经网络(GNNs)。我们的工作提出了一个不确定性估计器框架,可以应用于任何通用的GNN骨干网络(通常用于监督/半监督节点分类),以提高节点分类性能。我们使用神经网络将不确定性估计器建模为概率分布,而不是概率离散标量值。我们在经典的 n n n-way, k k k-shot方式下,在端到端的设置中训练这些模型。
我们的工作证明,在GNN骨干网络上实现不确定性估计器可以在少样本设置下提高分类准确性,而无需任何元学习特定的架构。我们在多个数据集上进行了实验,使用不同的少样本设置和基于GNN的骨干网络。我们的方法优于基线,这证明了在具有GNN的图上进行少样本节点分类的不确定性估计器的有效性。

论文链接: https://arxiv.org/pdf/2406.04825

cs.AI: 重新审视注意力权重作为消息传递神经网络的解释

原标题: Revisiting Attention Weights as Interpretations of Message-Passing Neural Networks

作者: Yong-Min Shin, Siqing Li, Xin Cao, Won-Yong Shin

摘要: 自注意机制已经在几种广泛使用的消息传递神经网络(MPNNs)中采用(例如,GATs),它自适应地控制沿着底层图的边缘流动的信息量。这种注意力的使用使得这些模型成为可解释人工智能(XAI)研究的基准,因为通过注意力进行解释在各个领域(例如自然语言处理和计算机视觉)中已经被普及。然而,现有的研究通常使用简单的计算方法从注意力中推导出归因分数,并且没有考虑到边缘归因的精确和谨慎计算。在我们的研究中,我们旨在填补注意力启用的MPNNs的广泛使用和在解释性方面的潜力之间的差距,这是一个在其他领域积极研究的主题。为此,作为第一次尝试,我们在GNNs中形式化了从注意力权重中的边缘归因问题。然后,我们提出了GATT,一种基于计算树的边缘归因计算方法。通过全面的实验证明了我们提出的方法在评估来自GATs的归因时的有效性。相反,我们经验证明,简单地对图注意力层的注意力权重进行平均是不足以解释GAT模型行为的。代码公开可在此https URL获取。

论文链接: https://arxiv.org/pdf/2406.04612

Github: https://github.com/jordan7186/GAtt/tree/main https://github.com/jordan7186/gatt

cs.AI: 在浏览器中的提示:用于编程反馈生成的语言模型基准测试

原标题: Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation

作者: Nachiket Kotalwar, Alkis Gotovos, Adish Singla

机构: MPI-SWS

摘要: 生成式人工智能和大型语言模型在提升编程教育方面具有巨大潜力,可以为学习者生成个性化的反馈和提示。最近的研究主要集中在提高生成反馈的质量,以达到人类导师的水平。虽然质量是一个重要的性能指标,但并不是唯一需要优化的实际教育部署指标。在本文中,我们对编程反馈生成的语言模型进行了多个性能指标的基准测试,包括质量、成本、时间和数据隐私。关键思想是利用浏览器推理的新范式的最新进展,允许在浏览器中直接运行这些模型,从而在成本和数据隐私方面提供直接的好处。为了提高与浏览器推理引擎兼容的小型模型的反馈质量,我们开发了一个基于GPT-4生成的合成数据的微调流程。我们展示了使用WebLLM的浏览器推理引擎在三个不同的Python编程数据集上使用经过微调的Llama3-8B和Phi3-3.8B 4位量化模型的有效性。我们将发布完整的实现,以及一个Web应用程序和数据集,以促进对浏览器语言模型的进一步研究。

论文链接: https://arxiv.org/pdf/2406.05053

cs.AI: 多样的领域内和领域间活动风格融合,用于跨人通用的活动识别。

原标题: Diverse Intra- and Inter-Domain Activity Style Fusion for Cross-Person Generalization in Activity Recognition

作者: Junru Zhang, Lang Feng, Zhidan Liu, Yuhan Wu, Yang He, Yabo Dong, Duanqing Xu

机构: 浙江大学 深圳大学

摘要: 现有的领域泛化(DG)方法用于跨人泛化任务时,常常面临着捕捉领域内和领域间样式多样性的挑战,导致与目标领域之间存在领域差距。在本研究中,我们探索了一种新的视角来解决这个问题,即域填充的概念化过程。这个提议旨在通过合成领域内和领域间的样式数据来丰富领域多样性,同时保持对类别标签的鲁棒性。我们使用条件扩散模型实例化了这个概念,并引入了一种融合样式的采样策略来增强数据生成的多样性。与传统的条件引导采样相比,我们的融合样式采样策略允许灵活地使用一个或多个随机样式来引导数据合成。这个特性带来了一个显著的进步:它允许最大限度地利用现有样式之间的可能排列和组合,生成广泛的新样式实例。在一系列数据集上的实证评估表明,我们生成的数据在领域空间内具有显著的多样性。领域内和领域间生成的数据都被证明是重要且有价值的,对性能提升有不同程度的贡献。值得注意的是,我们的方法在所有人类活动识别任务中优于最先进的DG方法。

论文链接: https://arxiv.org/pdf/2406.04609

cs.AI: 通过全局架构因素上的高斯过程在MobileViT中提高导航效率

原标题: Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors

作者: Ke Meng, Kai Chen

机构: 中南大学

摘要: 大量的技术已经被精心设计用于卷积神经网络(CNN)的最佳架构,然而对于视觉Transformer(ViTs)的关注相对较少。尽管ViTs在各种视觉任务中取得了显著的成功,但它们的重量级特性带来了计算成本的挑战。在本文中,我们利用高斯过程系统地探索MobileViT的性能与全局架构因素之间的非线性和不确定关系,例如分辨率、宽度和深度,包括反转残差块的深度和ViT块的深度,以及分辨率-深度和分辨率-宽度等联合因素。我们提出了设计原则,扭曲全局架构因素的魔幻4D立方体,以最小化模型大小和计算成本,并提高模型准确性。我们引入了一个公式,通过迭代地推导出更小的MobileViT V2来缩小架构,同时遵守指定的乘累加操作(MACs)的约束。实验结果表明,我们的公式在各种数据集上明显优于CNN和移动ViTs。

论文链接: https://arxiv.org/pdf/2406.04820

cs.AI: 通过双向 SSMs 的扩散曼巴实现高效的3D形状生成

原标题: Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs

作者: Shentong Mo

机构: 卡内基梅隆大学

摘要: 最近序列建模的进展导致了Mamba架构的发展,该架构以其选择性状态空间方法而闻名,为高效处理长序列提供了一个有前途的途径。然而,其在3D形状生成方面的应用,特别是在高分辨率下,仍未得到充分探索。传统的扩散变压器(DiT)具有自注意机制,尽管具有潜力,但由于注意力操作的立方复杂性随着输入长度的增加而面临可扩展性挑战。当处理高分辨率体素尺寸时,这种复杂性成为一个重要障碍。为了解决这个挑战,我们引入了一种专为3D点云生成量身定制的新型扩散架构-扩散Mamba(DiM-3D)。该架构放弃了传统的注意机制,而是利用Mamba架构的固有效率,以保持与序列长度成线性复杂度。DiM-3D具有快速推理时间和大大降低的计算需求,通过减少Gflops来量化,从而解决了先前模型的关键可扩展性问题。我们在ShapeNet基准测试上的实证结果表明,DiM-3D在生成高保真度和多样化的3D形状方面实现了最先进的性能。此外,DiM-3D在3D点云完成等任务中显示出卓越的能力。这不仅证明了模型的可扩展性,还强调了其在生成详细的高分辨率体素方面的效率,这对于先进的3D形状建模尤其在需要高分辨率体素尺寸的环境中表现出色。通过这些发现,我们展示了扩散Mamba框架在3D形状生成中的卓越可扩展性和效率,为该领域设定了新的标准,并为高分辨率3D建模技术的未来探索铺平了道路。

论文链接: https://arxiv.org/pdf/2406.05038

cs.AI: MeGA: 基于遗传算法的合并多个独立训练的神经网络

原标题: MeGA: Merging Multiple Independently Trained Neural Networks Based on Genetic Algorithm

作者: Daniel Yun

机构: 纽约州立大学石溪分校

摘要: 在本文中,我们介绍了一种使用遗传算法MeGA合并多个预训练神经网络权重的新方法。传统的技术,如权重平均和集成方法,往往无法充分利用预训练网络的能力。我们的方法利用了一种具有锦标赛选择、交叉和变异的遗传算法来优化权重组合,从而创建更有效的融合。这种技术允许合并模型从父模型中继承有利特征,从而提高准确性和鲁棒性。通过在CIFAR-10数据集上进行实验,我们证明了基于遗传算法的权重合并方法相比于单个模型和传统方法能够提高测试准确性。这种方法为在各种深度学习应用中集成多个预训练网络提供了可扩展的解决方案。Github链接:this https URL

论文链接: https://arxiv.org/pdf/2406.04607

Github: https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Genetic-Algorithm

cs.AI: 技能感知的互信息优化在强化学习中的泛化

原标题: Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning

作者: Xuehui Yu, Mhairi Dunion, Xin Li, Stefano V. Albrecht

机构: 哈尔滨工业大学 爱丁堡大学

摘要: 元强化学习(Meta-RL)智能体在处理具有不同环境特征的任务时可能会遇到困难,这些任务需要不同的最优技能(即不同的行为模式)。使用基于对比学习的上下文编码器来增强Meta-RL智能体的泛化能力现在被广泛研究,但面临着一些挑战,比如需要大样本量,也被称为 log ⁡ \log log- K K K诅咒。为了改善强化学习在不同任务中的泛化能力,我们首先引入了Skill-aware Mutual Information(SaMI),这是一个优化目标,可以根据技能来区分上下文嵌入,从而使强化学习智能体具备在不同任务中识别和执行不同技能的能力。然后,我们提出了Skill-aware Noise Contrastive Estimation(SaNCE),这是一个用于优化SaMI目标的 K K K-样本估计器。我们提供了一个在实践中为RL智能体配备SaNCE的框架,并在修改后的MuJoCo和Panda-gym基准测试上进行了实验验证。我们实证发现,通过最大化SaMI学习的RL智能体在未见过的任务上实现了显著改进的零样本泛化能力。此外,配备SaNCE的上下文编码器对可用样本数量的减少表现出更强的鲁棒性,因此具有克服 log ⁡ \log log- K K K诅咒的潜力。

论文链接: https://arxiv.org/pdf/2406.04815

Github: https://github.com/uoe-agents/sami

cs.AI: 时间筛选:通过信息瓶颈提取时间动态

原标题: TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks

作者: Ninghui Feng, Songning Lai, Fobao Zhou, Zhenxiao Yin, Hang Zhao

机构: 香港科技大学(广州)

摘要: 时间序列预测已成为一个越来越受欢迎的研究领域,因为它在交通管理、天气预测和金融分析等各个实际领域中具有重要的应用。尽管取得了显著的进展,但现有模型面临着显著的挑战,包括需要针对不同数据集进行手动超参数调整的必要性,以及在具有强季节性特征的数据中有效区分信号和冗余特征的困难。这些问题阻碍了时间序列预测模型的泛化和实际应用。为了解决这些问题,我们提出了一种创新的时间序列预测模型TimeSieve,旨在解决这些挑战。我们的方法使用小波变换对时间序列数据进行预处理,有效地捕捉多尺度特征,无需额外的参数或手动超参数调整。此外,我们引入了信息瓶颈理论,从细节和近似系数中过滤出冗余特征,仅保留最具预测性的信息。这种组合显著提高了模型的准确性。广泛的实验证明,我们的模型在70%的数据集上优于现有的最先进方法,实现了更高的预测准确性和更好的泛化性能。我们的结果验证了我们的方法在解决时间序列预测中的关键挑战方面的有效性,为实际应用中更可靠和高效的预测模型铺平了道路。我们的模型代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.05036

Github: https://github.com/xll0328/TimeSieve

cs.AI: 有益还是有害的数据?无需微调的 Shapley 归因方法用于解释语言模型的预测

原标题: Helpful or Harmful Data? Fine-tuning-free Shapley Attribution for Explaining Language Model Predictions

作者: Jingtan Wang, Xiaoqiang Lin, Rui Qiao, Chuan-Sheng Foo, Bryan Kian Hsiang Low

机构: 清华大学 南洋理工大学

摘要: 基于模型的复杂性不断增加的事实,尤其是对于fine-tuning这种广泛使用的训练方法来说,解释性变得越来越必要。其中一种解释方法是实例归因,它通过实例分数将模型的预测归因于每个训练样本。然而,实例分数的鲁棒性,尤其是对于数据集重采样的鲁棒性,一直被忽视。为了弥补这一差距,我们提出了对实例分数符号的鲁棒性概念。我们在理论上和实证上证明了基于leave-one-out方法的流行方法缺乏鲁棒性,而Shapley值的表现要好得多,但计算成本更高。因此,我们基于神经切线核引入了一种高效的不需要fine-tuning的Shapley值近似方法(FreeShap)用于实例归因。我们在实证中证明,FreeShap在实例归因和其他数据中心应用(如数据删除、数据选择和错误标签检测)方面优于其他方法,并进一步推广到大语言模型(LLMs)。我们的代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.04606

Github: https://github.com/JTWang2000/FreeShap

cs.AI: 使用高斯过程生成钢琴练习策略

原标题: Generating Piano Practice Policy with a Gaussian Process

作者: Alexandra Moringen, Elad Vromen, Helge Ritter, Jason Friedman

机构: University of Greifswald Tel Aviv University Bielefeld University

摘要: 学习弹奏钢琴的典型过程包括通过一系列的练习单元逐步进展,这些单元侧重于技能的各个方面,即所谓的练习模式。学习弹奏音乐的练习模式包括一组特别多的可能性,例如手部协调、姿势、发音、阅读乐谱的能力、正确的节奏或音高等。自主练习被认为是次优的,目前还没有存在一个能够安排最佳练习以最大化学习者进步的模型。因为每个人的学习方式不同,而且钢琴练习任务和方法有很多选择,所以练习模式的集合应该根据人类学习者进行动态调整,这通常是由老师指导的过程。然而,由人类老师指导个人练习并不总是可行的,因为这需要耗费时间、昂贵且常常无法获得。在这项工作中,我们提出了一个建模框架,通过选择由策略模型生成的练习模式来指导人类学习者的学习过程。为此,我们提出了一个基于高斯过程的计算架构,其中包括1)学习者状态,2)选择适当的练习模式的策略,3)绩效评估,和4)专家知识。所提出的策略模型经过训练,以近似模拟练习过程中专家和学习者的互动。在我们的未来工作中,我们将测试不同的贝叶斯优化技术,例如不同的收集函数,并评估它们对学习进展的影响。

论文链接: https://arxiv.org/pdf/2406.04812

Github: https://github.com/jasonfriedman/piano_gp

cs.AI: 使用C4提升大规模并行训练效率:一种基于通信的方法

原标题: Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

作者: Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu

机构: 阿里巴巴集团

摘要: 大语言模型(LLM)的出现使得采用并行训练技术成为必要,这涉及到部署数千个GPU来训练一个模型。不幸的是,我们发现当前并行训练的效率通常不够优化,主要是由于以下两个主要问题。首先,硬件故障是不可避免的,导致训练任务中断。无法快速识别故障组件导致GPU资源的大量浪费。其次,由于GPU必须等待参数同步完成后才能进行下一轮计算,网络拥塞会大大增加GPU的等待时间。为了解决这些挑战,本文介绍了一种基于通信的解决方案,即C4。C4的关键见解有两个。首先,在并行训练中,集体通信表现出周期性和均匀性特征,因此任何异常都肯定是由某种形式的硬件故障引起的。通过利用这个特性,C4可以快速识别故障组件,迅速隔离异常,并重新启动任务,从而避免由于异常检测延迟而导致的资源浪费。其次,集体通信的可预测通信模型涉及少量大流量,使得C4能够高效执行流量规划,大大减少网络拥塞。C4已在我们的生产系统中广泛实施,将由错误引起的开销大约减少30%,并提高了某些具有适度通信成本的应用程序的运行时性能约15%。

论文链接: https://arxiv.org/pdf/2406.04594

cs.AI: 脆弱模型水印:进化、特征和分类的综合调查

原标题: Fragile Model Watermarking: A Comprehensive Survey of Evolution, Characteristics, and Classification

作者: Zhenzhe Gao, Yu Cheng, Zhaoxia Yin

机构: 空字符串

摘要: 模型脆弱水印技术,受到对神经网络的对抗攻击和传统多媒体脆弱水印技术的启发,逐渐成为一种强大的检测篡改的工具,并在近年来得到了快速发展。与用于识别模型版权的强韧水印不同,模型的脆弱水印旨在识别模型是否经历了意外的修改,如后门、毒化、压缩等。这些修改可能对模型用户造成未知的风险,例如在经典的自动驾驶场景中将停止标志误认为限速标志。本文概述了模型脆弱水印技术领域自诞生以来的相关工作,对其进行分类并揭示了该领域的发展轨迹,为未来在模型脆弱水印技术方面的努力提供了全面的调查。

论文链接: https://arxiv.org/pdf/2406.04809

cs.AI: 使用深度强化学习优化自动微分

原标题: Optimizing Automatic Differentiation with Deep Reinforcement Learning

作者: Jamie Lohoff, Emre Neftci

机构: RWTH Aachen、Forschungszentrum Jülich

摘要: 使用自动微分计算雅可比矩阵在许多科学领域中非常普遍,例如机器学习、计算流体力学、机器人技术和金融领域。即使在雅可比计算中节省一点计算量或内存使用,也可以节省大量能源消耗和运行时间。虽然存在许多允许这种节省的方法,但它们通常以计算效率为代价来近似计算精确的雅可比矩阵。在本文中,我们提出了一种新的方法,通过利用深度强化学习(RL)和一个称为跨国消除的概念来优化雅可比计算所需的乘法次数,同时仍然计算精确的雅可比矩阵。跨国消除是一种自动微分框架,将雅可比累积表述为计算图上所有顶点的有序消除,每次消除都会产生一定的计算成本。我们将寻找最优消除顺序以最小化所需乘法次数的过程形式化为一个由RL智能体玩的单人游戏。我们证明这种方法在多个相关任务上相比最先进的方法可以实现高达33%的改进。此外,我们通过在JAX中提供一个跨国消除解释器来展示这些理论上的收益如何转化为实际的运行时改进,该解释器可以高效地执行获得的消除顺序。

论文链接: https://arxiv.org/pdf/2406.05027

cs.AI: CLoG:基准测试图像生成模型的持续学习

原标题: CLoG: Benchmarking Continual Learning of Image Generation Models

作者: Haotian Zhang, Junting Zhou, Haowei Lin, Hang Ye, Jianhua Zhu, Zihao Wang, Liangcai Gao, Yizhou Wang, Yitao Liang

机构: 北京大学

摘要: 持续学习(CL)在人工智能领域面临着重大挑战,旨在模拟人类逐步获取知识和技能的能力。虽然在分类任务的背景下对CL进行了广泛研究,但随着越来越强大的生成模型的出现,需要探索生成模型的持续学习(CLoG)。本文主张将研究重点从基于分类的CL转向CLoG。我们系统地确定了CLoG相对于传统基于分类的CL所面临的独特挑战。我们将回放型、正则化型和参数隔离型三种现有的CL方法应用于生成任务,并引入了全面的CLoG基准,具有很大的多样性和广泛的任务覆盖范围。我们的基准和结果提供了有趣的见解,对于开发未来的CLoG方法具有价值。此外,我们将在此https URL上公开发布一个旨在促进CLoG中易于基准测试和实验的代码库。我们相信,将研究重点转向CLoG将有益于持续学习社区,并为终身学习范式下的下一代AI生成内容(AIGC)指明道路。

论文链接: https://arxiv.org/pdf/2406.04584

Github: https://github.com/linhaowei1/CLoG

cs.AI: TEDi政策:用于机器人控制的时间上纠缠扩散

原标题: TEDi Policy: Temporally Entangled Diffusion for Robotic Control

作者: Sigmund H. Høeg, Lars Tingelstad

机构: 挪威科技大学

摘要: 扩散模型在机器人模仿学习中表现出色,通过掌握建模复杂分布的挑战。然而,由于它们在图像生成方面的流行,采样速度传统上并不是优先考虑的,这限制了它们在动态任务中的应用。虽然最近的工作改进了基于扩散的机器人策略的采样速度,但它们仅限于图像生成领域的技术。我们将TEDi(时间上纠缠扩散)这一特定于轨迹生成的框架改编为加速基于扩散的模仿学习策略。我们引入了TEDi策略,具有新颖的训练和采样机制,并且证明它在应用于最先进的基于扩散的模仿学习策略时,在保持性能的同时大大提高了采样速度。

论文链接: https://arxiv.org/pdf/2406.04806

cs.AI: 学习增强优先队列

原标题: Learning-Augmented Priority Queues

作者: Ziyad Benomar, Christian Coester

机构: ENSAE, Ecole polytechnique, Fairplay joint team, Paris University of Oxford

摘要: 优先队列是计算机科学中最基本和广泛使用的数据结构之一。它们的主要目标是高效地支持插入具有指定优先级的新元素和提取最高优先级元素。在这项研究中,我们探讨了在学习增强框架内设计优先队列的方法,其中算法使用可能不准确的预测来提高它们的最坏情况性能。我们研究了三种涵盖不同用例的预测模型,并展示了如何利用这些预测来提高优先队列操作的性能。此外,我们还展示了我们解决方案的最优性,并讨论了一些可能的应用。

论文链接: https://arxiv.org/pdf/2406.04793

cs.AI: 自适应学习在在线平台上进行选择-排序

原标题: Adaptively Learning to Select-Rank in Online Platforms

作者: Jingyuan Wang, Perry Dong, Ying Jin, Ruohan Zhan, Zhengyuan Zhou

机构: 清华大学 北京大学

摘要: 排名算法是各种在线平台的基础,包括电子商务网站和内容流媒体服务。我们的研究解决了适应性地为异构用户从候选池中排名项目的挑战,这是个性化用户体验的关键组成部分。我们开发了一个用户响应模型,考虑到不同用户的偏好和项目位置的不同影响,旨在优化排名列表的整体用户满意度。我们将这个问题框架放在一个上下文强化学习的框架中,将每个排名列表视为一个动作。我们的方法通过上界置信度来调整预测的用户满意度分数,并选择最大化这些调整分数的排名动作,通过最大权重不完美匹配高效解决。我们证明了我们的算法在假设用户响应遵循广义线性模型的情况下,对于在 d d d维上下文空间中的 T T T轮中的 N N N个项目中的 K K K个项目进行排名,实现了累积遗憾界为 O ( d N K T ) O(d\sqrt{NKT}) O(dNKT )。这种遗憾减轻了对环境动作空间的依赖,其基数随着 N N N K K K呈指数增长(因此直接应用现有的自适应学习算法 - 如UCB或汤普森抽样 - 是不可行的)。在模拟和真实数据集上进行的实验证明了我们的算法优于基准算法。

论文链接: https://arxiv.org/pdf/2406.05017

cs.AI: 利用多模态潜在动态模型和深度强化学习优化地质碳储存操作

原标题: Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning

作者: Zhongzheng Wang, Yuntian Chen, Guodong Chen, Dongxiao Zhang

机构: 北京大学 东方数字孪生研究院 浙江省宁波市 中国香港大学 深圳鹏城实验室

摘要: 在地质碳封存(GCS)中最大化存储性能对于商业部署至关重要,但传统的优化方法需要资源密集型的模拟,带来了计算挑战。本研究引入了多模态潜在动态(MLD)模型,这是一个用于快速流动预测和GCS中井控优化的深度学习框架。MLD模型包括一个用于压缩潜在表示的表示模块,一个用于系统状态演化的转换模块,以及一个用于流动响应的预测模块。一种新颖的训练策略结合了回归损失和联合嵌入一致性损失,增强了时间一致性和多步预测准确性。与现有模型不同,MLD支持多样的输入模态,允许全面的数据交互。MLD模型类似于马尔可夫决策过程(MDP),可以训练深度强化学习智能体,特别是使用软性演员-评论家(SAC)算法,通过连续交互来最大化净现值(NPV)。该方法优于传统方法,实现了最高的NPV,同时将计算资源减少了60%以上。它还展示了强大的泛化性能,基于先前的知识为新场景提供了改进的决策。

论文链接: https://arxiv.org/pdf/2406.04575

cs.AI: StackSight: 通过大语言模型和神经符号链式思维反编译揭示WebAssembly

原标题: StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation

作者: Weike Fang, Zhejian Zhou, Junzhou He, Weihang Wang

机构: Zhejian Zhou 1 Junzhou He1 Weihang Wang1

摘要: WebAssembly使得Web应用程序能够在接近本机的执行速度下运行,并且越来越多地被用于需要高性能和强大安全性的任务。然而,它的类汇编语法、隐式堆栈机器和底层数据类型使得人类开发者难以理解,因此需要有效的WebAssembly逆向工程技术。在本文中,我们提出了StackSight,一种新颖的神经符号化方法,它将大型语言模型(LLMs)与先进的程序分析相结合,将复杂的WebAssembly代码反编译为可读的C++片段。StackSight通过静态分析算法可视化和跟踪虚拟堆栈的变化,然后利用LLM的复杂推理能力进行思维链提示。评估结果表明,StackSight显著改善了WebAssembly的反编译效果。我们的用户研究也证明,由StackSight生成的代码片段具有显著更高的胜率,并且能够更好地理解代码语义。

论文链接: https://arxiv.org/pdf/2406.04568

cs.AI: 基准测试深度Jansen-Rit参数推断:一项基于计算模拟的研究

原标题: Benchmarking Deep Jansen-Rit Parameter Inference: An in Silico Study

作者: Deepa Tilwani, Christian O’Reilly

机构: 南卡罗来纳大学

摘要: 研究有效连接性(EC)对于理解大脑如何整合和响应各种感觉输入至关重要。基于模型的EC估计是一种强大的方法,需要估计神经活动生成模型的全局和局部参数。通过这个过程获得的见解可以用于各种应用,比如研究神经发育障碍。然而,由于大脑动力学的复杂性和神经记录中固有的噪声(例如,脑电图(EEG)中的噪声),准确确定通过生成模型的EC仍然是一个重大挑战。目前用于研究EC的基于模型的方法在计算上非常复杂,无法满足整个大脑分析所需的所有脑区的规模。为了促进EC评估,推理算法必须在存在噪声的情况下具有可靠的参数预测能力。此外,模型参数与神经记录之间的关系必须是可学习的。为了实现这些目标,我们评估了Bi-LSTM模型在各种噪声条件下从Jansen-Rit神经质量模型(JR-NMM)模拟的EEG中进行参数推断的性能。此外,我们的研究探讨了JR-NMM对关键生物参数(如突触增益和时间常数)的变化如何反应(敏感性分析),这是理解神经机制和观察到的脑活动之间联系的关键步骤。我们的结果表明,我们可以从EEG中预测局部JR-NMM参数,支持我们基于深度学习的推理方法的可行性。在未来的工作中,我们计划将这个框架扩展到在临床相关应用中从真实EEG中估计局部和全局参数。

论文链接: https://arxiv.org/pdf/2406.05002

Github: https://github.com/lina-usc/jansen-rit-model-benchmarking-deep-learning

cs.AI: 集体网络物理生态系统的软件工程

原标题: Software Engineering for Collective Cyber-Physical Ecosystems

作者: Roberto Casadei, Gianluca Aguzzi, Giorgio Audrito, Ferruccio Damiani, Danilo Pianini, Giordano Scarso, Gianluca Torta, Mirko Viroli

机构: Università di Bologna Università di Torino

摘要: 今天的分布式和普适计算解决了大规模的网络物理生态系统问题,这些系统以密集和庞大的设备网络为特征,这些设备能够进行计算、通信和与环境及人类进行交互。虽然大多数研究都将这些系统视为“复合体”(即异构的功能复合体),但近年来在自组织系统和群体机器人等领域的发展开辟了一种补充视角:将系统视为“集体”(即统一、协作和自组织的实体群体)。本文探讨了这种“集体计算范式”在软件工程中的动机、现状和影响,并讨论了其特殊挑战,并概述了未来研究的路径,涉及宏观编程、集体智能、自适应中间件、学习、合成和集体行为的实验等方面。

论文链接: https://arxiv.org/pdf/2406.04780

cs.AI: ADBA:黑盒对抗攻击的近似决策边界方法

原标题: ADBA:Approximation Decision Boundary Approach for Black-Box Adversarial Attacks

作者: Feiyang Wang, Xingquan Zuo, Hai Huang, Gang Chen

机构: 北京邮电大学 新西兰维多利亚大学

摘要: 许多机器学习模型容易受到对抗性攻击的影响,其中基于决策的黑盒攻击在实际应用中代表了最严重的威胁。这些攻击非常隐蔽,利用从目标机器学习模型获得的硬标签生成对抗性示例。通常通过优化扰动方向来实现,通过查询密集的精确搜索来确定决策边界,从而显著限制攻击成功率。本文引入了一种新颖的方法,使用近似决策边界(ADB)来高效准确地比较扰动方向,而无需精确确定决策边界。我们的ADB方法(ADBA)的有效性取决于及时识别出合适的ADB,确保可靠区分所有扰动方向。为此,我们分析了决策边界的概率分布,确认使用分布的中位数值作为ADB可以有效区分不同的扰动方向,从而发展出ADB-md算法。ADB-md只需要平均四个查询就能区分任意一对扰动方向,具有高查询效率。对六个知名图像分类器进行的大量实验证明了ADB和ADB-md在多个最先进的黑盒攻击方法上的优越性。

论文链接: https://arxiv.org/pdf/2406.04998

cs.AI: 使用深度生成图神经网络进行移动网络配置推荐

原标题: Mobile Network Configuration Recommendation using Deep Generative Graph Neural Network

作者: Shirwan Piroti, Ashima Chawla, Tahar Zanouda

机构: Ericsson

摘要: 在无线接入电信网络中,有大量可配置的参数。其中相当一部分参数是由无线节点或基站根据其部署设置进行配置的。传统方法依赖于个别参数配置的领域知识,往往导致次优的结果。为了改进这一点,提出了一种使用深度生成图神经网络(GNN)的框架。它将网络编码成一个图形,为每个无线接入网络节点提取子图,并采用Siamese GNN(S-GNN)来学习嵌入。该框架推荐了大量参数的配置参数,并检测到配置错误,同时处理网络扩展和现有基站重新配置。在真实数据上进行测试,该模型超过了基准线,展示了准确性、泛化能力和对概念漂移的稳健性。

论文链接: https://arxiv.org/pdf/2406.04779

cs.AI: UniTST: 有效地建模多变量时间序列预测中的系列间和系列内依赖关系

原标题: UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting

作者: Juncheng Liu, Chenghao Liu, Gerald Woo, Yiwei Wang, Bryan Hooi, Caiming Xiong, Doyen Sahoo

机构: Salesforce 大学加利福尼亚洛杉矶分校国立新加坡大学

摘要: 基于Transformer的模型已经成为多变量时间序列预测(MTSF)的强大工具。然而,现有的Transformer模型往往无法捕捉MTS数据中变量和时间维度之间的复杂依赖关系。最近的一些模型通过两个顺序或并行的注意机制分别捕捉变量和时间依赖关系。然而,这些方法无法直接和明确地学习复杂的跨系列和内部系列的依赖关系。在这项工作中,我们首先证明了这些依赖关系非常重要,因为它们通常存在于现实世界的数据中。为了直接建模这些依赖关系,我们提出了一个基于Transformer的模型UniTST,其中包含对扁平化的补丁标记的统一注意机制。此外,我们还添加了一个调度模块,以降低复杂性,并使模型适用于潜在的大量变量。尽管我们提出的模型采用了简单的架构,但在多个时间序列预测数据集上的广泛实验中表现出了令人信服的性能。

论文链接: https://arxiv.org/pdf/2406.04975

cs.AI: OFDM-标准兼容的SC-NOFS波形,用于低延迟和抗抖动的工业物联网通信。

原标题: OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications

作者: Tongyang Xu, Shuangyang Li, Jinhong Yuan

机构: 清华大学 电子信息与电气工程学院

摘要: 传统通信侧重于简化信号处理和提高频谱效率的常规和正交信号波形。相比之下,下一代通信将致力于引入新的能力,采用不规则和非正交信号波形。本研究提出了一种具有频谱效率的非规则Sinc(irSinc)整形技术,回顾了传统的Sinc技术,追溯到1924年,旨在提升工业物联网(IIoT)的性能。在时间关键的IIoT应用中,低延迟和时间抖动容忍度是两个重要因素,它们显著影响性能和可靠性。鉴于实践中延迟和抖动的不可避免性,本研究旨在通过减少延迟和增强系统对时间抖动效应的鲁棒性,提出一种波形技术来缓解这些影响。采用irSinc可以提高信号的频谱效率,而不会牺牲误码性能。将irSinc集成到两阶段框架中,开发了一种单载波非正交频率整形(SC-NOFS)波形,完全兼容5G标准,可以直接将irSinc集成到现有的工业物联网设置中。通过5G标准信号配置,我们的信号在相同的频谱带宽内实现了更快的数据传输。硬件实验验证了节约18%的时间资源,从而降低了延迟或增强了抖动容忍度。

论文链接: https://arxiv.org/pdf/2406.04776

cs.AI: 神经拉普拉斯用于学习随机微分方程

原标题: Neural Laplace for learning Stochastic Differential Equations

作者: Adrien Carrel

摘要: 神经拉普拉斯(Neural Laplace)是一种统一的框架,用于学习不同类别的微分方程(DE)。对于不同类别的DE,这个框架优于其他依赖于神经网络的方法,这些方法旨在学习普通微分方程(ODE)的类别。然而,许多系统无法使用ODE进行建模。随机微分方程(SDE)是在随机性影响下建模时的数学工具选择。在这项工作中,我们从理论和实践的角度回顾了神经拉普拉斯学习不同类别的SDE的潜在应用。

论文链接: https://arxiv.org/pdf/2406.04964

cs.AI: REP:面向设备上持续学习的资源高效提示

原标题: REP: Resource-Efficient Prompting for On-device Continual Learning

作者: Sungho Jeon, Xinyue Ma, Kwang In Kim, Myeongjae Jeon

机构: UNIST POSTECH

摘要: 在设备上的持续学习(CL)需要在模型准确性和资源效率之间进行协同优化,以实现实用性。这是非常具有挑战性的,因为它必须在学习具有不断漂移的数据的新任务时保持准确性,并且在能源和内存效率方面都要具备高度可部署性,以适用于真实世界的设备。通常,CL方法利用两种类型的主干网络之一:CNN或ViT。普遍认为,基于CNN的CL在资源效率方面表现出色,而基于ViT的CL在模型性能方面更优秀,使得每个选项只对单个方面具有吸引力。在本文中,我们重新审视了这种比较,同时采用了各种规模的强大预训练ViT模型,包括ViT-Ti(5.8M参数)。我们的详细分析揭示了许多实际选项,使得基于ViT的方法在考虑准确性、能源和内存时更适合在设备上进行持续学习。为了进一步扩大这种影响,我们引入了REP,该方法专门改进了基于提示的无重复训练方法的资源效率。我们的重点是在修剪计算和内存成本的同时避免与准确性之间的灾难性权衡。我们通过利用精心配置的模型增强输入数据的迅速提示选择,并开发了两种新算法-自适应令牌合并(AToM)和自适应层丢弃(ALD)-来优化提示更新阶段。特别是,AToM和ALD在视觉变换器模型中通过跳过数据和模型层维度进行选择性跳过,而不会损害任务特定的特征。对三个图像分类数据集的大量实验验证了REP相对于当前最先进方法的卓越资源效率。

论文链接: https://arxiv.org/pdf/2406.04772

cs.AI: 学习发散场以实现偏移鲁棒的图表示

原标题: Learning Divergence Fields for Shift-Robust Graph Representations

作者: Qitian Wu, Fan Nie, Chenxiao Yang, Junchi Yan

机构: 清华大学

摘要: 现实世界的数据生成通常涉及某些几何形状(例如,图形),这些形状引发了实例级的相互依赖性。这种特征使得学习模型的泛化更加困难,因为复杂的相互依赖模式会影响数据生成分布,并且在训练和测试之间可能会有所变化。在这项工作中,我们提出了一个具有可学习的发散场的几何扩散模型,用于具有相互依赖数据的挑战性泛化问题。我们在每个时间步骤中推广扩散方程,其中包含随机扩散性,旨在捕捉相互依赖数据之间的多方面信息流动。此外,我们通过因果推断推导出了一个新的学习目标,可以引导模型学习在不同领域中都不敏感的相互依赖的可泛化模式。关于实际实现,我们引入了三个模型实例化,可以分别被视为GCN、GAT和Transformer的广义版本,它们具有对分布转移的高级鲁棒性。我们展示了它们在各种真实世界数据集上对于超出分布的泛化的有希望的效果。

论文链接: https://arxiv.org/pdf/2406.04963

Github: https://github.com/fannie1208/glind

cs.AI: 人类智能自主系统中共享意识的情境理论扩展

原标题: Expansion of situations theory for exploring shared awareness in human-intelligent autonomous systems

作者: Scott A. Humr, Mustafa Canan, Mustafa Demir

机构: Naval Postgraduate School Arizona State University

摘要: 智能自主系统是与其他智能体相互作用以在复杂环境中完成任务的系统的一部分。然而,智能自主系统集成的系统对系统增加了额外的复杂性,基于其有限的认知过程,特别是共享情境意识,使团队能够应对新任务。智能自主系统缺乏共享情境意识对复杂任务环境中的团队效能产生不利影响,例如军事指挥与控制。一种称为情境理论的共享情境意识的补充方法有助于理解系统对系统共享情境意识与效能之间的关系。本研究阐述了对情境理论的概念讨论,以调查人类与智能自主系统智能体合作时系统对系统共享情境意识的发展。为了基于讨论,研究回顾了在系统对系统的背景下扩展情境理论的研究,得出了三个重要的推测,对未来系统对系统的设计和开发有益。

论文链接: https://arxiv.org/pdf/2406.04956

cs.AI: 销售低语者:对大语言模型品牌推荐的一种人类隐蔽攻击

原标题: Sales Whisperer: A Human-Inconspicuous Attack on LLM Brand Recommendations

作者: Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang

机构: 卡内基梅隆大学 中心 for AI Safety

摘要: 大语言模型(LLM)的用户可能依赖他人(例如提示服务)来撰写提示。然而,信任他人撰写的提示的风险尚未得到研究。在本文中,我们评估了在购物时使用此类提示对品牌推荐任务的风险。首先,我们发现改写提示可能导致LLM以截然不同的概率提及给定的品牌,其中一对提示的概率变化达到100%。接下来,我们开发了一种方法,可以扰动原始基础提示,增加LLM提及给定品牌的可能性。我们设计了一种对人类不引人注目的算法来扰动提示,通过绝对改进高达78.3%的方式,经验性地迫使LLM更频繁地提及与品牌相关的字符串。我们的结果表明,我们扰动后的提示:1)对人类来说不引人注目,2)迫使LLM更频繁地推荐目标品牌,3)增加选择目标品牌的感知机会。

论文链接: https://arxiv.org/pdf/2406.04755

cs.AI: ROS-Causal在真实世界的人机空间交互场景中的实验评估

原标题: Experimental Evaluation of ROS-Causal in Real-World Human-Robot Spatial Interaction Scenarios

作者: Luca Castri, Gloria Beraldo, Sariah Mghames, Marc Hanheide, Nicola Bellotto

摘要: 在人类共享环境中部署机器人需要深入了解附近的智能体和物体之间的相互作用。利用因果推断来建模因果关系有助于预测人类行为并实现对机器人干预的预测。然而,由于ROS生态系统中尚未实施现有因果发现方法,这是机器人领域的标准框架,因此在真实机器人上的有效利用受到了阻碍。为了弥合这一差距,在我们之前的工作中,我们提出了ROS-Causal,这是一个基于ROS的框架,用于人机空间交互中的数据收集和因果发现。在本研究中,我们在模拟环境和实验室场景中的新的人机空间交互数据集上对ROS-Causal进行了实验评估,以评估其性能和效果。我们的分析证明了这种方法的有效性,展示了机器人在数据收集过程中如何直接从机载中提取因果模型。从模拟中生成的在线因果模型与实验室实验的模型一致。这些发现可以帮助研究人员在共享环境中提高机器人系统的性能,首先通过在模拟中研究变量之间的因果关系,然后促进在真实人类环境中的实际机器人部署。ROS-Causal: this https URL

论文链接: https://arxiv.org/pdf/2406.04955

Github: https://lcastri.github.io/roscausal

cs.AI: 基于多模态多任务预训练的预测聚合物性质

原标题: Predicting Polymer Properties Based on Multimodal Multitask Pretraining

作者: Fanmeng Wang, Wentao Guo, Minjie Cheng, Shen Yuan, Hongteng Xu, Zhifeng Gao

机构: 人工智能高陵学院,中国人民大学 化学系,加利福尼亚大学戴维斯分校 化学系,DP Technology

摘要: 在过去的几十年中,聚合物在各个科学领域中发挥了重要作用,聚合物是由许多相同或相似的单体通过共价键结合而成的高分子化合物。在这种背景下,准确预测聚合物的性质变得越来越重要。通常,聚合物的性质,如可塑性、导电性、生物相容性等,与其三维结构密切相关。然而,目前用于预测聚合物性质的方法主要依赖于聚合物SMILES序列(P-SMILES字符串)的信息,而忽略了关键的三维结构信息,导致性能不佳。在这项工作中,我们提出了MMPolymer,一种新颖的多模态多任务预训练框架,将聚合物的一维顺序信息和三维结构信息结合起来,以增强下游聚合物性质预测任务。此外,为了克服聚合物三维数据的有限可用性,我们进一步提出了“星形替代”策略,有效提取三维结构信息。在预训练过程中,MMPolymer不仅预测掩码标记并恢复三维坐标,还实现了潜在表示的跨模态对齐。随后,我们进一步在监督学习范式下对预训练的MMPolymer进行微调,用于下游聚合物性质预测任务。实验结果表明,MMPolymer在各种聚合物性质预测任务中实现了最先进的性能。此外,利用预训练的MMPolymer并在微调过程中仅使用一种模态(P-SMILES字符串或三维构象)也能超越现有的聚合物性质预测方法,突显了MMPolymer在聚合物特征提取和利用方面的卓越能力。我们的在线聚合物性质预测平台可在https://app.bohrium.dp.tech/mmpolymer上访问。

论文链接: https://arxiv.org/pdf/2406.04727

cs.AI: 纳卡拉屋顶材料:用于屋顶检测、分类和分割的无人机图像,以支持蚊媒疾病风险评估。

原标题: Nacala-Roof-Material: Drone Imagery for Roof Detection, Classification, and Segmentation to Support Mosquito-borne Disease Risk Assessment

作者: Venkanna Babu Guthula, Stefan Oehmcke, Remigio Chilaule, Hui Zhang, Nico Lang, Ankit Kariryaa, Johan Mottelson, Christian Igel

机构: University of Copenhagen Royal Danish Academy University of Rostock

摘要: 由于低质量的住房,特别是某些屋顶特征与疟疾风险增加相关,基于遥感图像的屋顶类型分类可以支持疟疾风险评估,从而有助于预防该疾病。为了支持该领域的研究,我们发布了Nacala-Roof-Material数据集,其中包含莫桑比克的高分辨率无人机图像,并标注了房屋并指定其屋顶类型。该数据集定义了一个多任务计算机视觉问题,包括目标检测、分类和分割。此外,我们在数据集上对各种最先进的方法进行了基准测试。规范的U-Net、YOLOv8和基于预训练DINOv2的自定义解码器作为基准。我们表明,每种方法都有其优势,但没有一种方法在所有任务上都优越,这突显了我们数据集在未来多任务学习研究中的潜力。虽然这些任务密切相关,但准确的对象分割不一定意味着准确的实例分离,反之亦然。我们通过引入深度有序分水岭(DOW)方法的变体来解决这个普遍问题,该方法还可以分离对象的内部,从而实现更好的对象描绘和分离。我们表明,我们的DOW变体是一种通用方法,可以改善U-Net和DINOv2骨干网络的性能,实现语义分割和实例分割之间更好的权衡。

论文链接: https://arxiv.org/pdf/2406.04949

cs.AI: CarbonSense: 一个用于碳通量建模的多模态数据集和基准线

原标题: CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling

作者: Matthew Fortier, Mats L. Richter, Oliver Sonnentag, Chris Pal

机构: Mila Quebec AI Institute, Polytechnique Montréal, ServiceNow, Université de Montréal

摘要: 陆地碳通量提供了关于我们生物圈健康状况和吸收人为CO 2 _2 2排放能力的重要信息。预测碳通量的重要性导致了数据驱动碳通量建模(DDCFM)这一新兴领域的出现,该领域使用统计技术从生物物理数据中预测碳通量。然而,该领域缺乏标准化的数据集以促进模型之间的比较。为了填补这一空白,我们提出了CarbonSense,这是第一个适用于DDCFM的机器学习准备好的数据集。CarbonSense整合了来自全球385个地点的测量碳通量、气象预测因子和卫星图像,提供了全面的覆盖范围,并促进了强大的模型训练。此外,我们提供了一个基线模型,使用了当前最先进的DDCFM方法和一种新颖的基于Transformer的模型。我们的实验说明了多模态深度学习技术在这一领域中带来的潜在收益。通过提供这些资源,我们旨在降低其他深度学习研究人员进入该领域、开发新模型并推动碳通量建模的新进展的门槛。

论文链接: https://arxiv.org/pdf/2406.04940

cs.AI: 对抗性强化学习中的错误最小化的概率论视角

原标题: Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning

作者: Roman Belaire, Arunesh Sinha, Pradeep Varakantham

机构: 新加坡管理大学 Rutgers大学

摘要: 深度强化学习(DRL)策略对观测中的对抗性噪声非常脆弱,在安全关键场景中存在严重风险。例如,一个接收到被篡改的交通标志感知输入的自动驾驶汽车可能导致灾难性后果。目前,加强RL算法以对抗此类对抗性扰动的策略通常分为两类:(a)使用正则化方法通过将对抗性损失项纳入值目标来增强鲁棒性,和(b)采用“最大最小”原则,专注于最大化最小值以确保鲁棒性。虽然正则化方法减少了成功攻击的可能性,但如果攻击成功,它们的有效性会显著下降。另一方面,尽管鲁棒性很强,但最大最小目标往往过于保守。为了解决这一挑战,我们引入了一种称为对抗性反事实误差(ACoE)的新目标,它在优化价值和对抗性攻击鲁棒性之间自然平衡。为了在无模型设置中以可扩展的方式优化ACoE,我们提出了一种理论上合理的替代目标,称为累积ACoE(C-ACoE)。优化C-ACoE的核心思想是利用对抗性扰动观测给出关于潜在真实状态的信念。我们的实证评估表明,我们的方法在解决文献中使用的所有已建立基准(MuJoCo,Atari和Highway)上的对抗性RL问题方面优于当前最先进的方法。

论文链接: https://arxiv.org/pdf/2406.04724

cs.AI: FlowMM:使用黎曼流匹配生成材料

原标题: FlowMM: Generating Materials with Riemannian Flow Matching

作者: Benjamin Kurt Miller, Ricky T. Q. Chen, Anuroop Sriram, Brandon M Wood

机构: Benjamin Kurt Miller - 未提及学校或企业名称
Ricky T. Q. Chen - 未提及学校或企业名称
Anuroop Sriram - 未提及学校或企业名称
Brandon M. Wood - 未提及学校或企业名称

摘要: 晶体材料是下一代技术中的基本组成部分,但对其分布进行建模存在独特的计算挑战。在周期晶格中,原子的可行排列中只有极小的一部分是热力学稳定的,这是实验可实现的材料的关键指标。该领域的两个基本任务是:(a)预测已知元素组成的稳定晶体结构,以及(b)提出新的组成和它们的稳定结构。我们提出了FlowMM,一对生成模型,在这两个任务上实现了最先进的性能,同时比竞争方法更高效、更灵活。我们将Riemannian Flow Matching推广到适应晶体固有的对称性:平移、旋转、置换和周期边界条件。我们的框架允许选择流基分布,与扩散模型相比,极大地简化了学习晶体结构的问题。除了标准基准测试外,我们还使用量子化学计算验证了FlowMM生成的结构,证明它在找到稳定材料方面比以前的开放方法更高效,积分步骤方面约为3倍。

论文链接: https://arxiv.org/pdf/2406.04713

cs.AI: SpanGNN:通过生成子图训练实现内存高效的图神经网络

原标题: SpanGNN: Towards Memory-Efficient Graph Neural Networks via Spanning Subgraph Training

作者: Xizhi Gu, Hongzheng Li, Shihong Gao, Xinyan Zhang, Lei Chen, Yingxia Shao

机构: 北京邮电大学 香港科技大学 香港科技大学(广州)

摘要: 图神经网络(GNN)在学习图数据方面具有卓越的能力。全图GNN训练通常具有较高的准确性,但在处理大型图时会遇到大量的峰值内存使用和内存不足的问题。为了解决这个内存问题,一种常见的解决方案是使用小批量GNN训练。然而,小批量GNN训练会增加训练方差并牺牲模型的准确性。在本文中,我们提出了一种新的高效内存的GNN训练方法,称为SpanGNN。SpanGNN在一系列由空结构构建的生成子图上训练GNN模型。为了解决过多的峰值内存消耗问题,SpanGNN从原始图中选择一组边来增量更新每个时期之间的生成子图。为了确保模型的准确性,我们引入了两种类型的边采样策略(即方差减少和噪声减少),并帮助SpanGNN选择高质量的边用于GNN学习。我们在广泛使用的数据集上使用SpanGNN进行实验,展示了SpanGNN在模型性能和低峰值内存使用方面的优势。

论文链接: https://arxiv.org/pdf/2406.04938

Github: https://github.com/guxizhi/spangnn

cs.AI: 更智能的软件工程通用人工智能

原标题: Morescient GAI for Software Engineering

作者: Marcus Kessel, Colin Atkinson

机构: 德国曼海姆大学

摘要: 生成式人工智能(GAI)技术具备自动检查、合成和修改软件工程工件的能力,有望彻底改变软件工程的各个方面。在软件工程任务中使用GAI因此成为软件工程研究中发展最迅速的领域之一,自2021年以来已经发表了数十种基于LLM的代码模型。然而,现有代码模型中绝大多数都存在一个主要弱点——它们仅在软件的句法方面进行训练,这在依赖于软件语义的任务中显著降低了它们的可信度。为了解决这个问题,需要一种新型的“更科学”的GAI,它能够“意识到”(即在训练中)软件的语义和静态方面。这反过来将需要一代新的软件观察平台,能够以结构化和易于分析的方式生成大量的执行观察。在本文中,我们提出了如何根据开放科学的原则来设计、演化和传播这种“更科学”的GAI模型的愿景。

论文链接: https://arxiv.org/pdf/2406.04710

cs.AI: 动态系统重构的最佳循环网络拓扑结构

原标题: Optimal Recurrent Network Topologies for Dynamical Systems Reconstruction

作者: Christoph Jürgen Hemmer, Manuel Brenner, Florian Hess, Daniel Durstewitz

机构: Christoph Jürgen Hemmer, Manuel Brenner, Florian Hess, Daniel Durstewitz

摘要: 在动力系统重建(DSR)中,我们试图从时间序列测量中推断出底层动力过程的生成模型。这是任何科学学科中的一个主要目标,我们特别关注具有低参数负荷的简约模型。这里常见的策略是参数修剪,删除所有权重较小的参数。然而,在DSR中,我们发现这种策略并不适用,即使是低幅度的参数也可能对系统动力学产生相当大的影响。另一方面,众所周知,许多生成复杂动力学的自然系统,如大脑或生态网络,具有稀疏的拓扑结构,链接相对较少。受此启发,我们展示了一种几何修剪的方法,与基于幅度的修剪相反,它删除对吸引子几何结构贡献较小的权重,确实能够大幅减少参数负荷,而不会显著影响DSR的质量。我们进一步发现,几何修剪得到的网络具有特定类型的拓扑结构,而不是权重的幅度,对性能最为关键。我们提供了一种自动生成此类拓扑结构的算法,可用作RNN对动力系统进行生成建模的先验,并将其与其他研究良好的拓扑结构(如小世界或无标度网络)进行了比较。

论文链接: https://arxiv.org/pdf/2406.04934

Github: https://github.com/durstewitzlab/rnntopodsr

cs.AI: 用生成式深度神经网络进行逻辑综合

原标题: Logic Synthesis with Generative Deep Neural Networks

作者: Xihan Li, Xing Li, Lei Chen, Xing Zhang, Mingxuan Yuan, Jun Wang

机构: University College London 华威大学
Huawei Noah’s Ark Lab 华为方舟实验室

摘要: 深度学习在各个领域取得了显著的成功,但在逻辑电路设计方面的应用受到了复杂约束和严格可行性要求的限制。然而,最近的一种生成式深度神经模型,“Circuit Transformer”,通过在小规模上实现等价保持电路转换,显示出在这一领域有潜力。在本文中,我们介绍了一种基于Circuit Transformer模型的逻辑综合重写操作符,命名为"ctrw"(Circuit Transformer Rewriting),它包括以下技术:(1)为逻辑综合量身定制的Circuit Transformer的两阶段训练方案,通过自我改进训练迭代提高最优性;(2)将Circuit Transformer与最先进的重写技术集成,以解决可扩展性问题,实现有向无环图感知的引导式重写。在IWLS 2023竞赛基准上的实验结果证明了我们提出的重写方法的有效性。

论文链接: https://arxiv.org/pdf/2406.04699

cs.AI: PolyLUT-Add: 基于 FPGA 的宽输入 LUT 推断

原标题: PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs

作者: Binglei Lou, Richard Rademacher, David Boland, Philip H.W. Leong

机构: 悉尼大学

摘要: FPGAs作为一种在边缘部署深度神经网络(DNNs)的技术具有明显的优势。基于查找表(LUT)的网络,其中神经元直接使用LUT进行建模,有助于在FPGAs上实现超低延迟和高面积效率的承诺。不幸的是,LUT资源使用量随着LUT的输入数量呈指数级增长,限制了PolyLUT的LUT尺寸较小。本文介绍了一种名为PolyLUT-Add的技术,通过将 A A A个PolyLUT子神经元通过加法组合来增强神经元的连接性以提高准确性。此外,我们还描述了一种新颖的架构来提高其可扩展性。我们在MNIST、喷气子结构分类和网络入侵检测基准测试上评估了我们的实现,并发现PolyLUT-Add在相似准确性下,LUT减少了 1.3 − 7.7 × 1.3-7.7\times 1.37.7×,延迟减少了 1.2 − 2.2 × 1.2-2.2\times 1.22.2×

论文链接: https://arxiv.org/pdf/2406.04910

Github: https://github.com/bingleilou/PolyLUT-Add

cs.AI: LLM-Vectorizer: 基于LLM的验证循环向量化器

原标题: LLM-Vectorizer: LLM-based Verified Loop Vectorizer

作者: Jubi Taneja, Avery Laird, Cong Yan, Madan Musuvathi, Shuvendu K. Lahiri

机构: Microsoft Research University of Toronto

摘要: 矢量化是一种强大的优化技术,可以显著提高在大数据数组上运行的高性能计算应用程序的性能。尽管自动矢量化已经有几十年的研究,但编译器经常错过矢量化代码的机会。另一方面,手动编写使用编译器内部函数的矢量化代码仍然是一项复杂且容易出错的任务,需要对特定架构和编译器有深入的了解。

在本文中,我们评估了大语言模型(LLMs)从处理单个数组元素的标量程序生成矢量化(单指令多数据)代码的潜力。我们提出了一种基于有限状态机多智能体的新方法,利用LLMs和基于测试的反馈来生成矢量化代码。我们的研究结果表明,LLMs能够生成高性能的矢量化代码,与Intel编译器、GCC和Clang等最先进的编译器相比,运行时加速比范围从1.1倍到9.4倍不等。

为了验证矢量化代码的正确性,我们使用Alive2,这是一个用于LLVM IR的领先有界翻译验证工具。我们描述了一些特定领域的技术,以提高Alive2在我们的基准数据集上的可扩展性。总体而言,我们的方法能够在TSVC基准数据集上验证38.2%的矢量化结果是正确的。

论文链接: https://arxiv.org/pdf/2406.04693

cs.AI: RU-AI:用于机器生成内容检测的大型多模态数据集

原标题: RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection

作者: Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang

机构: University of Technology Sydney The University of Sydney

摘要: 最近生成式AI模型的进展显著地改变了人们的沟通、创作和工作方式,这些模型可以创建逼真和类似人类的内容。虽然适当使用生成式AI模型可以造福社会,但滥用它们会对数据的可靠性和认证性造成重大威胁。然而,由于缺乏对齐的多模态数据集,用于检测机器生成内容的有效和鲁棒方法仍处于早期开发阶段。在本文中,我们介绍了RU-AI,一个新的大规模多模态数据集,旨在用于文本、图像和语音中机器生成内容的鲁棒和高效检测。我们的数据集是从三个大型公开可用数据集(Flickr8K、COCO和Places205)构建而成的,通过结合原始数据集及其对应的机器生成对。此外,实验结果表明,我们提出的统一模型,结合了多模态嵌入模块和多层感知器网络,可以有效地确定数据的来源(即原始数据样本还是机器生成的样本)来自RU-AI。然而,仍需要进一步的工作来解决RU-AI带来的剩余挑战。源代码和数据集可在此https URL获取。

论文链接: https://arxiv.org/pdf/2406.04906

Github: https://github.com/ZhihaoZhang97/RU-AI

cs.AI: 滑动窗口3目标帕累托优化用于具有机会约束的问题

原标题: Sliding Window 3-Objective Pareto Optimization for Problems with Chance Constraints

作者: Frank Neumann, Carsten Witt

机构: 阿德莱德大学 技术大学丹麦

摘要: 约束的单目标问题经常通过进化多目标算法来解决,其中约束被放松为一个额外的目标。最近,已经证明使用双目标模型的帕累托优化方法可以通过使用滑动窗口(Neumann和Witt,ECAI 2023)来显著加速。在本文中,我们将滑动窗口方法扩展到用于解决机会约束问题的3目标公式。在理论方面,我们证明了我们的新滑动窗口方法改进了之前在(Neumann和Witt,GECCO 2023)中获得的运行时间界限,同时保持相同的近似保证。我们对机会约束支配集问题的实验研究表明,我们的新滑动窗口方法允许以比(Neumann和Witt,GECCO 2023)中提出的3目标方法更高效的方式解决更大的实例。

论文链接: https://arxiv.org/pdf/2406.04899

cs.AI: 通过Maclaurin展开稳定极端Q学习

原标题: Stabilizing Extreme Q-learning by Maclaurin Expansion

作者: Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada

机构: 东京大学 理化学研究所

摘要: 在极限 Q-learning(XQL)中,使用假设的 Gumbel 分布进行 Gumbel 回归,用于误差分布。这样可以在学习价值函数时避免采样超出分布的动作,并且在离线强化学习中表现出色。然而,仍然存在一些问题,包括损失函数中的指数项导致不稳定性,以及误差分布可能与 Gumbel 分布发散。因此,我们提出了 Maclaurin 扩展极限 Q-learning 来增强稳定性。在这种方法中,将 Maclaurin 扩展应用于 XQL 中的损失函数,增强对大误差的稳定性。它还允许根据扩展阶数调整误差分布假设,从正态分布到 Gumbel 分布。我们的方法显著提高了在线强化学习任务(来自 DM Control)中 XQL 之前的不稳定性,并且在几个离线强化学习任务(来自 D4RL)中改善了性能,其中 XQL 已经显示出优秀的结果。

论文链接: https://arxiv.org/pdf/2406.04896

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值