2024年6月12日Arxiv人工智能相关论文

cs.AI: 使用人类对抗性示例对深度学习模型进行双重思考和感知分析

原标题: Dual Thinking and Perceptual Analysis of Deep Learning Models using Human Adversarial Examples

作者: Kailas Dayanandan, Anand Sinha, Brejesh Lall

机构: 印度理工学院 新德里

摘要: 双重思维框架考虑了快速、直觉性处理和较慢、逻辑性处理。在视觉中对双重思维的感知需要图像,其中从直觉和逻辑处理中推断出的结果不同。我们引入了一个对抗性数据集,为人类视觉中的双重思维框架提供证据,这也有助于研究深度学习模型的定性行为。我们的研究还通过使用定位对象的实例分割模型来解决使用分类模型作为人类视觉计算模型的一个主要批评。证据强调了在人类视觉中识别实例的形状的重要性,并显示出深度学习模型缺乏对子结构的理解,这表明与子组件的位置和数量相关的错误。此外,模型和直觉人类处理所做错误的相似性表明模型只处理人类视觉中的直觉思维。

论文链接: https://arxiv.org/pdf/2406.06967

cs.AI: 单细胞基因组学中的增强基因选择:预过滤协同作用和强化优化

原标题: Enhanced Gene Selection in Single-Cell Genomics: Pre-Filtering Synergy and Reinforced Optimization

作者: Weiliang Zhang, Zhen Meng, Dongjie Wang, Min Wu, Kunpeng Liu, Yuanchun Zhou, Meng Xiao

机构: 中国科学院计算机网络信息中心 中国科学院

摘要: 最近单细胞基因组学的进展要求在基因面板选择上精确,以有效解释复杂的生物数据。这些方法旨在通过专注于对特定分析任务有显著贡献的最具信息量的基因,简化对单细胞RNA测序数据的分析。传统的选择方法往往依赖于专家领域知识、嵌入式机器学习模型或基于启发式的迭代优化,容易受到偏见和低效率的影响,可能会掩盖关键的基因组信号。鉴于传统方法的局限性,我们旨在通过精细的策略超越这些限制。在这项研究中,我们介绍了一种适用于单细胞基因组学中聚类任务的迭代基因面板选择策略。我们的方法独特地将其他基因选择算法的结果整合在一起,提供有价值的初步边界或先验知识作为搜索空间中的初始指导,以增强我们框架的效率。此外,我们将探索过程中的随机性贯穿于强化学习(RL)中,并利用其通过基于奖励的反馈进行连续优化的能力。这种组合减轻了初始边界固有的偏见,并利用RL的适应性动态地完善和定位基因面板选择。为了说明我们方法的有效性,我们进行了详细的比较实验、案例研究和可视化分析。

论文链接: https://arxiv.org/pdf/2406.07418

cs.AI: 神经管家:通过扩散重新点亮任何对象

原标题: Neural Gaffer: Relighting Any Object via Diffusion

作者: Haian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely

机构: 康奈尔科技,康奈尔大学 浙江大学 Adobe研究 佐治亚大学

摘要: 单图像照明重塑是一项具有挑战性的任务,涉及对几何、材质和照明之间复杂相互作用的推理。许多先前的方法要么仅支持特定类别的图像,如肖像,要么需要特殊的拍摄条件,比如使用手电筒。另外,一些方法明确地将场景分解为内在组件,如法线和BRDF,这可能不准确或表达不足。在这项工作中,我们提出了一种新颖的端到端2D照明重塑扩散模型,称为神经照明师,它可以接受任何对象的单个图像,并可以在任何新颖的环境照明条件下合成准确、高质量的重塑图像,只需将图像生成器调节到目标环境地图,而无需明确场景分解。我们的方法基于预训练的扩散模型,并在合成照明重塑数据集上进行微调,揭示并利用扩散模型中存在的对照明的固有理解。我们在合成和野外互联网图像上评估了我们的模型,并展示了其在泛化和准确性方面的优势。此外,通过与其他生成方法结合,我们的模型可以实现许多下游2D任务,如基于文本的照明重塑和对象插入。我们的模型还可以作为3D任务的强照明先验,例如重塑辐射场。

论文链接: https://arxiv.org/pdf/2406.07520

cs.AI: 超越模型崩溃:使用合成数据进行扩展需要强化。

原标题: Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement

作者: Yunzhen Feng, Elvis Dohmatob, Pu Yang, Francois Charton, Julia Kempe

机构: 纽约大学 北京大学 Meta FAIR

摘要: 生成模型合成的数据越来越被视为对大语言模型进行微调的替代方案,而不是人工标注数据。这引发了关于模型崩溃的担忧:在生成数据上进行微调的模型性能下降。考虑到人类和机器都更容易区分好坏示例而不是生成高质量样本,我们研究了在合成数据上使用反馈以防止模型崩溃。我们推导出了当训练在反馈增强的合成数据上时,高斯混合分类模型可以在理论条件下实现渐近最优性能,并为有限范围提供支持模拟。我们在两个实际问题上阐明了我们的理论预测:使用 Transformer 计算矩阵特征值和使用大语言模型进行新闻摘要,这两者在训练模型生成数据时都会发生模型崩溃。我们展示了通过从反馈增强的合成数据中训练,无论是通过修剪不正确的预测还是选择多个猜测中的最佳猜测,都可以防止模型崩溃,验证了像 RLHF 这样的流行方法。

论文链接: https://arxiv.org/pdf/2406.07515

cs.AI: 通过蒙特卡洛树自我精炼与 LLaMa-3 8B 访问 GPT-4 级数学奥林匹克解决方案

原标题: Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

作者: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang

机构: 复旦大学 香港理工大学 上海人工智能实验室 悉尼大学

摘要: 本文介绍了MCT Self-Refine(MCTSr)算法,这是大语言模型(LLMs)与蒙特卡洛树搜索(MCTS)创新集成的一种方法,旨在增强复杂数学推理任务的性能。针对LLMs在战略和数学推理中准确性和可靠性方面的挑战,MCTSr利用系统性探索和启发式自我完善机制来改进LLMs内的决策框架。该算法通过选择、自我完善、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,利用改进的上置信界(UCB)公式来优化探索利用平衡。大量实验证明了MCTSr在解决奥林匹克级数学问题方面的有效性,显著提高了跨多个数据集的成功率,包括GSM8K、GSM Hard、MATH以及Math Odyssey、AIME和OlympiadBench等奥林匹克级基准。该研究推动了LLMs在复杂推理任务中的应用,并为未来AI集成奠定了基础,提高了LLMs驱动应用中的决策准确性和可靠性。

论文链接: https://arxiv.org/pdf/2406.07394

cs.AI: 理解跨模型的视觉概念

原标题: Understanding Visual Concepts Across Models

作者: Brandon Trabucco, Max Gurinas, Kyle Doherty, Ruslan Salakhutdinov

机构: 卡内基梅隆大学 芝加哥大学实验学校 MPG牧场

摘要: 大语言模型(LLM)如 Stable Diffusion 可以在仅微调单个词嵌入后生成、检测和分类新的视觉概念。模型是否会为相同概念学习类似的单词(即 = orange + cat)?我们对文本到图像生成、开放式目标检测和零样本分类中的三种最先进模型进行了大规模分析,发现新的词嵌入是特定于模型且不可转移的。在四个标准数据集上针对 40 个不同视觉概念训练的 4,800 个新嵌入中,我们发现在 ϵ \epsilon ϵ-ball 内存在对任意概念生成、检测和分类的先前嵌入的扰动。当这些新嵌入被插入新模型时,针对原始模型的微调被丢失。我们展示了流行的软提示调整方法在应用于视觉概念学习任务时找到了这些扰动解决方案,并且视觉概念的嵌入是不可转移的。可用于重现我们工作的代码位于:此 https URL。

论文链接: https://arxiv.org/pdf/2406.07506

Github: https://visual-words.github.io

cs.AI: EEG-ImageNet:一个包含多粒度标签图像视觉刺激的脑电图数据集和基准。

原标题: EEG-ImageNet: An Electroencephalogram Dataset and Benchmarks with Image Visual Stimuli of Multi-Granularity Labels

作者: Shuqi Zhu, Ziyi Ye, Qingyao Ai, Yiqun Liu

机构: 清华大学

摘要: 识别和重建我们从大脑活动中看到的内容,让我们对调查生物视觉系统如何表示世界有了特殊的洞察。尽管最近的努力已经实现了通过功能磁共振成像(fMRI)或脑磁图(MEG)收集的脑信号进行高性能图像分类和高质量图像重建,但这些设备的昂贵和笨重使相关应用难以推广到实际应用。另一方面,尽管脑电图(EEG)具有易于使用、成本效益高、高时间分辨率和无创性的优势,但由于缺乏全面的数据集,相关研究尚未得到充分探索。为了填补这一空白,我们介绍了 EEG-ImageNet,这是一个新颖的 EEG 数据集,包括来自16名受试者的记录,暴露于从 ImageNet 数据集中选取的4000幅图像。EEG-ImageNet 包含的 EEG-图像对比现有类似 EEG 基准大5倍。EEG-ImageNet 收集了多粒度标签的图像刺激,即40幅带有粗粒度标签的图像和40幅带有细粒度标签的图像。基于此,我们建立了物体分类和图像重建的基准。对几种常用模型进行的实验表明,最佳模型可以实现大约60% 的物体分类准确率和双向识别约为64% 的图像重建。这些结果展示了数据集推动基于 EEG 的视觉脑-计算机界面、理解生物系统的视觉感知以及在改进机器视觉模型方面的潜在应用的潜力。

论文链接: https://arxiv.org/pdf/2406.07151

cs.AI: 使用带有大语言模型提示的世界模型来实现目标

原标题: World Models with Hints of Large Language Models for Goal Achieving

作者: Zeyuan Liu, Ziyu Huan, Xiyao Wang, Jiafei Lyu, Jian Tao, Xiu Li, Furong Huang, Huazhe Xu

机构: 清华大学深圳国际研究生院 俄亥俄州立大学 马里兰大学帕克分校 IIIS清华大学 上海启智研究院 上海人工智能实验室

摘要: 强化学习在面对长期任务和稀疏目标时面临困难,因为手动指定奖励很困难。虽然现有方法通过添加内在奖励来解决这个问题,但在具有大状态和动作空间的长期决策任务中,缺乏有意义的引导,缺乏目的性探索。受人类认知启发,我们提出了一种新的基于多模态模型的强化学习方法,名为大语言模型梦境(DLLM)。DLLM将LLM提出的提示子目标整合到模型展开中,以鼓励在具有挑战性任务中发现目标并达成目标。通过将更高的内在奖励分配给与语言模型在模型展开期间概述的提示相一致的样本,DLLM引导智能体朝向有意义和高效的探索。大量实验证明,DLLM在各种具有挑战性、稀疏奖励环境中(如HomeGrid、Crafter和Minecraft)的表现优于最近的方法,分别提高了27.7%、21.1%和9.9%。

论文链接: https://arxiv.org/pdf/2406.07381

cs.AI: 释放扩散先验的去噪能力以解决逆问题

原标题: Unleashing the Denoising Capability of Diffusion Prior for Solving Inverse Problems

作者: Jiawei Zhang, Jiaxin Zhuang, Cheng Jin, Gen Li, Yuantao Gu

摘要: 最近扩散模型的出现显著提高了可学习先验的精度,为解决反问题提供了创新途径。由于反问题固有地涉及最大后验估计,先前的研究努力将扩散先验整合到优化框架中。然而,当前基于优化的反问题算法主要利用扩散模型中的先验信息,而忽略了其去噪能力。为了弥合这一差距,本研究利用扩散过程,通过引入辅助优化变量,将嘈杂的反问题重新构建为双变量约束优化任务。通过采用梯度截断,投影梯度下降方法被有效地用于解决相应的优化问题。所提出的算法,称为ProjDiff,有效地利用了预训练扩散模型的先验信息和去噪能力在优化框架内。对图像恢复任务、源分离和部分生成任务进行了大量实验,结果表明ProjDiff在各种线性和非线性反问题上表现出优越性能,突显了其在实际应用中的潜力。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.06959

Github: https://github.com/weigerzan/ProjDiff/

cs.AI: 基于可穿戴设备的生理信号监测:对不同任务下认知负荷的评估研究

原标题: Wearable Device-Based Physiological Signal Monitoring: An Assessment Study of Cognitive Load Across Tasks

作者: Ling He, Yanxin Chen, Wenqi Wang, Shuting He, Xiaoqiang Hu

机构: 江西科技师范大学 虚拟现实感知与交互重点实验室 中山德诚技工学校

摘要: 这项研究采用尖端的可穿戴监测技术,对来自FP1通道的脑电图数据和次要职业学生(SVS)的心率变异性(HRV)数据进行高精度、高时间分辨率的认知负荷评估。通过联合分析这两个关键的生理指标,研究探讨它们在评估SVS学生认知负荷方面的应用价值,以及它们在各种任务中的实用性。该研究设计了两个实验来验证所提出方法的有效性:首先,使用N-BACK任务开发的随机森林分类模型,能够精确解码SVS学生在不同认知负荷水平下的生理信号特征,实现了97%的分类准确率。随后,这个分类模型在涉及全国计算机等级考试的跨任务实验中应用,展示了该方法在不同学习环境中的显著适用性和跨任务可转移性。这项研究具有高可移植性,对于优化次要职业教育中的教学资源分配,以及认知负荷评估方法和监测具有重要的理论和实践意义。目前,研究结果正在学校进行试点实施。

论文链接: https://arxiv.org/pdf/2406.07147

cs.AI: 三域特征学习与频率感知记忆增强在移动红外小目标检测中的应用

原标题: Triple-domain Feature Learning with Frequency-aware Memory Enhancement for Moving Infrared Small Target Detection

作者: Weiwei Duan, Luping Ji, Shengjia Chen, Sicheng Zhu, Mao Ye

摘要: 移动红外小目标检测面临着重大挑战,因为目标尺寸小,且与背景对比度低。目前现有的方法主要集中在仅从时空域提取目标特征。为了进一步增强特征表示,认为更多信息域,如频率,可能具有潜在价值。为了扩展目标特征学习,我们提出了一种新的三域策略(Tridos),其中包括在时空域上具有频率感知记忆增强的模块。在我们的方案中,通过傅立叶变换的局部-全局频率感知模块有效地分离和增强频率特征。受人类视觉系统启发,我们的记忆增强旨在捕捉视频帧之间的目标空间关系。此外,它通过差分学习和残差增强对编码时间动态运动特征。此外,我们进一步设计了一个残差补偿单元,以协调可能的跨域特征不匹配。据我们所知,我们的Tridos是第一个全面探索时空频率域内目标特征学习的工作。对三个数据集(DAUB,ITSDT-15K和IRDST)的大量实验证实,我们的三域学习方案明显优于最先进的方法。源代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.06949

Github: https://github.com/UESTC-nnLab/Tridos

cs.AI: 基准测试和提升三维高分辨率医学图像的放射学报告生成

原标题: Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images

作者: Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci

机构: 伦敦帝国学院 俄亥俄州立大学 香港科技大学

摘要: 自动生成放射学报告可以显著地使放射科医生的报告撰写过程受益,特别是对于像CT扫描这样的3D放射图像,这对广泛的临床诊断至关重要,但与2D放射图像相比尚未得到充分开发。现有方法通常要么逐层处理3D体积,要么由于当前GPU内存限制而进行激进的降采样,这导致了固有的3D特性和关键细节的丢失。为了克服这些问题,我们引入了一个新颖的框架,基于大语言模型(LLMs)高效有效地生成高分辨率(HR)3D体积的放射学报告。具体而言,我们的框架利用低分辨率(LR)的视觉标记作为查询,从HR标记中挖掘信息,保留详细的HR信息,同时通过仅处理HR通知的LR视觉查询来降低计算成本。进一步造福该领域,我们策划并发布了一个新数据集BIMCV-RG,其中包含5,328个HR 3D体积和配对报告,为从3D HR医学图像生成报告建立了第一个基准。我们的方法在这个基准上始终优于现有方法,涵盖了三种不同设置:正常分辨率、高分辨率输入和零样本领域转移,所有这些都在可接受的计算成本下完成,可以在单个A100-80G上进行训练。

论文链接: https://arxiv.org/pdf/2406.07146

cs.AI: 通过概率槽注意力实现可识别的面向对象的表示学习

原标题: Identifiable Object-Centric Representation Learning via Probabilistic Slot Attention

作者: Avinash Kori, Francesco Locatello, Ainkaran Santhirasekaram, Francesca Toni, Ben Glocker, Fabio De Sousa Ribeiro

机构: 帝国理工学院 倫敦 科技研究所 奥地利

摘要: 学习模块化的物体中心表示对于系统化泛化至关重要。现有方法在经验上显示出有希望的物体绑定能力,但理论上的可识别性保证仍相对不够完善。理解何时可以在理论上识别物体中心表示对于将基于槽位的方法扩展到具有正确性保证的高维图像至关重要。为此,我们提出了一种概率槽位注意力算法,通过在物体中心槽位表示上施加一个聚合混合先验,从而在没有监督的情况下提供槽位可识别性保证,直到等价关系。我们使用简单的二维数据和高分辨率成像数据集对我们的理论可识别性结果进行了经验验证。

论文链接: https://arxiv.org/pdf/2406.07141

cs.AI: 异步差分:通过异步去噪实现扩散模型的并行化

原标题: AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

作者: Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang

机构: 新加坡国立大学

摘要: 扩散模型因其在各种应用中具有强大的生成能力而引起了社区的极大兴趣。然而,它们典型的多步骤顺序去噪特性导致了高累积延迟,从而排除了并行计算的可能性。为了解决这个问题,我们引入了AsyncDiff,这是一种通用的即插即用加速方案,可以实现跨多个设备的模型并行性。我们的方法将繁琐的噪声预测模型分成多个组件,将每个组件分配给不同的设备。为了打破这些组件之间的依赖链,它通过利用连续扩散步骤中隐藏状态之间的高相似性,将传统的顺序去噪转换为异步过程。因此,每个组件都能够在不同的设备上并行计算。所提出的策略显著减少了推断延迟,同时对生成质量的影响最小。具体而言,对于Stable Diffusion v2.1,AsyncDiff 在四个 NVIDIA A5000 GPU 上实现了2.7倍的加速,而几乎没有降级,并且在CLIP Score 仅略微降低0.38 的情况下实现了4.0倍的加速。我们的实验还表明,AsyncDiff 可以轻松应用于视频扩散模型,并取得了令人鼓舞的表现。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.06911

Github: https://github.com/czg1225/AsyncDiff

cs.AI: 图神经网络的逻辑蒸馏

原标题: Logical Distillation of Graph Neural Networks

作者: Alexander Pluska, Pascal Welke, Thomas Gärtner, Sagar Malhotra

机构: 维也纳理工大学

摘要: 我们提出了一种基于逻辑的可解释模型,用于在图上进行学习,并提出了一种从图神经网络(GNN)中提炼此模型的算法。最近的研究结果表明,GNN的表达能力与一阶逻辑的两变量片段和计数量词(C2)之间存在联系。我们引入了一种基于决策树的模型,利用C2的扩展来从GNN中提炼可解释的逻辑分类器。我们在多个GNN架构上测试了我们的方法。提炼出的模型是可解释的、简洁的,并且达到了与基础GNN相似的准确性。此外,当基本事实可以用C2表达时,我们的方法胜过了GNN。

论文链接: https://arxiv.org/pdf/2406.07126

cs.AI: 经过正式验证的近似策略迭代

原标题: Formally Verified Approximate Policy Iteration

作者: Maximilian Schäffeler, Mohammad Abdulaziz

机构: 德国慕尼黑工业大学 伦敦国王学院

摘要: 我们使用交互式定理证明器Isabelle/HOL对基于因子的马尔可夫决策过程上的近似策略迭代算法进行了形式化验证。接下来,我们展示了如何将形式化的算法优化为可执行的、经过验证的实现。该实现在基准问题上进行评估,以展示其实用性。作为优化的一部分,我们开发了经过验证的软件来认证线性规划解决方案。该算法基于多样化的形式化数学库,并将交互式定理证明器的现有方法推向极限。我们讨论了验证项目的过程以及为形式验证所需的算法修改。

论文链接: https://arxiv.org/pdf/2406.07340

cs.AI: CARACAS:用于详细CAN攻击模拟的车辆架构

原标题: CARACAS: vehiCular ArchitectuRe for detAiled Can Attacks Simulation

作者: Sadek Misto Kirdi, Nicola Scarano, Franco Oberti, Luca Mannella, Stefano Di Carlo, Alessandro Savino

机构: 都灵理工大学 Dumarey Softronix S.r.l.

摘要: 现代车辆越来越容易受到利用网络基础设施进行攻击的威胁,特别是控制区域网络(CAN)网络。为了有效地利用基于数据分析和分类的当代工具(如基于入侵检测系统(IDS)的工具)来对抗这类威胁,CAN 消息的大型数据集变得至关重要。本文探讨了通过利用仿真框架(如 Simulink)的建模能力结合攻击模型的强大表示来生成合成数据集的可行性,提出了 CARACAS,一个包括通过 CAN 消息进行组件控制和注入攻击能力的车辆模型。CARACAS 展示了这种方法的有效性,包括一个电池电动车(BEV)模型,并侧重于针对两种不同场景中扭矩控制的攻击。

论文链接: https://arxiv.org/pdf/2406.07125

cs.AI: GemNet:通过深度学习实现基于菜单的、策略证明的多竞标者拍卖

原标题: GemNet: Menu-Based, Strategy-Proof Multi-Bidder Auctions Through Deep Learning

作者: Tonghan Wang, Yanchen Jiang, David C. Parkes

机构: 哈佛大学 GemNet GemNet GemNet

摘要: 可微经济学利用深度学习进行自动化机制设计。尽管取得了显著进展,但学习多投标者、通用和完全策略证明(SP)拍卖仍然是一个悬而未决的问题。我们引入了GEneral基于菜单的NETwork(GemNet),它显著扩展了RochetNet的基于菜单的方法[Dütting等,2023]到多投标者设置中。实现SP的挑战在于学习独立于投标者的可行菜单,以便每个投标者的最佳菜单选择在一起时不会过度分配物品(我们称之为菜单兼容性)。GemNet在训练期间惩罚菜单兼容性的失败,并通过考虑一组离散化的投标者价值并推理Lipschitz平滑性来在整个价值空间上保证菜单兼容性后对训练后学习的菜单进行价格变动的转换。这种方法是通用的,保持已经满足菜单兼容性的训练菜单不受干扰,并将其减少到单个投标者的RochetNet。混合整数线性规划用于菜单转换,通过一系列优化,包括自适应网格和跳过菜单元素的方法,我们扩展到大型拍卖设计问题。GemNet学习的拍卖收入比仿射最大化方法更好,实现了精确的SP,而以前的通用多投标者方法则是近似SP,并提供了极大增强的可解释性。

论文链接: https://arxiv.org/pdf/2406.07428

cs.AI: T2S-GPT: 从文本生成手语的动态向量量化

原标题: T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

作者: Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang, Yueting Zhuang

机构: 浙江大学

摘要: 在这项工作中,我们提出了一个两阶段手语生成(SLP)范式,首先将手语序列编码为离散代码,然后基于学习的码书从文本自回归生成手语。然而,现有的矢量量化(VQ)方法是固定长度的编码,忽视了手语中信息密度不均匀的问题,导致重要区域的欠编码和不重要区域的过编码。为解决这一问题,我们提出了一种新颖的动态矢量量化(DVA-VAE)模型,可以根据手语中的信息密度动态调整编码长度,实现准确而

论文链接: https://arxiv.org/pdf/2406.07119

其他链接: https://t2sgpt-demo.yinaoxiong.cn

cs.AI: 对特征进行标记化处理,增强表格:用于表格分类的FT-TABPFN模型

原标题: Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification

作者: Quangao Liu, Wei Yang, Chen Liang, Longlong Pang, Zhuozhang Zou

机构: 中国科学院沈阳自动化研究所

摘要: 传统的表格分类方法通常依赖于从头开始的监督学习,这需要大量的训练数据来确定模型参数。然而,一种名为Prior-Data Fitted Networks(TabPFN)的新方法改变了这一范式。TabPFN使用在大型合成数据集上训练的12层Transformer来学习通用表格表示。这种方法能够在新任务上通过单次前向传递快速准确地进行预测,而无需额外的训练。尽管TabPFN在小数据集上取得了成功,但在处理分类特征时通常表现较弱。为了克服这一限制,我们提出了FT-TabPFN,这是TabPFN的增强版本,包括一个新颖的特征标记层,以更好地处理分类特征。通过为下游任务进行微调,FT-TabPFN不仅扩展了原始模型的功能,还显著提高了其在表格分类中的适用性和准确性。我们的完整源代码可供社区使用和开发。

论文链接: https://arxiv.org/pdf/2406.06891

cs.AI: 超越ELBO:对采样的变分方法进行大规模评估

原标题: Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling

作者: Denis Blessing, Xiaogang Jia, Johannes Esslinger, Francisco Vargas, Gerhard Neumann

机构: 大连理工大学

摘要: 蒙特卡洛方法、变分推断及它们的组合在从难以处理的概率分布中采样中发挥着关键作用。然而,目前的研究缺乏统一的评估框架,依赖于不同的性能度量和有限的方法比较跨越多样的任务,使得评估进展变得复杂,并阻碍了从业者的决策。为了应对这些挑战,我们的工作引入了一个基准,使用标准化任务套件和广泛的性能标准评估采样方法。此外,我们研究了用于量化模式崩溃的现有指标,并引入了新颖的指标用于此目的。我们的发现揭示了现有采样方法的优势和劣势,为未来发展提供了宝贵的参考。代码在此处公开可用。

论文链接: https://arxiv.org/pdf/2406.07423

cs.AI: 超越训练:通过自适应动作抽样优化基于强化学习的作业车间调度

原标题: Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling

作者: Constantin Waubert de Puiseau, Christian Dörpelkus, Jannik Peters, Hasan Tercan, Tobias Meisen

机构: 数字化转型技术与管理研究所
Uni-Wuppertal
Wauber特德普伊索、克里斯蒂安·多尔普尔库斯、扬尼克·彼得斯、哈桑·特尔坎、托比亚斯·迈森

摘要: 学习的建筑启发式方法在最近几年在调度问题上已经与已建立的求解器和启发式方法越来越竞争。特别是,使用深度强化学习(DRL)的解决方法已经观察到了显著的改进。虽然人们已经非常关注设计网络架构和训练算法以实现最先进的结果,但很少有研究调查在推理过程中如何最佳地利用训练过的DRL智能体。我们的工作基于这样一个假设,即类似于搜索算法,训练过的DRL智能体的利用应该取决于可接受的计算预算。我们提出了一种简单而有效的参数化方法,称为 δ \delta δ-采样,它可以操纵训练过的动作向量,以在解决方案构建过程中将智能体行为偏向于探索或开发。通过遵循这种方法,我们可以在仍然生成可接受数量的解决方案的同时,实现对搜索空间的更全面覆盖。此外,我们提出了一种用于获得给定数量解决方案和任何给定训练过的智能体的最佳参数化的算法。通过使用我们的推理方法扩展现有的作业车间调度问题的训练协议的实验证实了我们的假设,并导致生成的解决方案的预期改进。

论文链接: https://arxiv.org/pdf/2406.07325

cs.AI: 使用随机帧预测进行视觉表示学习

原标题: Visual Representation Learning with Stochastic Frame Prediction

作者: Huiwon Jang, Dongyoung Kim, Junsu Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

机构: 清华大学 加州大学伯克利分校

摘要: 通过预测未来帧进行图像表示的自监督学习是一个有前途的方向,但仍然面临挑战。这是因为帧预测的不确定性特性;从单个当前帧可能产生多个潜在未来。为了应对这一挑战,在本文中,我们重新审视了学习捕捉帧预测中的不确定性的随机视频生成的概念,并探索了其对表示学习的有效性。具体来说,我们设计了一个框架,训练一个随机帧预测模型来学习帧之间的时间信息。此外,为了学习每帧内的密集信息,我们引入了一个辅助的掩膜图像建模目标,以及一个共享的解码器架构。我们发现这种架构允许以协同和高效的方式结合两个目标。我们展示了我们的框架在各种任务上的有效性,包括视频标签传播和基于视觉的机器人学习领域,如视频分割、姿势跟踪、基于视觉的机器人运动和操作任务。代码可在项目网页上找到:此处是 https URL。

论文链接: https://arxiv.org/pdf/2406.07398

其他链接: https://sites.google.com/view/2024rsp

cs.AI: 释放“大语言模型”在创新和沉浸式数字护理中的潜力

原标题: Unlocking the Potential of the Metaverse for Innovative and Immersive Digital Care

作者: Fatemeh Ebrahimzadeh, Ramin Safa

机构: 安德甘高等教育学院

摘要: 元宇宙是一个持久的、沉浸式虚拟环境,具有巨大潜力通过改变患者护理、医学教育和研究来革新医疗保健。本文探讨了与这种变革性技术相关的应用、好处和挑战,突出了其改善患者参与、沟通、获取信息和健康结果能力。本文还分析了如何利用机器学习技术分析元宇宙数据可以解锁洞见,进一步增强医疗保健应用。讨论总结了关键发现,分析了元宇宙整合的重要性和实际影响,并确定了未来研究的领域。强调了主要科技公司在开发基于元宇宙的解决方案中的作用,以及解锁这种技术在医疗保健中的变革潜力所面临的新机遇和挑战的重要性。本文最后强调了利益相关者之间合作的必要性,以确保这些技术的道德和有效实施,最终实现更具可访问性、个性化和高效的医疗保健系统。

论文链接: https://arxiv.org/pdf/2406.07114

cs.AI: 使用形变提示测试验证由大语言模型生成的程序

原标题: Validating LLM-Generated Programs with Metamorphic Prompt Testing

作者: Xiaoyin Wang, Dakai Zhu

机构: 圣安东尼奥得克萨斯大学

摘要: 最新的软件开发范式转变引入了大语言模型(LLMs)所提供的创新和自动化,其中以生成式预训练Transformer(GPT)为代表,展示了自主生成代码的显著能力,显著减少了各种编程任务所需的手动工作。尽管LLM生成的代码的潜在好处是巨大的,尤其是在效率和快速原型设计方面,但随着LLMs越来越多地整合到软件开发生命周期和供应链中,由此产生的代码带来了复杂而多方面的挑战,对代码质量和正确性提出了深刻的问题。需要进行研究,全面探讨围绕LLM生成的代码的这些关键问题。
在本文中,我们提出了一种名为“变形提示测试”的新颖解决方案来解决这些挑战。我们的直观观察是,正确代码片段之间始终存在内在一致性,但错误代码片段之间可能不存在内在一致性,因此我们可以通过检测不一致性来检测代码中的缺陷。因此,我们可以将给定提示变化为多个提示并进行释义,要求LLM获取生成代码的多个版本,以便我们通过交叉验证验证获取的代码中是否仍然保持语义关系。我们在HumanEval上的评估显示,变形提示测试能够检测到由GPT-4生成的错误程序中的75%,误报率为8.6%。

论文链接: https://arxiv.org/pdf/2406.06864

cs.AI: DCA-Bench:用于数据集策划代理的基准测试

原标题: DCA-Bench: A Benchmark for Dataset Curation Agents

作者: Benhao Huang, Yingzhuo Yu, Jin Huang, Xingjian Zhang, Jiaqi Ma

机构: 上海交通大学 密歇根大学 伊利诺伊大学厄巴纳-香槟分校

摘要: 数据集的质量在现代人工智能(AI)的研究和开发中扮演着越来越关键的角色。尽管如今开放数据集平台层出不穷,但数据质量问题,如文档不足、注释不准确和伦理关切,在广泛应用于AI的数据集中仍然很常见。此外,这些问题通常是微妙的,难以被基于规则的脚本所检测,需要数据集用户或维护者进行昂贵的手动识别和验证。随着大语言模型(LLMs)能力的增强,利用LLM智能体来简化数据集的策划工作是很有前景的。在这项工作中,作为实现这一目标的初始步骤,我们提出了一个数据集策划智能体基准,DCA-Bench,用于衡量LLM智能体检测隐藏数据集质量问题的能力。具体来说,我们从八个开放数据集平台收集了多样的现实世界数据集质量问题作为测试基础。此外,为了建立一个用于评估LLM智能体成功的自动流水线,这需要对智能体输出有细致的理解,我们使用另一个LLM智能体实现了一个专门的评估器。我们证明基于LLM的评估器在实证上与人类评估很好地吻合,允许在提出的基准上进行可靠的自动评估。我们进一步在提出的基准上对几个基线LLM智能体进行实验,并展示了任务的复杂性,表明将LLMs应用于现实世界数据集策划仍需要进一步深入探索和创新。最后,提出的基准还可以作为一个测试基础,用于衡量LLMs在问题发现方面的能力,而不仅仅是问题解决。该基准套件可在\url{此https URL}处获得。

论文链接: https://arxiv.org/pdf/2406.07275

Github: https://github.com/TRAIS-Lab/dca-bench

cs.AI: 超越裸查询:使用3D场景图进行开放词汇对象检索

原标题: Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph

作者: Sergey Linok, Tatiana Zemskova, Svetlana Ladanova, Roman Titkov, Dmitry Yudin

机构: 莫斯科物理技术学院(MIPT) 人工智能研究所(AIRI)

摘要: 自然语言中指代对象的定位对于自主智能体来说是一个重大挑战。现有基于CLIP的开放词汇方法成功地使用简单的查询执行3D对象检索,但无法处理需要理解对象关系的模糊描述。为了解决这个问题,我们提出了一种名为BBQ(Beyond Bare Queries)的模块化方法,该方法利用度量边构建3D场景空间图表示,并通过我们的演绎场景推理算法将大语言模型用作人到智能体接口。BBQ利用强大的DINO驱动的关联来形成3D对象,采用先进的射线投射算法将它们投影到2D,并利用视觉-语言模型将它们描述为图节点。在Replica和ScanNet数据集上,我们展示了设计的方法准确构建了3D对象为中心的地图。我们已经证明,他们的质量在开放词汇3D语义分割中占据了领先地位,超过了其他零样本方法。此外,我们表明,利用空间关系对于包含同一语义类别的多个实体的场景特别有效。在Sr3D和Nr3D基准测试中,我们的演绎方法展示了显著的改进,使得与其他最先进的方法相比,通过复杂查询检索对象成为可能。考虑到我们的设计解决方案,我们实现了一个处理速度大约比最接近的模拟器快3倍的性能。这种令人期待的性能使我们的方法能够在应用智能机器人项目中使用。我们将代码公开发布在此http URL。

论文链接: https://arxiv.org/pdf/2406.07113

Github: http://linukc.github.io/bbq/

cs.AI: Ollabench: 评估大语言模型在面向人类中心的相互依存的网络安全中的推理

原标题: Ollabench: Evaluating LLMs’ Reasoning for Human-centric Interdependent Cybersecurity

作者: Tam n. Nguyen

机构: IEEE

摘要: 大语言模型(LLMs)有潜力通过更好地代表复杂相互依存的网络安全系统来增强基于代理的建模,从而改进网络安全威胁建模和风险管理。然而,在这种情况下评估LLMs对于合法合规和有效应用开发至关重要。现有的LLM评估框架经常忽视了人为因素和认知计算能力,这些因素对于相互依存的网络安全至关重要。为了弥补这一差距,我提出了OllaBench,这是一个新颖的评估框架,评估LLMs在回答基于情景的信息安全合规和非合规问题时的准确性、浪费性和一致性。OllaBench建立在24个认知行为理论和来自38篇同行评审论文的经验证据基础上。OllaBench被用来评估21个LLMs,包括来自OpenAI、Anthropic、Google、Microsoft、Meta等的开源权重和商业模型。结果显示,虽然商业LLMs具有最高的整体准确性得分,但仍有很大的改进空间。较小的低分辨率开源权重LLMs在性能上也表现不俗,而在评估模型中的token效率和一致性方面存在显著差异。OllaBench提供了用户友好的界面,并支持多种LLM平台,使其成为人为中心相互依存网络安全领域及其他领域的研究人员和解决方案开发人员的宝贵工具。

论文链接: https://arxiv.org/pdf/2406.06863

cs.AI: MR-RawNet:使用原始波形进行变长语音说话人验证系统,具有多个时间分辨率

原标题: MR-RawNet: Speaker verification system with multiple temporal resolutions for variable duration utterances using raw waveforms

作者: Seung-bin Kim, Chan-yeong Lim, Jungwoo Heo, Ju-ho Kim, Hyun-seo Shin, Kyo-Won Koo, Ha-Jin Yu

机构: 首尔大学

摘要: 在说话者验证系统中,利用短语音片段存在持续挑战,主要由于缺乏足够的语音信息来表征说话者而导致性能下降。为了克服这一障碍,我们提出了一种新颖的结构,MR-RawNet,旨在利用原始波形增强说话者验证系统对可变时长语音片段的鲁棒性。MR-RawNet通过多分辨率特征提取器从原始波形中提取时频表示,同时优化调整了时间和频谱分辨率。此外,我们应用了一个多分辨率注意力块,专注于不同和广泛的时间上下文,确保系统对语音长度变化具有鲁棒性。在VoxCeleb1数据集上进行的实验结果表明,与其他基于原始波形的系统相比,MR-RawNet在处理可变时长语音片段时表现出更优异的性能。

论文链接: https://arxiv.org/pdf/2406.07103

cs.AI: 在概念模型中挖掘频繁结构

原标题: Mining Frequent Structures in Conceptual Models

作者: Mattia Fumagalli, Tiago Prince Sales, Pedro Paulo F. Barcelos, Giovanni Micale, Vadim Zaytsev, Diego Calvanese, Giancarlo Guizzardi

机构: 博尔扎诺-博尔扎诺自由大学 荷兰特文特大学 卡塔尼亚大学

摘要: 使用结构化方法表示知识的问题在概念建模中是众所周知的,并已经研究了多年。已经证明采用建模模式代表了一种有效的结构化方法。模式实际上是可被利用作为设计问题解决方案的可泛化的经常性结构。它们有助于理解和改进创建模型的过程。在几项实验研究中展示了在概念建模中使用模式的无可否认的价值。然而,在概念模型中发现模式被广泛认为是一项高度复杂的任务,目前缺乏系统性的模式识别解决方案。在本文中,我们提出了一种发现频繁结构的问题的通用方法,这些结构出现在概念建模语言中。作为我们科学贡献的概念验证,我们提供了一种方法的实现,重点关注 UML 类图,特别是 OntoUML 模型。这种实现包括一个探索性工具,通过频繁子图挖掘算法和图操作技术的结合,可以处理多个概念模型,并根据多个标准发现经常性结构。主要目标是为语言工程师提供支持设施。这可以用来利用良好和不良的建模实践,发展和维护概念建模语言,并促进在给定语言中设计更好模型时编码经验的重复使用。

论文链接: https://arxiv.org/pdf/2406.07129

cs.AI: 通过在表格强化学习中估计策略差异来减少样本复杂性

原标题: Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning

作者: Adhyyan Narang, Andrew Wagenmaker, Lillian Ratliff, Kevin Jamieson

机构: 华盛顿大学 清华大学

摘要: 在这篇论文中,我们研究了上下文臂和表格式强化学习中纯探索问题的非渐近样本复杂度:以高概率从一组策略中识别出一个 epsilon-最优策略。在臂上的现有工作表明,通过仅估计各个策略行为之间的差异就可以识别出最佳策略,这可能比直接估计每个策略的行为要便宜得多。然而,在强化学习中,已知的最佳复杂度未能利用这一点,而是直接估计每个策略的行为。在强化学习中,仅估计策略行为之间的差异是否足够?对于上下文臂,我们肯定地回答了这个问题,但对于表格式强化学习,我们的回答是否定的,显示了上下文臂和强化学习之间的差异。然而,受此启发,我们表明在强化学习中仅估计策略行为之间的差异几乎足够了:如果我们可以估计单个参考策略的行为,那么仅需要估计任何其他策略与该参考策略的偏差。我们开发了一种算法,实现了这一原则,并据我们所知,获得了表格式强化学习样本复杂度的已知最紧密界限。

论文链接: https://arxiv.org/pdf/2406.06856

cs.AI: D-GRIL: 使用2参数持久性进行端到端拓扑学习

原标题: D-GRIL: End-to-End Topological Learning with 2-parameter Persistence

作者: Soham Mukherjee, Shreyas N. Samaga, Cheng Xin, Steve Oudot, Tamal K. Dey

机构: 普渡大学 鲁特格斯大学 Inria Saclay and ´Ecole polytechnique

摘要: 端到端拓扑学习使用1参数持久性是众所周知的。我们展示了通过采用最近引入的基于2参数持久性的矢量化技术GRIL,可以增强该框架。我们建立了区分GRIL并产生D-GRIL的理论基础。我们展示了D-GRIL可以用于在标准基准图数据集上学习双滤波函数。此外,我们展示了这一框架可以应用于药物发现中的生物活性预测领域。

论文链接: https://arxiv.org/pdf/2406.07100

cs.AI: CHARME: 一种基于链式强化学习的方法,用于解决次嵌入问题

原标题: CHARME: A chain-based reinforcement learning approach for the minor embedding problem

作者: Hoang M. Ngo, Nguyen H K. Do, Minh N. Vu, Tamer Kahveci, My T. Thai

机构: 佛罗里达大学 越南邮电技术学院

摘要: 量子退火(QA)在高效解决组合优化问题方面具有巨大潜力。然而,QA算法的有效性在很大程度上取决于问题实例的嵌入,这些实例被表示为逻辑图,嵌入到量子单元处理器(QPU)中,其拓扑结构以有限连接图的形式存在,被称为次要嵌入问题。现有的次要嵌入问题方法在面对更大的问题规模时存在可扩展性问题。在本文中,我们提出了一种利用强化学习(RL)技术来解决次要嵌入问题的新方法,名为CHARME。CHARME包括三个关键组件:用于策略建模的图神经网络(GNN)架构,确保解决方案有效性的状态转换算法,以及用于有效训练的顺序探索策略。通过对合成和真实实例的全面实验,我们展示了我们提出的顺序探索策略以及我们提出的RL框架CHARME的效率。具体而言,CHARME相对于Minorminer和ATOM等快速嵌入方法产生了更优越的解决方案。此外,我们的方法在几种情况下超越了以OCT为基础的方法,后者以较慢的运行时但高质量的解决方案而闻名。此外,我们提出的探索策略通过提供比贪婪策略更好的解决方案,增强了CHARME框架的训练效率。

论文链接: https://arxiv.org/pdf/2406.07124

cs.AI: 引导用户查询的目录丰富化

原标题: Guiding Catalogue Enrichment with User Queries

作者: Yupei Du, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan

机构: 乌得勒支大学 亚特雷克特大学 柏林工业大学 Amazon

摘要: 知识图谱(KGs)丰富技术对于依赖不断发展的产品目录的商业应用变得越来越关键。然而,由于潜在丰富的巨大搜索空间,来自KG完成(KGC)方法的预测存在低精度问题,使其在真实世界的目录中变得不可靠。此外,用于丰富的候选事实与用户的相关性各不相同。虽然对KG中不完整三元组进行正确预测一直是KGC方法的主要焦点,但何时应用这些预测的相关性却被忽视了。在产品搜索用例的推动下,我们着眼于利用用户搜索行为和用户与产品的属性关联来生成目录的相关完成度。在本文中,我们提出了识别可丰富数据点的直觉,并使用通用KGs展示性能优势的角度。具体来说,我们从用户查询中提取实体-谓词对,这些对更有可能是正确和相关的,并使用这些对来指导KGC方法的预测。我们在两个流行的百科知识图谱DBPedia和YAGO 4上评估了我们的方法。我们的自动和人工评估结果表明,查询指导可以显著提高预测的正确性和相关性。

论文链接: https://arxiv.org/pdf/2406.07098

cs.AI: XAI是否应该通过解释偏见来推动人类决策?

原标题: Should XAI Nudge Human Decisions with Explanation Biasing?

作者: Yosuke Fukuchi, Seiji Yamada

机构: 东京都立大学 国立情报学研究所 研究院综合研究大学院(SOKENDAI)

摘要: 本文回顾了我们之前对Nudge-XAI的尝试,这是一种引入自动偏见到可解释AI(XAIs)解释中的方法,旨在引导用户做出更好的决策,并讨论了其中的益处和挑战。Nudge-XAI使用一个用户模型,预测提供解释或强调解释的影响,并试图在没有强制的情况下引导用户朝着AI建议的决策方向。预期nudge设计将增强用户的自主权,减少AI未经用户完全同意就做出决策所带来的风险,并使用户避免AI失败。为了讨论Nudge-XAI的潜力,本文报告了对以往实验结果的事后调查,采用了聚类分析。结果表明,用户对Nudge-XAI的反应行为多样化,支持我们增强用户自主权的目标。然而,它也突显了对AI持不信任态度并错误地做出与AI建议相反决策的用户所面临的挑战,这表明需要个性化调整nudge的力度,使这种方法更普遍地发挥作用。

论文链接: https://arxiv.org/pdf/2406.07323

cs.AI: 利用未标记数据增强离线强化学习

原标题: Augmenting Offline RL with Unlabeled Data

作者: Zhao Wang, Briti Gangopadhyay, Jia-Fong Yeh, Shingo Takamatsu

机构: 索尼集团 早稻田大学 台湾国立大学

摘要: 最近离线强化学习(Offline RL)领域的进展导致人们更加关注基于保守策略更新方法来解决分布外(OOD)问题。这些方法通常涉及添加行为规范化或修改评论家学习目标,主要关注具有大量数据集支持的状态或动作。然而,我们挑战这一普遍观念,主张数据集中缺少某个动作或状态并不一定意味着其次优。在本文中,我们提出了一种新颖的方法来解决OOD问题。我们引入了一个离线RL师生框架,辅以策略相似度度量。这个框架使得学生策略不仅可以从离线RL数据集中获得见解,还可以从师生策略传递的知识中获益。师生策略是使用另一个包含状态-动作对的数据集进行训练的,这可以被视为在没有直接与环境互动的情况下获得的实际领域知识。我们相信这种额外的知识对有效解决OOD问题至关重要。这项研究代表了将师生网络整合到演员-评论家框架中的重大进展,为离线RL中的知识转移研究开辟了新的研究途径,并有效应对OOD挑战。

论文链接: https://arxiv.org/pdf/2406.07117

cs.AI: 在具有路径表达式的表达式描述逻辑中的数据复杂性

原标题: Data Complexity in Expressive Description Logics With Path Expressions

作者: Bartosz Bednarczyk

机构: 德累斯顿工业大学 德国 弗罗茨瓦夫大学 波兰

摘要: 我们研究了对准森林上非常表达性的描述逻辑ZOIQ(又称ALCHb Self reg OIQ)的可满足性问题的数据复杂性,并证明了其NP完全性。这完成了ZOIQ可判定片段的数据复杂性格局,并重新证明了关于OWL2(SR家族)可判定片段的已知结果。利用相同的技术,我们证明了在ZIQ中根查询的蕴涵问题在组合复杂性方面是coNEXPTIME完全的。

论文链接: https://arxiv.org/pdf/2406.07095

cs.AI: CAAP:具有上下文感知的行动规划提示,仅通过前端 UI 解决计算机任务

原标题: CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only

作者: Junhee Cho, Jihoon Kim, Daseul Bae, Jinho Choo, Youngjune Gwon, Yeong-Dae Kwon

机构: 三星SDS

摘要: 软件机器人长期以来一直被部署在机器人流程自动化(RPA)中,用于自动化单调和重复的计算机任务。具有先进推理能力的大语言模型(LLMs)的出现为这些智能体现在承担更复杂甚至以前未曾见过的任务奠定了基础。然而,最近文献中基于LLM的自动化技术经常依赖HTML源代码作为输入,从而限制了它们的应用范围仅限于Web环境。此外,HTML代码中包含的信息通常是不准确或不完整的,使得智能体在实际应用中不够可靠。我们提出了一种基于LLM的智能体,仅通过屏幕截图来识别环境,并利用上下文学习来消除收集大量人类演示数据的需求。我们的策略,名为上下文感知行动规划(CAAP)提示,鼓励智能体以各种角度仔细审查上下文。通过我们提出的方法,我们在67种MiniWoB++问题中取得了94.4%的成功率,每种问题类型仅利用1.48次演示。我们的方法为更广泛的应用提供了潜力,特别是对于需要在计算机或智能手机上进行应用间协调的任务,展示了自动化智能体领域的重大进展。代码和模型可在此 https URL 访问。

论文链接: https://arxiv.org/pdf/2406.06947

Github: https://github.com/caap-agent/caap-agent

cs.AI: 统一建模增强多模态学习,用于精准神经肿瘤学

原标题: Unified Modeling Enhanced Multimodal Learning for Precision Neuro-Oncology

作者: Huahui Yi, Xiaofei Wang, Kang Li, Chao Li

机构: 四川大学 西部医学大数据中心 威斯特中国医院
剑桥大学 临床神经科学系

摘要: 多模态学习,将组织学图像和基因组学整合在一起,有望通过在微观和分子水平上提供全面视图来增强精准肿瘤学。然而,现有方法可能无法充分建模共享或互补信息,以实现更有效的整合。在这项研究中,我们引入了一种统一建模增强多模态学习(UMEML)框架,该框架采用分层注意结构,有效利用组织学和基因组学两种模态的共享和互补特征。具体而言,为了减轻由于模态不平衡而产生的单模态偏见,我们在病理编码器中利用基于查询的交叉注意机制进行原型聚类。我们的原型分配和模块化策略旨在对齐共享特征并最小化模态差距。引入了一个带有可学习标记的额外注册机制,以增强跨模态特征集成和多模态统一建模的稳健性。我们的实验证明,我们的方法在胶质瘤诊断和预后任务中超越了先前的最先进方法,突显了其在精准神经肿瘤学中的优越性。

论文链接: https://arxiv.org/pdf/2406.07078

cs.AI: 联合演示和偏好学习改善与人类反馈的政策对齐

原标题: Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback

作者: Chenliang Li, Siliang Zeng, Zeyi Liao, Jiaxiang Li, Dongyeop Kang, Alfredo Garcia, Mingyi Hong

机构: 清华大学 百度

摘要: 将人类偏好与价值进行对齐是构建当代基础模型和具身人工智能的重要要求。然而,诸如强化学习与人类反馈(RLHF)等流行方法将任务分解为连续阶段,如监督微调(SFT)、奖励建模(RM)和强化学习(RL),每个阶段执行一个特定的学习任务。这种顺序方法导致严重问题,如数据严重未被充分利用以及学习奖励模型与生成策略之间的分布不匹配,最终导致对齐性能不佳。我们开发了一种名为集成人类反馈对齐(AIHF)的单阶段方法,能够整合人类偏好和演示以训练奖励模型和策略。所提出的方法允许一系列高效算法,可以轻松缩减并利用诸如RLHF和直接策略优化(DPO)等流行对齐算法,并且仅需要对现有对齐流程进行较小更改。我们通过涉及LLMs中的对齐问题和MuJoCo中的机器人控制问题的大量实验展示了所提出解决方案的效率。我们观察到,所提出的解决方案在高质量偏好数据相对有限时,特别是在这种情况下,胜过现有的对齐算法,如RLHF和DPO。

论文链接: https://arxiv.org/pdf/2406.06874

cs.AI: TIM: 通知系统中的时间交互模型

原标题: TIM: Temporal Interaction Model in Notification System

作者: Huxiao Ji, Haitao Yang, Linchuan Li, Shunyu Zhang, Cunyi Zhang, Xuanping Li, Wenwu Ou

机构: 快手科技有限公司

摘要: 现代移动应用程序在获取每日活跃用户和增强用户参与度方面严重依赖通知系统。为了能够主动接触用户,系统必须决定何时向用户发送通知。尽管许多研究人员已经研究了优化发送通知的时机,但他们只利用了用户的上下文特征,而没有对用户的行为模式进行建模。此外,这些努力仅关注单个通知,缺乏关于在一段时间内优化多个通知的整体时机的研究。为了弥合这些差距,我们提出了时间交互模型(TIM),该模型通过在我们的短视频应用快手中估计每天每个时间段的点击率来建模用户的行为模式。TIM利用长期用户历史交互序列特征,如通知接收、点击、观看时间和有效查看,并采用时间注意力单元(TAU)来提取用户行为模式。此外,我们提供了一种优雅的整体通知发送时间控制策略,以提高用户参与度同时最小化干扰。我们通过离线实验和在线A/B测试评估了TIM的有效性。结果表明,TIM是一种可靠的用于预测用户行为的工具,可以显著提高用户参与度而不会造成不必要的干扰。

论文链接: https://arxiv.org/pdf/2406.07067

cs.AI: 具有理论保证的无监督目标检测

原标题: Unsupervised Object Detection with Theoretical Guarantees

作者: Marian Longa, João F. Henriques

机构: 牛津大学 Engineering Science Department

摘要: 使用深度神经网络进行无监督目标检测通常是一个困难的问题,几乎没有关于学习表示的保证。在这项工作中,我们提出了第一个理论上保证能够恢复真实目标位置的无监督目标检测方法,直到可以量化的小偏移。我们开发了一种无监督目标检测架构,并证明所学变量与真实目标位置相对应,直到与编码器和解码器感受野大小、目标大小以及渲染过程中使用的高斯函数宽度相关的小偏移。我们对每个变量的误差依赖性进行了详细分析,并进行了合成实验,验证了我们的理论预测,精确到单个像素的精度。我们还在基于CLEVR的数据上进行了实验,并展示,与当前的SOTA目标检测方法(如SAM、CutLER)不同,我们的方法的预测误差始终在我们的理论界限内。我们希望这项工作有助于开辟一个具有理论保证的目标检测方法研究的途径。

论文链接: https://arxiv.org/pdf/2406.07284

cs.AI: 利用深度学习模型进行在线数据同化重建热带太平洋上层海洋。

原标题: Reconstructing the Tropical Pacific Upper Ocean using Online Data Assimilation with a Deep Learning model

作者: Zilu Meng, Gregory J. Hakim

机构: 华盛顿大学

摘要: 基于Transformer架构的深度学习(DL)模型在气候模型数据集上进行训练,并与热带太平洋中的标准线性逆模型(LIM)进行比较。我们展示了DL模型在重新分析数据集上的测试中产生比LIM更准确的预测。然后,我们评估了集合卡尔曼滤波器从一个嘈杂的包含24个海表温度观测的数据集中重建月平均上层海洋的能力,这些观测旨在模拟现有的珊瑚代理测量,并比较了DL模型和LIM的结果。由于DL模型中的信号阻尼,我们实施了一种新颖的膨胀技术,通过从回报实验中添加噪声来实现。结果表明,使用DL模型同化观测比LIM在观测平均时间范围从一个月到一年时产生更好的重建。改进的重建是由于DL模型的增强预测能力,将过去观测的记忆映射到未来同化时间。

论文链接: https://arxiv.org/pdf/2406.07063

cs.AI: 用大语言模型解决旅行推销员问题的多模态案例研究

原标题: Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems

作者: Mohammed Elhenawy, Ahmed Abdelhay, Taqwa I. Alhadidi, Huthaifa I Ashqar, Shadi Jaradat, Ahmed Jaber, Sebastien Glaser, Andry Rakotonirainy

机构: 昆士兰科技大学 澳大利亚 明尼亚大学 埃及 阿拉伯美利坚大学 巴勒斯坦 哥伦比亚大学 美国

摘要: 多模态大语言模型(MLLMs)已经展示出在处理不同模态(包括文本、图像和音频)方面的熟练能力。这些模型利用广泛的预先存在知识,使它们能够在少样本和零样本的情境学习场景中解决复杂问题,如通过证据所示。本文调查了MLLMs的视觉能力在通过分析二维平面上点分布的图像来“直观”解决旅行推销员问题(TSP)的应用。我们的实验旨在验证MLLMs能够有效地“直观”确定可行的TSP路线的假设。零样本、少样本、自我集成和自我优化零样本评估的结果显示出有希望的成果。我们预计这些发现将激发对MLLMs的视觉推理能力进行进一步探索,以解决其他组合问题。

论文链接: https://arxiv.org/pdf/2406.06865

cs.AI: 用流匹配和尺度最优输运实现高效的3D分子生成

原标题: Efficient 3D Molecular Generation with Flow Matching and Scale Optimal Transport

作者: Ross Irwin, Alessandro Tibo, Jon-Paul Janet, Simon Olsson

机构: 阿斯利康(AstraZeneca) 分子人工智能(Molecular AI) 查尔莫斯理工大学(Chalmers University of Technology)

摘要: 最近,用于3D药物设计的生成模型因其在蛋白质口袋内直接设计配体的潜力而备受关注。然而,当前的方法往往存在非常慢的采样时间或生成具有较差化学有效性的分子。为了解决这些限制,我们提出了Semla,一种可扩展的E(3)-等变消息传递架构。我们进一步介绍了一种分子生成模型MolFlow,该模型使用流匹配以及尺度最优输运进行训练,这是等变最优输运的一种新颖扩展。我们的模型仅使用100个采样步骤就在基准数据集上产生了最先进的结果。至关重要的是,MolFlow在仅使用20个步骤的情况下即可采样出高质量的分子,相比最先进技术,速度提升了两个数量级,而不会牺牲性能。此外,我们强调了当前用于3D生成的评估方法的局限性,并提出了无条件分子生成器的新基准指标。最后,利用这些新指标,我们比较了我们的模型生成高质量样本的能力与当前方法,并进一步展示了MolFlow的强大性能。

论文链接: https://arxiv.org/pdf/2406.07266

cs.AI: 将离线 RL 中有限数据处理的领域知识整合

原标题: Integrating Domain Knowledge for handling Limited Data in Offline RL

作者: Briti Gangopadhyay, Zhao Wang, Jia-Fong Yeh, Shingo Takamatsu

机构: 清华大学 哈佛大学

摘要: 具有从静态数据集中学习的能力,离线强化学习(RL)作为现实世界应用的一个引人注目的途径出现。然而,最先进的离线RL算法在面对局限于状态空间特定区域的有限数据时表现不佳。性能下降归因于离线RL算法无法为稀有或未见观测学习适当的动作。本文提出了一种基于领域知识的新颖正则化技术,并自适应地优化初始领域知识,以显著提升在部分省略状态的有限数据中的性能。关键见解在于正则化项减轻了稀疏样本和领域知识覆盖的未观察状态的错误动作。对标准离散环境数据集的实证评估表明,与现有的在有限数据上运行的离线RL算法相比,平均性能至少提高了27%。

论文链接: https://arxiv.org/pdf/2406.07041

cs.AI: AS-70:一个用于自动语音识别和口吃事件检测的普通话口吃语音数据集

原标题: AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection

作者: Rong Gong, Hongfei Xue, Lezhi Wang, Xin Xu, Qisheng Li, Lei Xie, Hui Bu, Shaomei Wu, Jiaming Zhou, Yong Qin, Binbin Zhang, Jun Du, Jia Bin, Ming Li

机构: 西北工业大学 南开大学 中国科学技术大学 杜克昆山大学 AIShell公司 AImpower公司 WeNet开源社区

摘要: 在过去的二十年里,语音技术的快速发展已经导致在自动语音识别(ASR)等任务中实现了人类水平的表现。然而,当应用于非典型语音(如口吃)时,这些模型的有效性会降低。本文介绍了 AS-70,这是第一个公开可用的普通话口吃语音数据集,在其类别中独树一帜。AS-70 包括会话和语音命令阅读语音,具有逐字手工转录,适用于各种与语音相关的任务。此外,已建立基准系统,并针对 ASR 和口吃事件检测(SED)任务提供了实验结果。通过将这个数据集纳入模型微调中,观察到了最先进的 ASR 模型(如 Whisper 和 Hubert)在处理口吃语音方面的包容性显著提高。

论文链接: https://arxiv.org/pdf/2406.07256

cs.AI: 一个 GPU 足够吗?利用基础模型推动更高分辨率的图像生成

原标题: Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models

作者: Athanasios Tragakis, Marco Aversa, Chaitanya Kaul, Roderick Murray-Smith, Daniele Faccio

机构: 格拉斯哥大学 Dotphoton

摘要: 在这项工作中,我们介绍了Pixelsmith,这是一个零样本文本到图像生成框架,可以使用单个GPU在更高分辨率下采样图像。我们是第一个展示通过将预训练扩散模型的输出扩展1000倍是可能的,从而为千亿像素图像生成打开了道路,而无需额外成本。我们的级联方法使用在最低分辨率下生成的图像作为基准来在更高分辨率下进行采样。为了指导,我们引入了Slider,这是一种可调节的机制,将第一次生成的图像中包含的整体结构与增强的细节融合在一起。在每个推理步骤中,我们对补丁进行去噪,而不是整个潜在空间,从而最小化内存需求,使得单个GPU可以处理该过程,无论图像的分辨率如何。我们的实验结果表明,Pixelsmith不仅在质量和多样性上优于现有技术,而且减少了采样时间和伪影。我们的工作代码可在此https URL上找到。

论文链接: https://arxiv.org/pdf/2406.07251

Github: https://github.com/Thanos-DB/Pixelsmith

cs.AI: 蛋白质语言模型是否计算优化?

原标题: Are Protein Language Models Compute Optimal?

作者: Yaiza Serrano, Álvaro Ciudad, Alexis Molina

机构: Yaiza Serrano - Alvaro Ciudad - Alexis Molina -

摘要: 蛋白质语言模型(pLMs)已经改变了生物研究,但控制其改进的规模定律仍未得到充分探讨。通过借鉴自然语言处理规模定律的方法,我们研究了在固定计算预算内模型参数和训练标记之间的最佳比率。我们的研究表明,pLM的规模随着计算预算呈次线性增长,显示出随着模型规模的增加,性能递减,并且我们确定了训练损失中的性能平台,与该领域相关作品中发现的情况类似。我们的发现表明,广泛使用的pLM可能不是计算最优的,这表明更大的模型可能更有效地实现收敛。通过在减少的标记集上训练一个35M模型,我们获得了与更大模型(如ESM-2(15B)和xTrimoPGLM(100B))相当的困惑度结果,只需一个数据集通过。这项工作为更高效的pLM铺平了道路,使它们的训练和在计算生物学中的实际应用更加民主化。

论文链接: https://arxiv.org/pdf/2406.07249

cs.AI: 异构学习率调度用于长尾数据集上的神经架构搜索

原标题: Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets

作者: Chenxia Tang

机构: 中国科技大学

摘要: 在这篇论文中,我们尝试解决将神经架构搜索(NAS)算法,特别是可微架构搜索(DARTS),应用于类别分布高度不平衡的长尾数据集的挑战。我们观察到,传统的重新采样和重新加权技术,在标准分类任务中有效,但与DARTS结合时会导致性能下降。为了缓解这一问题,我们提出了一种新颖的自适应学习率调度策略,专为与双边分支网络(BBN)集成处理不平衡数据集时的DARTS架构参数而设计。我们的方法根据训练时期动态调整架构参数的学习率,防止在训练后期破坏训练良好的表示。此外,我们探讨了分支混合因子对算法性能的影响。通过在CIFAR-10数据集上进行大量实验,人为引入长尾分布,我们证明了我们的方法实现了与仅使用DARTS相当的准确性。实验结果表明,重新采样方法固有地损害了DARTS算法的性能。我们的发现强调了在将DNAS应用于不平衡学习场景时谨慎进行数据增强的重要性。

论文链接: https://arxiv.org/pdf/2406.07028

cs.AI: 跨语言认知洞察:增强多模态面试分析

原标题: Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis

作者: David Ortiz-Perez, Jose Garcia-Rodriguez, David Tomás

机构: 阿利坎特大学 西班牙 软件与计算系统系

摘要: 认知能力下降是一个随着个体年龄增长而自然发生的过程。对异常下降进行早期诊断对于启动专业治疗至关重要,可以提高受影响者的生活质量。为了解决这个问题,我们提出了一个能够预测轻度认知障碍和认知分数的多模型。我们使用TAUKADIAL数据集进行评估,该数据集包括临床访谈的音频记录。所提出的模型展示了转录和区分访谈中使用的语言的能力。随后,该模型提取音频和文本特征,将它们结合成一个多模式架构,以实现强大和泛化的结果。我们的方法涉及深入研究,以实现从所提出的模态获得的各种特征。

论文链接: https://arxiv.org/pdf/2406.07542

cs.AI: 利用大语言模型进行熵强化规划进行药物发现

原标题: Entropy-Reinforced Planning with Large Language Models for Drug Discovery

作者: Xuefeng Liu, Chih-chan Tien, Peng Ding, Songhao Jiang, Rick L. Stevens

机构: 清华大学 百度

摘要: 药物发现的目标是识别具有特定药用性质的化合物,以对结合靶点产生作用。现有的大语言模型(LLMs)在分子生成的可能性方面可以实现高标记匹配分数。然而,仅依赖LLM解码往往会导致生成的分子要么无效,因为一个误用的标记,要么不够优化,因为LLMs之前的经验导致探索和开发不平衡。在这里,我们提出ERP,即Entropy-Reinforced Planning for Transformer Decoding,它采用熵强化规划算法来增强Transformer解码过程,并在开发和探索之间取得平衡。ERP旨在在多个属性上实现改进,与直接从Transformer中采样相比。我们在SARS-CoV-2病毒(3CLPro)和人类癌细胞靶蛋白(RTCB)基准上评估了ERP,并证明在这两个基准上,ERP始终比当前最先进的算法高出1-5个百分点,分别比基线高出5-10个百分点。此外,这种改进在使用不同目标训练的Transformer模型中是稳健的。最后,为了进一步说明ERP的能力,我们在三个代码生成基准上测试了我们的算法,并且在当前最先进的方法上表现出色。我们的代码可以在以下网址公开获取:this https URL。

论文链接: https://arxiv.org/pdf/2406.07025

Github: https://github.com/xuefeng-cs/ERP

cs.AI: 在一个多模态的草堆中找针

原标题: Needle In A Multimodal Haystack

作者: Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

机构: 上海人工智能实验室,复旦大学,清华大学,香港中文大学,南京大学,商汤研究院,香港大学

摘要: 随着多模态大型语言模型(MLLMs)的快速发展,它们的评估变得越来越全面。然而,作为现实世界应用的基础能力,理解长篇多模态内容仍未被充分探讨。在这项工作中,我们提出了“Multimodal Haystack中的一根针”(MM-NIAH),这是第一个专门设计用于系统评估现有MLLMs理解长篇多模态文档能力的基准。我们的基准包括三种类型的评估任务:多模态检索、计数和推理。在每个任务中,模型需要根据给定的多模态文档中分散的不同关键信息来回答问题。通过在MM-NIAH上评估领先的MLLMs,我们观察到现有模型在这些任务上仍有显著的改进空间,特别是在以视觉为中心的评估上。我们希望这项工作可以为进一步研究长篇多模态文档理解提供一个平台,并为MLLMs的发展做出贡献。代码和基准已发布在此 https URL。

论文链接: https://arxiv.org/pdf/2406.07230

Github: https://github.com/OpenGVLab/MM-NIAH

cs.AI: 眼还眼:扩散模型中具有语义对应的外观转移

原标题: Eye-for-an-eye: Appearance Transfer with Semantic Correspondence in Diffusion Models

作者: Sooyeon Go, Kyungmook Choi, Minjung Shin, Youngjung Uh

机构: 延世大学

摘要: 预训练的文本到图像扩散模型已成为图像合成的有用工具,人们希望以各种方式指定结果。在本文中,我们介绍了一种方法,可以生成具有目标图像相同结构但使用参考图像颜色绘制的结果,即外观转移,特别是遵循结果与参考之间的语义对应关系。例如,结果翅膀采用参考翅膀的颜色,而不是参考头部的颜色。现有方法依赖于自注意力层内的查询-键相似性,通常会产生有缺陷的结果。为此,我们提出找到语义对应关系,并根据语义对应关系明确重新排列特征。大量实验证明了我们的方法在各个方面的优越性:保留目标结构并根据语义对应关系反映参考颜色,即使两个图像没有对齐。

论文链接: https://arxiv.org/pdf/2406.07008

cs.AI: 用GenAI重新设计触觉交互

原标题: Haptic Repurposing with GenAI

作者: Haoyu Wang

机构: 帝国理工学院 皇家艺术学院

摘要: 混合现实旨在将数字世界和物理世界融合,创造沉浸式的人机交互体验。尽管取得了显著进展,但缺乏逼真的触觉反馈通常会通过在视觉和触觉感知之间创建断裂来破坏沉浸式体验。本文介绍了利用GenAI进行触觉再利用的创新方法,通过将任何物理对象转化为自适应触觉界面,以增强混合现实交互。利用最先进的生成式AI模型,该系统捕捉物理对象的2D和3D特征,并通过用户指导的提示生成保持原始物体物理形态的相应虚拟对象。通过基于模型的物体跟踪,系统实时动态将虚拟资产锚定到物理道具,使物体能够在视觉上变形为任何用户指定的虚拟对象。本文详细介绍了系统的开发过程,呈现了验证其有效性的可用性研究结果,并探讨了其在显著增强互动混合现实环境方面的潜力。希望这项工作能为进一步研究沉浸式和触觉技术中的AI驱动空间转换奠定基础。

论文链接: https://arxiv.org/pdf/2406.07228

cs.AI: 离散基于字典的分解层用于结构化表示学习

原标题: Discrete Dictionary-based Decomposition Layer for Structured Representation Learning

作者: Taewon Park, Hyun-Chul Kim, Minho Lee

机构: 康南国立大学 阿里有限公司

摘要: 神经符号神经网络已被广泛研究,以将符号操作与神经网络相结合,从而提高系统化泛化能力。具体来说,张量积表示(TPR)框架使神经网络能够通过在向量空间中编码数据的符号结构来执行可微分的符号操作。然而,基于TPR的神经网络经常难以将未见数据分解为结构化的TPR表示,从而削弱了它们的符号操作能力。为了解决这一分解问题,我们提出了一种名为离散字典分解(D3)层,旨在增强基于TPR模型的分解能力。D3采用离散的、可学习的键-值字典,经过训练以捕获分解操作所必需的符号特征。它利用训练期间获得的先验知识,通过将输入数据映射到这些字典中预先学习的符号特征,生成结构化的TPR表示。D3是一个简单的插入层,可以无缝集成到任何基于TPR的模型中,无需修改。我们的实验结果表明,D3显著提高了各种基于TPR的模型的系统化泛化能力,同时需要更少的额外参数。值得注意的是,D3在合成任务上表现优于基准模型,该任务要求对未见的组合数据进行系统分解。

论文链接: https://arxiv.org/pdf/2406.06976

cs.AI: 超越规范:检测回归模型中的预测错误

原标题: Beyond the Norms: Detecting Prediction Errors in Regression Models

作者: Andres Altieri, Marco Romanelli, Georg Pichler, Florence Alberge, Pablo Piantanida

机构:

摘要: 本文解决了检测回归算法中不可靠行为的挑战,这可能源自固有的变异性(例如,aleatoric不确定性)或建模错误(例如,模型不确定性)。首先,我们正式介绍了回归中不可靠性的概念,即当回归器的输出超过指定的差异(或错误)时。然后,利用强大的概率建模工具,我们估计了差异密度,并使用我们提出的统计不相似度度量其统计多样性。这样,我们能够得出一个基于数据的分数,表达了回归结果的不确定性。我们展示了在多个回归任务中错误检测方面的实证改进,始终优于流行的基准方法,并为不确定性量化和安全机器学习系统的更广泛领域做出贡献。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.06968

其他链接: https://zenodo.org/records/11281964

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值