2024年6月13日Arxiv人工智能相关论文

最新推荐文章于 2024-09-04 14:24:09 发布

数智笔记

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量1k

点赞数 27

分类专栏：论文速递文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/wjjc1017/article/details/139661317

版权

论文速递专栏收录该内容

118 篇文章 16 订阅

订阅专栏

cs.AI: Diffusion Soup：用于文本到图像扩散模型的模型合并

原标题: Diffusion Soup: Model Merging for Text-to-Image Diffusion Models

作者: Benjamin Biggs, Arjun Seshadri, Yang Zou, Achin Jain, Aditya Golatkar, Yusheng Xie, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto

机构: AWS AI Labs Amazon AGI Foundations

摘要: 我们提出了扩散汤（Diffusion Soup），这是一种用于文本到图像生成的分隔方法，它对在分片数据上训练的扩散模型的权重进行平均。通过构造，我们的方法实现了无需训练的持续学习和遗忘，而且没有额外的内存或推理成本，因为与数据分片对应的模型可以通过重新平均来添加或移除。我们展示了扩散汤从权重空间中的一个点进行采样，该点近似于各个数据集分布的几何平均，这提供了反记忆保证并实现了零样本风格混合。在经验上，扩散汤在领域分片数据上表现优于在所有数据分片的并集上训练的模型，并在图像奖励上实现了30%的改进（.34 → .44），在审美数据上实现了59%的改进（.37 → .59）。在这两种情况下，扩散还在TIFA分数上获胜（分别为85.5 → 86.5和85.6 → 86.8）。我们展示了强大的遗忘能力–仅删除任何单个领域分片将使性能降低1%在IR方面（.45 → .44）–并使用真实数据验证了我们关于反记忆的理论见解。最后，我们展示了扩散汤将在不同分片上微调的模型的独特风格融合在一起的能力，从而实现了混合风格的零样本生成。

论文链接: https://arxiv.org/pdf/2406.08431

cs.AI: 惊喜！在主动推理框架下利用生理应激进行恒态调节

原标题: Surprise! Using Physiological Stress for Allostatic Regulation Under the Active Inference Framework [Pre-Print]

作者: Imran Khan, Robert Lowe

机构: 哥德堡大学

摘要: Allostasis提出，生命系统的长期生存能力是通过对其生理和行为的预期性调整来实现的：强调生理和情感应激作为适应状态的适应性调整，以最小化长期预测误差。最近，主动推理框架（AIF）也试图通过最小化未来错误（自由能量）来解释行动和长期适应，通过学习世界的统计相关性，提供了一种关于恒态调节的形式化。我们建议通过Allostasis提出的生物激素动态的镜头来构建预测误差，以一种生物学上合理的方式将这两个模型整合在一起。在本文中，我们描述了我们初步开发的模型，将预测误差（惊异）与生理应激激素（皮质醇）的分泌结合起来，作为一种适应性的、通过恒态控制的生理学上的调节介质。我们使用一个计算模型在一个随机环境中使用一个具有人工生理学的主动推理智能体进行模拟来评估这一点。我们的结果发现，作为预测误差函数分泌的皮质醇（压力）为智能体的长期生理调节提供了适应性优势。我们认为，将信息论预测误差与压力的低层生物激素动态耦合可以为具有智能体的长期调节提供一个计算高效的模型。

论文链接: https://arxiv.org/pdf/2406.08471

cs.AI: KernelWarehouse: 重新思考动态卷积的设计

原标题: KernelWarehouse: Rethinking the Design of Dynamic Convolution

作者: Chao Li, Anbang Yao

机构: KernelWarehouse

摘要: 动态卷积学习了一种线性混合的 n 个静态核，这些核根据它们的输入相关关注权重进行加权，表现出比普通卷积更优越的性能。然而，它将卷积参数的数量增加了 n 倍，因此并不具备参数效率。这导致没有研究进展可以让研究人员探索设置 n>100（比典型设置 n<10 大一个数量级）以推动动态卷积性能边界的提升同时享受参数效率。为了填补这一空白，在本文中，我们提出了 KernelWarehouse，这是一种更一般形式的动态卷积，通过利用同一层内和相邻层之间的卷积参数依赖重新定义了“核”、“组装核”和“注意力函数”的基本概念。我们在 ImageNet 和 MS-COCO 数据集上使用各种 ConvNet 架构验证了 KernelWarehouse 的有效性。有趣的是，KernelWarehouse 也适用于 Vision Transformers，并且甚至可以减小骨干模型的大小同时提高模型准确性。例如，KernelWarehouse（n=4）在 ResNet18|MobileNetV2|DeiT-Tiny 骨干上实现了 5.61%|3.90%|4.38% 的绝对 top-1 准确率增益，而 KernelWarehouse（n=1/4）在减小 65.10% 模型大小的同时仍在 ResNet18 骨干上实现了 2.29% 的增益。代码和模型可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.07879

Github: https://github.com/OSVAI/KernelWarehouse

cs.AI: 通过 $\varepsilon$ -重新训练来改进策略优化。

原标题: Improving Policy Optimization via $\varepsilon$ -Retrain

作者: Luca Marzari, Changliu Liu, Priya L. Donti, Enrico Marchesini

机构: 维罗纳大学卡内基梅隆大学麻省理工学院

摘要: 我们提出了 $\varepsilon$ -retrain，这是一种旨在鼓励行为偏好的探索策略，同时优化具有单调改进保证的策略。为此，我们引入了一个迭代过程，用于收集重新训练区域——状态空间的部分，在这些部分中，代理未遵循行为偏好。然后，我们的方法在典型的均匀重新启动状态分布和重新训练区域之间切换，使用一个衰减因子 $\varepsilon$ ，使代理可以在违反偏好的情况下重新训练。在涉及运动、导航和电力网络任务的数百个种子上进行的实验表明，我们的方法产生了表现出显著性能和样本效率改进的代理。此外，我们利用神经网络的形式验证来可靠量化代理遵守行为偏好的程度。

论文链接: https://arxiv.org/pdf/2406.08315

cs.AI: 通过抽象化提高噪声鲁棒性及其对机器学习的影响

原标题: Improving Noise Robustness through Abstractions and its Impact on Machine Learning

作者: Alfredo Ibias (1), Karol Capala (1), Varun Ravi Varma (1), Anna Drozdz (1), Jose Sousa (1) ((1) Personal Health Data Science, Sano - Centre for Computational Personalised Medicine)

机构: Sano - 计算个性化医学中心

摘要: 噪声是学习理论中的一个基本问题，对机器学习（ML）方法的应用产生巨大影响，因为真实世界的数据往往是带有噪声的。此外，恶意噪声的引入可能导致ML方法严重失败，就像对抗性攻击一样。因此，寻找和开发改进对噪声鲁棒性的替代方法是ML中的一个基本问题。在本文中，我们提出了一种处理噪声的方法：通过使用数据抽象来减轻其影响。其目标是通过抽象产生的信息损失来减少噪声对模型性能的影响。然而，这种信息损失是有代价的：由于缺少信息，可能导致准确性降低。首先，我们探讨了多种方法来创建抽象，使用训练数据集，针对数值数据和二元分类任务的特定情况。我们还测试了这些抽象如何影响对噪声的鲁棒性，通过多个实验探索了人工神经网络在使用原始数据训练时与使用抽象数据训练时对噪声的鲁棒性。结果清楚地表明，使用抽象是开发噪声鲁棒ML方法的一种可行方法。

论文链接: https://arxiv.org/pdf/2406.08428

cs.AI: 层次强化学习用于高不确定性群体对抗

原标题: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

作者: Qizhen Wu, Kexin Liu, Lei Chen, Jinhu Lv

机构: 清华大学电子工程系

摘要: 在群体机器人技术中，包括追逐-逃避游戏在内的对抗是一个关键场景。未知对手策略和动态障碍引起的高度不确定性将行动空间复杂化为混合决策过程。尽管深度强化学习方法对于群体对抗至关重要，因为它可以处理各种规模，但作为端到端实现，它无法处理混合过程。在这里，我们提出了一种新颖的分层强化学习方法，包括目标分配层、路径规划层以及两个层之间的基础动态交互机制，指示了量化的不确定性。它将混合过程解耦为离散分配和连续规划层，采用概率集成模型来量化不确定性并自适应地调节交互频率。此外，为了克服由两个层引入的不稳定训练过程，我们设计了一种整合训练方法，包括预训练和交叉训练，以增强训练效率和稳定性。对比和消融研究中的实验结果验证了我们提出方法的有效性和泛化性能。

论文链接: https://arxiv.org/pdf/2406.07877

cs.AI: MobileAgentBench：一个面向移动LLM智能体的高效且用户友好的基准测试

原标题: MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents

作者: Luyuan Wang, Yongyu Deng, Yiwei Zha, Guodong Mao, Qinmin Wang, Tianchen Min, Wei Chen, Shoufa Chen

机构: Carnegie Mellon University, University of Michigan, Northeastern University, The University of Hong Kong

摘要: 基于大语言模型（LLM）的移动智能体因其能够直接与手机图形用户界面（GUI）交互以及自主管理日常任务的潜力而越来越受欢迎。尽管它们在学术和工业领域都有着前景，但由于应用程序状态无穷尽且可行动作序列定义模糊，目前很少有研究专注于对现有移动智能体性能进行基准测试。为了解决这一挑战，我们提出了一个高效且用户友好的基准测试工具MobileAgentBench，旨在减轻广泛手动测试的负担。我们首先在10个开源应用程序中定义了100个任务，按照不同难度级别进行分类。随后，我们评估了几种现有的移动智能体，包括AppAgent和MobileAgent，以彻底系统地比较它们的性能。所有材料都可以在我们的项目网页上访问：https://这里是网址，有助于推动学术和工业领域的进步。

论文链接: https://arxiv.org/pdf/2406.08184

Github: https://MobileAgentBench.github.io

cs.AI: 资源分配和工作负载调度对于大规模分布式深度学习至关重要：一项调查

原标题: Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey

作者: Feng Liang, Zhen Zhang, Haifeng Lu, Chengming Li, Victor C. M. Leung, Yanyi Guo, Xiping Hu

机构: 深圳莫斯科-北京理工大学人工智能研究所，中国
兰州大学信息科学与工程学院，甘肃省可穿戴计算重点实验室，中国
英属哥伦比亚大学电气与计算机工程系，加拿大
北京理工大学机械与电气工程学院，前沿交叉学科研究所，中国

摘要: 随着大规模数据中心中分布式深度学习工作负载的快速增长，高效的资源分配和工作负载调度策略已成为高性能深度学习的关键。大规模环境中拥有大量数据集、模型以及计算和通信资源，为分布式深度学习中的资源分配和工作负载调度带来了各种独特挑战，如调度复杂性、资源和工作负载异构性以及容错性。为了揭示这些挑战及相应解决方案，本调查主要回顾了2019年至2024年间关于大规模分布式深度学习的高效资源分配和工作负载调度策略的文献。我们通过关注各种资源类型、调度粒度级别以及分布式训练和推断过程中的性能目标来探讨这些策略。我们重点介绍了每个主题的关键挑战，并讨论了现有技术的关键见解。为了说明实际大规模资源分配和工作负载调度在真实分布式深度学习场景中的应用，我们使用了一个训练大语言模型的案例研究。本调查旨在鼓励计算机科学、人工智能和通信研究人员了解最新进展，并探索高效框架策略在大规模分布式深度学习中的未来研究方向。

论文链接: https://arxiv.org/pdf/2406.08115

cs.AI: AWGUNET: 在组织病理学图像中用于细胞核分割的注意力辅助小波引导 U-Net

原标题: AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images

作者: Ayush Roy, Payel Pramanik, Dmitrii Kaplun, Sergei Antonov, Ram Sarkar

机构: Jadavpur University, Kolkata, India
China University of Mining and Technology, Xuzhou, China
Saint Petersburg Electrotechnical University ”LETI”, Saint Petersburg, Russia

摘要: 在组织病理学图像中准确地分割细胞核对于癌症诊断至关重要。自动化这一过程为临床专家提供了宝贵的支持，因为手动标注耗时且容易出现人为错误。然而，自动化细胞核分割面临挑战，原因在于不确定的细胞边界、复杂的染色以及多样化的结构。本文提出了一种分割方法，将 U-Net 架构与 DenseNet-121 骨干相结合，充分利用两者的优势来捕获全面的上下文和空间信息。我们的模型引入了 Wavelet 引导的通道注意模块，以增强细胞边界的描绘，同时还有一个可学习的加权全局注意模块用于通道特定的关注。解码器模块由上采样块和卷积块组成，进一步优化了处理染色模式的分割。在两个公开可访问的组织病理学数据集 Monuseg 和 TNBC 上进行的实验结果突显了我们提出的模型的优越性，展示了其推动组织病理学图像分析和癌症诊断的潜力。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.08425

Github: https://github.com/AyushRoy2001/AWGUNET

cs.AI: Codecfake：用于检测基于LLM的深度伪造音频的初始数据集

原标题: Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio

作者: Yi Lu, Yuankun Xie, Ruibo Fu, Zhengqi Wen, Jianhua Tao, Zhiyong Wang, Xin Qi, Xuefei Liu, Yongwei Li, Yukun Liu, Xiaopeng Wang, Shuchen Shi

机构: 中国科学院自动化研究所中国科学院大学人工智能学院中国传媒大学信息与通信工程学院清华大学自动化系清华大学信息科学与技术国家研究中心上海理工大学

摘要: 随着基于大语言模型（LLM）的深度伪造音频的泛滥，迫切需要有效的检测方法。先前的深度伪造音频生成方法通常涉及多步生成过程，最终一步使用声码器从手工特征预测波形。然而，基于LLM的音频是直接从离散神经编解码器中生成的，采用端到端生成过程，跳过声码器处理的最后一步。这给基于声码器痕迹的当前音频深度伪造检测（ADD）模型带来了重大挑战。为了有效检测基于LLM的深度伪造音频，我们关注生成过程的核心，即从神经编解码器到波形的转换。我们提出了Codecfake数据集，该数据集由七种代表性的神经编解码器方法生成。实验结果表明，在Codecfake测试集上，经过编解码器训练的ADD模型的平均等错误率相比经过声码器训练的ADD模型降低了41.406%。

论文链接: https://arxiv.org/pdf/2406.08112

cs.AI: 使AI可理解：哲学基础

原标题: Making AI Intelligible: Philosophical Foundations

作者: Herman Cappelen, Josh Dever

摘要: 人类和人工智能能够共享概念并进行沟通吗？《使AI可理解》一书表明，关于意义形而上学的哲学研究可以帮助回答这些问题。赫尔曼·卡佩伦（Herman Cappelen）和乔什·德弗（Josh Dever）利用哲学中的外部主义传统来创建模型，展示了人工智能和人类如何理解彼此。通过这样做，他们阐明了哲学传统可以得到改进的方式。
该书探讨的问题不仅在理论上很有趣，而且答案具有迫切的实际意义。现在许多关于人类生活的重要决策都受到人工智能的影响。在赋予人工智能这种权力的同时，我们预设人工智能能够追踪我们关心的世界特征（例如信用价值、累犯率、癌症和战斗人员）。如果人工智能能够共享我们的概念，那将在一定程度上为我们对人工智能的依赖提供理由。这项开创性研究提供了关于如何迈出迈向可解释人工智能的第一步的见解。

论文链接: https://arxiv.org/pdf/2406.08134

cs.AI: State Soup：上下文技能学习、检索和混合

原标题: State Soup: In-Context Skill Learning, Retrieval and Mixing

作者: Maciej Pióro, Maciej Wołczyk, Razvan Pascanu, Johannes von Oswald, João Sacramento

机构: IDEAS NCBR IPPT PAN Google Deepmind

摘要: 一种新型的门控线性循环神经网络已经在一系列序列建模问题上达到了最先进的性能。这种模型自然地高效处理长序列，因为处理新输入的成本与序列长度无关。在这里，我们探讨这些有状态序列模型的另一个优势，灵感来自通过参数插值进行模型合并的成功。基于微调和上下文学习之间的相似之处，我们研究是否可以将内部状态视为可以存储、检索，然后线性组合的任务向量，利用循环的线性性。我们在Mamba-2.8b上研究了这种快速模型合并形式，这是一个预训练的循环模型，并提出初步证据表明，简单的线性状态插值方法足以改善下一个标记的困惑度，以及下游上下文学习任务的性能。

论文链接: https://arxiv.org/pdf/2406.08423

cs.AI: 对信息需求实现的预测：一项脑电图研究

原标题: Prediction of the Realisation of an Information Need: An EEG Study

作者: Niall McGuire, Dr Yashar Moshfeghi

机构: University of Strathclyde

摘要: 信息检索（IR）的基本目标之一是满足搜索者的信息需求（IN）。理解IN如何在物理上表现出来长期以来一直是一个复杂而难以捉摸的过程。然而，利用脑电图（EEG）数据的最新研究提供了关于与IN相关的神经过程的实时见解。不幸的是，它们尚未展示这种见解如何可以实际有益于搜索体验。因此，在这项研究中，我们探讨了在14名受试者参与问答（Q/A）任务时，预测EEG数据中IN实现的能力。此外，我们调查了产生最佳预测性能的EEG特征组合，以及识别Q/A查询中受试者IN实现更为显著的区域。这项工作的发现表明，EEG数据足以实时预测所有受试者IN的实现，准确率为73.5%（标准偏差2.6%），并且在每个受试者基础上的准确率为90.1%（标准偏差22.1%）。这项工作有助于通过将理论神经科学的进展与信息检索实践的实质性改进联系起来，为实时预测IN的实现铺平道路。

论文链接: https://arxiv.org/pdf/2406.08105

cs.AI: SHACL2FOL：用于SHACL决策问题的FOL工具包

原标题: SHACL2FOL: An FOL Toolkit for SHACL Decision Problems

作者: Paolo Pareti

机构: Winchester大学

摘要: 最近关于Shapes Constraint Language（SHACL）的研究依赖于将该语言转换为一阶逻辑，以提供形式化基础解决验证、包含和可满足性决策问题。在这一研究方向上继续进行，我们介绍了SHACL2FOL，这是第一个自动工具，它（i）将SHACL文档转换为FOL句子，并（ii）计算满足性和包含性这两个静态分析问题的答案；它还可以测试图形相对于一组约束的有效性。通过与现有的定理证明器（如E和Vampire）集成，该工具计算了上述决策问题的答案，并以标准TPTP格式输出相应的一阶逻辑理论。我们相信这个工具可以为SHACL的进一步理论研究做出贡献，通过提供其语义的自动一阶逻辑解释，同时也有助于SHACL从业者，通过提供静态分析能力来帮助创建和管理SHACL约束。

论文链接: https://arxiv.org/pdf/2406.08018

Github: https://github.com/paolo7/shacl2fol

cs.AI: OmniCorpus：一个包含100亿级图像并与文本交错的统一多模态语料库

原标题: OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

作者: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

机构: 上海人工智能实验室哈尔滨工业大学南京大学复旦大学香港中文大学商汤科技研究清华大学

摘要: 图文交错数据，由多个图像和文本组成，以自然文档格式排列，符合互联网数据的呈现范式，并且与人类阅读习惯密切相关。最近的研究表明，这种数据有助于多模态上下文学习，并在多模态微调期间保持大型语言模型的能力。然而，当前图文交错数据的规模和多样性有限，限制了多模态大型语言模型的发展。在本文中，我们介绍了OmniCorpus，一个规模达100亿的图文交错数据集。利用高效的数据引擎，我们过滤和提取大规模高质量文档，其中包含86亿张图像和1696亿个文本标记。与对手（例如MMC4，OBELICS）相比，我们的数据集1）规模大15倍，同时保持良好的数据质量；2）具有更多样化的来源，包括英语和非英语网站以及以视频为中心的网站；3）更加灵活，可以轻松从图文交错格式降级为纯文本语料库和图文对。通过全面的分析和实验，我们验证了所提出数据集的质量、可用性和有效性。我们希望这能为未来多模态模型研究提供坚实的数据基础。代码和数据已发布在此网址。

论文链接: https://arxiv.org/pdf/2406.08418

Github: https://github.com/OpenGVLab/OmniCorpus

cs.AI: Diff-A-Riff: 通过潜在扩散模型进行音乐伴奏共创

原标题: Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models

作者: Javier Nistal, Marco Pasini, Cyran Aouameur, Maarten Grachten, Stefan Lattner

机构: Sony Computer Science Laboratories Queen Mary University of London

摘要: 最近深度生成模型的进展为音乐制作带来了新的机遇，但也带来了挑战，比如高计算需求和有限的音频质量。此外，当前系统通常仅依赖于文本输入，并且通常专注于生成完整的音乐作品，这与音乐制作中现有的工作流程不兼容。为了解决这些问题，我们介绍了“Diff-A-Riff”，这是一个设计用于生成高质量乐器伴奏的潜在扩散模型，可适应任何音乐背景。该模型通过音频参考、文本提示或两者都可以进行控制，并生成48kHz伪立体声音频，同时显著减少推理时间和内存使用。我们通过客观指标和主观听测试展示了模型的能力，伴随网站上提供了大量示例：此http URL

论文链接: https://arxiv.org/pdf/2406.08384

Github: http://sonycslparis.github.io/diffariff-companion/

cs.AI: LVBench：一个极端长视频理解基准测试

原标题: LVBench: An Extreme Long Video Understanding Benchmark

作者: Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang

机构: 清华大学北京大学

摘要: 最近在多模态大语言模型方面取得的进展显著增强了对短视频（通常在一分钟以下）的理解，并相应出现了几个评估数据集。然而，这些进展未能满足现实世界应用的需求，例如长期决策的具体智能、深入的电影评论和讨论，以及现场体育评论，所有这些都需要理解涵盖数小时的长视频。为了填补这一空白，我们引入了 LVBench，这是一个专门为长视频理解而设计的基准测试。我们的数据集包括公开获取的视频，涵盖了一系列旨在进行长视频理解和信息提取的任务。LVBench旨在挑战多模态模型展示长期记忆和扩展理解能力。我们的广泛评估显示，当前的多模态模型在这些要求苛刻的长视频理解任务上仍表现不佳。通过LVBench，我们旨在推动开发更先进的模型，能够应对长视频理解的复杂性。我们的数据和代码可在以下网址公开获取：this https URL。

论文链接: https://arxiv.org/pdf/2406.08035

Github: https://lvbench.github.io

cs.AI: 在混合动机环境中通过分层对手建模和规划实现高效适应

原标题: Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

作者: Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng

机构: 清华大学中国科学院

摘要: 尽管多智能体强化学习（MARL）算法最近取得了成功，但在混合动机环境中高效地适应协作者仍然是一个重大挑战。一种可行的方法是基于推断他们的特征来分层建模协作者的行为。然而，这些方法通常在有效推理和利用推断信息方面遇到困难。为了解决这些问题，我们提出了分层对手建模和规划（HOP）算法，这是一种新颖的多智能体决策算法，可以在混合动机环境中实现对未见策略的少样本适应。HOP分层地由两个模块组成：一个对手建模模块，推断他人的目标并学习相应的目标条件策略，以及一个规划模块，利用蒙特卡洛树搜索（MCTS）来确定最佳响应。我们的方法通过跨和在每个情节内更新关于他人目标的信念，并利用对手建模模块的信息来指导规划，从而提高了效率。实验结果表明，在混合动机环境中，HOP在与各种未见代理互动时表现出优越的少样本适应能力，并在自我对弈场景中表现出色。此外，在我们的实验中出现的社会智能的出现强调了我们方法在复杂多智能体环境中的潜力。

论文链接: https://arxiv.org/pdf/2406.08002

cs.AI: 感知更少，生成更多：使用遮蔽自编码器为超高效的3D感知预训练LiDAR感知

原标题: Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing

作者: Sina Tayebati, Theja Tulabandhula, Amit R. Trivedi

摘要: 在这项工作中，我们提出了一种颠覆性的节俭型激光雷达感知数据流，该数据流生成而不是感知环境中那些要么基于环境的广泛训练是可预测的，要么对整体预测准确性影响有限的部分。因此，所提出的方法在感知能量和训练数据之间进行权衡，以便低功率机器人和自主导航能够节俭地使用传感器，在单次电池充电中延长它们的寿命。我们提出的用于此目的的生成式预训练策略，称为径向遮罩自编码（R-MAE），也可以通过在现场操作期间选择性激活和控制激光器功率，针对随机生成的角度区域，在典型激光雷达系统中轻松实现。我们的广泛评估表明，使用R-MAE进行预训练使得能够专注于数据的径向部分，从而比传统程序更有效地捕捉对象之间的空间关系和距离。因此，所提出的方法不仅减少了感知能量，还提高了预测准确性。例如，我们在Waymo、nuScenes和KITTI数据集上进行的广泛评估显示，该方法在各数据集的检测任务中实现了超过5%的平均精度提升，并在从Waymo和nuScenes到KITTI的领域转移中实现了超过4%的准确性提升。在3D对象检测方面，在KITTI数据集的中等难度级别上，它将小对象检测的AP提高了高达4.37%。即使在90%径向遮罩的情况下，它在Waymo数据集的所有对象类别中将基线模型的mAP/mAPH提高了高达5.59%。此外，我们的方法在nuScenes数据集上分别实现了高达3.17%和2.31%的mAP和NDS提升，展示了它在单个和融合的激光雷达-摄像头模态下的有效性。

论文链接: https://arxiv.org/pdf/2406.07833

Github: https://github.com/sinatayebati/Radial_MAE

cs.AI: 更少的 Token 和更少的视频：在大视觉-语言模型中扩展视频理解能力

原标题: Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models

作者: Shimin Chen, Yitian Yuan, Shaoxiang Chen, Zequn Jie, Lin Ma

机构: 浙江大学福建大学南京大学 Meituan Inc.

摘要: 在基于图像的大视觉语言模型（图像-LVLM）不断取得进展的同时，向基于视频的模型（视频-LVLM）的过渡受到了质量视频数据有限的限制。本文通过利用图像和视频之间的视觉共性，有效地将图像-LVLM发展为视频-LVLM来解决这一挑战。我们提出了一种成本效益高的视频-LVLM，增强了模型架构，引入了创新的训练策略，并确定了最有效的视频指导数据类型。我们的创新加权标记采样器显著压缩了每个视频帧的视觉标记数量，有效地减少了计算开销。我们还发现，在各种训练阶段中，与先前的视频-LVLM相比，明智地使用仅占视频数据的10%就能取得令人印象深刻的结果。此外，我们深入探讨了在资源有限环境中视频指导数据的影响，强调了纳入强调时间理解的视频训练数据以增强模型性能的重要性。由此产生的更少标记和更少视频LVLM（FTFV-LVLM）在视频和图像基准测试中表现出色，验证了我们模型的设计和训练方法的有效性。

论文链接: https://arxiv.org/pdf/2406.08024

cs.AI: 多目标强化学习的最大最小形式化：从理论到无模型算法

原标题: The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm

作者: Giseung Park, Woohyeon Byeon, Seongmin Kim, Elad Havakuk, Amir Leshem, Youngchul Sung

机构: 1. 韩国科学技术研究院 2. Ben-Gurion大学

摘要: 在这篇论文中，我们考虑多目标强化学习，在许多具有多个优化目标的现实世界问题中出现。我们采用一个着重于多个目标之间公平性的最大-最小框架来解决这个问题，并在最大-最小框架下开发了相关理论和一个实用的无模型算法。所提出的理论在多目标强化学习方面提供了理论上的进展，而所提出的算法则表现出明显优于现有基准方法的性能提升。

论文链接: https://arxiv.org/pdf/2406.07826

Github: https://github.com/giseung-park/maxmin-morl

cs.AI: 利用深度网络进行多智能体强化学习，用于多样化的 Q-向量

原标题: Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors

作者: Zhenglong Luo, Zhiyong Chen, James Welsh

机构: 清华大学华为

摘要: 多智能体强化学习（MARL）已成为一个重要的研究课题，因为它能够促进在复杂环境中的学习。在多智能体任务中，状态-动作值，通常称为Q值，可能因为各自的奖励而在智能体之间产生差异，导致一个Q向量。确定最优策略具有挑战性，因为这不仅涉及最大化单个Q值。在这个背景下，已经研究了各种最优策略，比如纳什均衡。像纳什Q学习和纳什演员-评论家这样的算法在这些场景中显示出了有效性。本文通过提出一种能够使用Max、Nash和Maximin策略学习各种Q向量的深度Q网络（DQN）算法来扩展这项研究。这种方法的有效性在一个环境中得到了证明，在这个环境中，双机械臂协作举起一个锅。

论文链接: https://arxiv.org/pdf/2406.07848

cs.AI: 2.5D多视角平均扩散模型用于3D医学图像翻译：应用于无CT衰减校正的低计数PET重建

原标题: 2.5D Multi-view Averaging Diffusion Model for 3D Medical Image Translation: Application to Low-count PET Reconstruction with CT-less Attenuation Correction

作者: Tianqi Chen, Jun Hou, Yinchi Zhou, Huidong Xie, Xiongchao Chen, Qiong Liu, Xueqi Guo, Menghua Xia, James S. Duncan, Chi Liu, Bo Zhou

机构: 耶鲁大学，加州大学尔湾分校，西北大学

摘要: 正电子发射断层扫描（PET）是一种重要的临床成像工具，但不可避免地会给患者和医护人员带来辐射危害。减少示踪剂注射剂量并消除用于衰减校正的CT采集可以降低总辐射剂量，但通常会导致PET具有高噪声和偏差。因此，开发3D方法将非衰减校正低剂量PET（NAC-LDPET）转换为衰减校正标准剂量PET（AC-SDPET）是可取的。最近，扩散模型已经成为一种新的最先进的基于深度学习的图像到图像翻译方法，优于传统的基于CNN的方法。然而，由于高计算成本和内存负担，它在很大程度上局限于2D应用。为了解决这些挑战，我们开发了一种新颖的2.5D多视角平均扩散模型（MADM）用于3D图像到图像的翻译，应用于NAC-LDPET到AC-SDPET的翻译。具体而言，MADM采用轴向、冠状和矢状视图的单独扩散模型，这些模型的输出在每个采样步骤中进行平均，以确保从多个视图获得的3D生成质量。为了加速3D采样过程，我们还提出了一种策略，即将基于CNN的3D生成用作扩散模型的先验。我们在人体患者研究中的实验结果表明，MADM可以生成高质量的3D翻译图像，优于先前的基于CNN和基于扩散的基准方法。

论文链接: https://arxiv.org/pdf/2406.08374

cs.AI: 进化计算与可解释人工智能：通往透明智能系统的路线图

原标题: Evolutionary Computation and Explainable AI: A Roadmap to Transparent Intelligent Systems

作者: Ryan Zhou, Jaume Bacardit, Alexander Brownlee, Stefano Cagnoni, Martin Fyvie, Giovanni Iacca, John McCall, Niki van Stein, David Walker, Ting Hu

机构: Queen’s University Newcastle University University of Stirling University of Parma Robert Gordon University University of Trento Universiteit Leiden University of Exeter

摘要: AI 方法正在找到越来越多的应用，但它们通常的黑盒特性引发了人们对问责和信任的担忧。可解释人工智能（XAI）领域应运而生，以满足人类对AI模型理解的需求。作为一类强大的优化和学习工具家族，进化计算（EC）在为XAI做出贡献方面具有重要潜力。在本文中，我们介绍了XAI，并审查了当前用于解释机器学习（ML）模型的各种技术。然后，我们重点讨论了EC在XAI中的应用，并审查了一些融合EC技术的XAI方法。此外，我们讨论了XAI原则在EC本身内的应用，探讨了这些原则如何能够揭示EC算法的行为和结果，以及这些算法的（自动）配置，以及这些算法优化的基础问题领域。最后，我们讨论了XAI中的一些挑战和利用EC开展未来研究的机会。我们的目标是证明EC非常适合解决当前的可解释性问题，并鼓励进一步探索这些方法，以促进更透明和可信赖的ML模型和EC算法的发展。

论文链接: https://arxiv.org/pdf/2406.07811

cs.AI: 开放目标：具有细粒度理解的开放词汇对象级神经辐射场

原标题: OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding

作者: Yinan Deng, Jiahui Wang, Jingyu Zhao, Jianyu Dou, Yi Yang, Yufeng Yue

机构: 清华大学

摘要: 近年来，人们对由视觉语言模型（VLMs）促进的开放词汇 3D 场景重建表现出了极大的兴趣，这些模型在开放集检索中展示出了卓越的能力。然而，现有方法面临一些限制：它们要么专注于学习点对点的特征，导致模糊的语义理解，要么仅处理对象级重建，从而忽视了对象内部复杂的细节。为了解决这些挑战，我们引入了 OpenObj，这是一种创新方法，用于构建具有细粒度理解的开放词汇对象级神经辐射场（NeRF）。实质上，OpenObj 建立了一个强大的框架，用于在对象级别进行高效且无缝的场景建模和理解。此外，我们将部分级特征纳入神经场中，实现了对对象内部的微妙表示。这种方法在保持细粒度理解的同时捕获了对象级实例。在多个数据集上的结果表明，OpenObj 在零样本语义分割和检索任务中实现了卓越的性能。此外，OpenObj 支持多个尺度的现实世界机器人任务，包括全局移动和局部操作。

论文链接: https://arxiv.org/pdf/2406.08009

Github: https://github.com/BIT-DYN/OpenObj

cs.AI: EmoSphere-TTS：通过球形情感向量进行情感风格和强度建模，实现可控情感文本转语音。

原标题: EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech

作者: Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee

机构: 韩国大学、韩国国立大学

摘要: 尽管情感文本转语音（TTS）领域取得了快速进展，但最近的研究主要集中在模仿特定情感的平均风格上。因此，操纵语音情感的能力仍然局限于几个预定义的标签，损害了反映情感微妙变化的能力。在本文中，我们提出了EmoSphere-TTS，通过使用球形情感向量来控制合成语音的情感风格和强度，从而合成富有表现力的情感语音。在没有任何人类注释的情况下，我们使用唤醒度、愉悦度和支配性伪标签来通过笛卡尔-球形变换模拟情感的复杂性质。此外，我们提出了一个双条件对抗网络，通过反映多方面特征来提高生成语音的质量。实验结果表明，该模型能够控制情感风格和强度，生成高质量的富有表现力的语音。

论文链接: https://arxiv.org/pdf/2406.07803

cs.AI: 从社会认知的角度看：基于上下文的视觉社会关系识别

原标题: From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition

作者: Shiwei Wu, Chao Zhang, Joya Chen, Tong Xu, Likang Wu, Yao Hu, Enhong Chen

摘要: 人们的社会关系通常通过他们的周围环境来体现，某些物体或互动作为特定关系的象征，例如结婚戒指、玫瑰、拥抱或牵手。这给识别社会关系带来了独特的挑战，需要理解和捕捉这些上下文的本质特征从视觉外观中。然而，当前的社会关系理解方法依赖于检测到的人和物体的基本分类范式，这种方法无法理解全面的上下文，经常忽视决定性的社会因素，尤其是微妙的视觉线索。为了突出社会感知上下文和复杂细节，我们提出了一种新方法，从社会认知的角度识别\textbf{Con}textual \textbf{So}cial \textbf{R}elationships（\textbf{ConSoR}）。具体来说，为了融入社会感知语义，我们在冻结的CLIP上构建了一个轻量级适配器，通过我们的新型多模态侧适配器调整机制学习社会概念。此外，我们为每个图像构建了社会感知描述性语言提示（例如场景、活动、物体、情绪）与社会关系，然后通过视觉-语言对比迫使ConSoR更加集中地关注决定性的视觉社会因素。令人印象深刻的是，ConSoR在People-in-Social-Context（PISC）数据集上比以前的方法提高了12.2%，在People-in-Photo-Album（PIPA）基准上增加了9.8%。此外，我们观察到ConSoR擅长发现关键的视觉证据来揭示社会关系。

论文链接: https://arxiv.org/pdf/2406.08358

cs.AI: 使用类关联嵌入的图像分类器准确解释模型

原标题: Accurate Explanation Model for Image Classifiers using Class Association Embedding

作者: Ruitao Xie, Jingbang Chen, Limai Jiang, Rui Xiao, Yi Pan, Yunpeng Cai

机构: 深圳市高级技术研究院中国科学院中国科学院大学深圳市智能生物信息学重点实验室

摘要: 图像分类是数据分析中的一个主要任务，在各种应用中，可解释的模型是至关重要的。尽管已经提出了大量方法来从黑盒分类器中获取可解释知识，但这些方法缺乏提取有关分类任务的全局知识的效率，因此容易受到局部陷阱的影响，通常导致准确性较差。在这项研究中，我们提出了一个生成式解释模型，结合了全局和局部知识的优势，用于解释图像分类器。我们开发了一种称为类关联嵌入（CAE）的表示学习方法，它将每个样本编码为一对分离的与类相关和个体代码。将给定样本的个体代码与改变的类相关代码重新组合，可以生成一个保留个体特征但修改了类相关特征并可能翻转类别分配的合成真实样本。提出了一种基于构建块一致性的特征提取算法，有效地将类相关特征与个体特征分离开。提取的特征空间形成一个低维流形，可视化分类决策模式。然后可以通过连续修改样本的方式，在一个方向上移动其类相关代码沿着引导路径，直到其分类结果发生变化，从而实现对每个个体样本的解释。我们将我们的方法与最先进的方法进行了比较，以解释图像分类任务的显著性图，证明我们的方法实现了更高的准确性。代码可在此 https URL 中找到。

论文链接: https://arxiv.org/pdf/2406.07961

Github: https://github.com/xrt11/XAI-CODE

cs.AI: 利用 GenAI 进行高等教育：检索增强生成聊天机器人对人类学习影响的研究

原标题: Harnessing GenAI for Higher Education: A Study of a Retrieval Augmented Generation Chatbot’s Impact on Human Learning

作者: Maung Thway, Jose Recatala-Gomez, Fun Siong Lim, Kedar Hippalgaonkar, Leonard W. T. Ng

机构: 空间材料科学与工程学院

摘要: 生成人工智能（GenAI）和大语言模型（LLMs）的出现为增强人类学习打开了新的途径。这项研究介绍了Leodar教授，一个定制的、会说新加坡英语的检索增强生成（RAG）聊天机器人，旨在增强本科工程学生的教育支持。在新加坡南洋理工大学部署的Leodar教授展示了AI辅助学习未来的一瞥，提供个性化指导、全天候可用性和相关背景信息。通过混合方法，我们揭示了Leodar教授对学生学习、参与度和考试准备的影响，其中97.1%的参与者报告了积极的体验。这些发现有助于定义AI在教育中可能扮演的角色，并突显了定制GenAI聊天机器人的潜力。我们结合了聊天机器人开发、课堂部署和学习结果研究，为GenAI教育工具设定了一个基准，并作为重新定义AI与人类学习相互作用的垫脚石。

论文链接: https://arxiv.org/pdf/2406.07796

cs.AI: 2024年SaTML LLM夺旗比赛的数据集和经验教训

原标题: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition

作者: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr

机构: ETH Zurich CISPA Helmholtz Center for Information Security West University of Timisoara New York University Microsoft Zurich University of the Arts

摘要: 大语言模型系统面临来自恶意制作的消息的重要安全风险，这些消息旨在覆盖系统的原始指令或泄露私人数据。为了研究这个问题，我们在 IEEE SaTML 2024 组织了一场夺旗比赛，其中旗帜是 LLM 系统提示中的秘密字符串。比赛分为两个阶段。在第一阶段，团队开发了防御措施，以防止模型泄露秘密。在第二阶段，团队被挑战去提取其他团队提出的防御中隐藏的秘密。本报告总结了比赛的主要见解。值得注意的是，我们发现所有的防御措施至少被绕过一次，突显了设计成功防御的困难性以及保护LLM系统需要额外研究的必要性。为了促进未来在这个方向上的研究，我们编制了一个包含超过137k个多轮攻击对话的数据集，并开源了平台。

论文链接: https://arxiv.org/pdf/2406.07954

cs.AI: DocSynthv2：一种用于文档生成的实用自回归建模

原标题: DocSynthv2: A Practical Autoregressive Modeling for Document Generation

作者: Sanket Biswas, Rajiv Jain, Vlad I. Morariu, Jiuxiang Gu, Puneet Mathur, Curtis Wigington, Tong Sun, Josep Lladós

机构: Computer Vision Center, UAB, Spain Adobe Research

摘要: 尽管文档布局的生成已经得到广泛探讨，但包含布局和内容的全面文档生成提出了一个更为复杂的挑战。本文深入探讨了这一高级领域，通过开发一种简单而有效的自回归结构模型，提出了一种名为DocSynthv2的新方法。我们的模型在整合布局和文本线索方面独具特色，标志着超越现有布局生成方法的一步。通过专注于文档中结构元素与文本内容之间的关系，我们旨在生成具有连贯性和上下文相关性的文档，而无需依赖视觉组件。通过对我们为新任务精心策划的基准进行实验研究，我们展示了我们的模型在结合布局和文本信息方面提高文档生成质量和相关性的能力，为文档创建和自动化设计的研究开辟了新的途径。我们的研究结果强调了自回归模型在处理复杂文档生成任务中的有效性。

论文链接: https://arxiv.org/pdf/2406.08354

cs.AI: 分层神经网络，p-递 PDEs，以及在图像处理中的应用

原标题: Hierarchical Neural Networks, p-Adic PDEs, and Applications to Image Processing

作者: W. A. Zúñiga-Galindo, B. A. Zambrano-Luna, Baboucarr Dibba

机构: University of Texas Rio Grande Valley University of Alberta

摘要: 这篇文章的第一个目标是介绍一种带有延迟的新型p-临界反应扩散细胞神经网络。我们研究这些网络的稳定性，并提供它们响应的数值模拟。第二个目标是快速回顾p-临界细胞神经网络的最新技术和它们在图像处理中的应用。

论文链接: https://arxiv.org/pdf/2406.07790

cs.AI: Ents: 一种通过通信优化实现决策树高效三方训练的框架

原标题: Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization

作者: Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao

机构: 复旦大学华为技术公司

摘要: 基于安全多方计算的决策树多方训练框架使多方能够在分布式私有数据上进行高性能模型训练，并实现隐私保护。训练过程主要涉及根据分裂标准（例如Gini不纯度）频繁地对数据集进行分裂。然而，现有的决策树多方训练框架存在通信效率低下的问题：（1）在安全地分裂具有连续属性的数据集时，它们遭受巨大的通信开销。（2）由于几乎所有计算都在一个大环上进行以适应分裂标准的安全计算，它们遭受巨大的通信开销。
在本文中，我们受到通信优化的启发，提出了一种名为Ents的高效三方训练框架，用于决策树。针对第一个问题，我们提出了一系列基于安全基数排序协议的训练协议，以便高效且安全地分裂具有连续属性的数据集。针对第二个问题，我们提出了一种高效的份额转换协议，用于在小环和大环之间转换份额，以减少几乎所有计算都在大环上进行而带来的通信开销。来自八个广泛使用的数据集的实验结果表明，Ents在通信大小上的表现优于最先进的框架 $5.5\times \sim 9.3\times$ ，在通信轮数上优于 $3.9\times \sim 5.3\times$ 。在训练时间方面，Ents提高了 $3.5\times \sim 6.7\times$ 。为了证明其实用性，Ents在广泛使用的真实世界数据集（皮肤分割）上进行安全训练所需时间不到三小时，该数据集包含超过245,000个样本，并处于WAN设置中。

论文链接: https://arxiv.org/pdf/2406.07948

cs.AI: 连续时间数字孪生体与模拟Memristive神经常微分方程求解器

原标题: Continuous-Time Digital Twin with Analogue Memristive Neural Ordinary Differential Equation Solver

作者: Hegan Chen, Jichang Yang, Jia Chen, Songqi Wang, Shaocong Wang, Dingchen Wang, Xinyu Tian, Yifei Yu, Xi Chen, Yinan Lin, Yangu He, Xiaoshan Wu, Yi Li, Xinyuan Zhang, Ning Lin, Meng Xu, Yi Li, Xumeng Zhang, Zhongrui Wang, Han Wang, Dashan Shang, Qi Liu, Kwang-Ting Cheng, Ming Liu

机构: 香港大学中国科学院中国科学院大学华中科技大学

摘要: 数字孪生体，工业4.0的基石，通过计算机模型复制真实世界实体，革新制造管理和工业自动化等领域。最近机器学习的进展提供了基于数据驱动的方法，利用离散时间数据和有限深度模型在数字计算机上开发数字孪生体。然而，这种方法无法捕捉基础连续动态，并且在建模复杂系统行为方面存在困难。此外，数字计算机的架构，具有分离的存储和处理单元，需要频繁的数据传输和模拟-数字（A/D）转换，从而显著增加时间和能源成本。在这里，我们介绍了一种用于数字孪生体的记忆电阻神经常微分方程（ODE）求解器，能够捕捉连续时间动态，并利用无限深度模型便于建模复杂系统。通过在模拟性记忆电阻器阵列中集成存储和计算，我们规避了冯·诺伊曼瓶颈，从而提高了速度和能源效率。我们通过开发HP记忆电阻器的数字孪生体来实验验证我们的方法，准确推断其非线性动态，实现了与最先进数字硬件相比的4.2倍预期加速和41.4倍预期能耗降低，同时保持了可接受的误差范围。此外，我们通过实验基础的Lorenz96动态模拟展示了可扩展性，展示了相对于传统数字方法的速度和能效方面的预期性能改进，速度提高了12.6倍，能源效率提高了189.7倍。通过利用完全模拟计算的能力，我们的突破加速了数字孪生体的发展，提供了一个高效快速的解决方案，以满足工业4.0的需求。

论文链接: https://arxiv.org/pdf/2406.08343

cs.AI: DLLens: 通过大语言模型辅助合成测试深度学习库

原标题: DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis

作者: Meiziniu Li, Dongze Li, Jianmeng Liu, Jialun Cao, Yongqiang Tian, Shing-Chi Cheung

机构: 香港科技大学

摘要: 测试是确保深度学习（DL）库质量的主要方法。现有的测试技术通常采用差分测试来减轻测试 Oracle 构建的需求。然而，这些技术在寻找提供相同功能的实现和生成差分测试的多样化测试输入方面存在局限性。本文介绍了 DLLens，一种用于 DL 库测试的新型差分测试技术。我们的见解是，不同 DL 库中的 API 通常设计用于完成相同一组已发布 DL 算法的各种计算。尽管这些 API 的映射通常不是一对一的，但我们观察到在适当的组合和适应之后，它们的计算可以相互模拟。利用这些模拟对应物有助于差分测试以检测功能性 DL 库错误。借助这一见解，我们提出 DLLens 作为一种利用大语言模型（LLM）合成 DL 库 API 的有效对应物的新机制。为了生成多样化的测试输入，DLLens 结合了一种静态分析方法，借助 LLM 从每个 API 及其对应实现的所有执行路径中提取路径约束。然后，这些路径约束被用于引导多样化测试输入的生成。我们在两个流行的 DL 库 TensorFlow 和 PyTorch 上评估了 DLLens。我们的评估显示，DLLens 可以为这些库上比现有技术发现的 API 多合成两倍以上的对应物。此外，DLLens 可以提取 26.7% 更多的约束，并检测到比现有技术多 2.5 倍的错误。DLLens 已成功在最近的 TensorFlow 和 PyTorch 库中发现了 56 个错误。其中，有 41 个是之前未知的，其中 39 个在报告后得到开发人员确认，其中 19 个已被开发人员修复。

论文链接: https://arxiv.org/pdf/2406.07944

cs.AI: 数据工程管道工具概览

原标题: A Survey of Pipeline Tools for Data Engineering

作者: Anthony Mbata, Yaji Sripada, Mingjun Zhong

机构: 阿伯丁大学

摘要: 目前，数据工程领域提供了各种流水线工具供使用。数据科学家可以利用这些工具解决与数据相关的数据整理问题，并完成从数据摄取到数据准备再到作为机器学习（ML）输入的一些数据工程任务。其中一些工具具有基本的内置组件，或者可以与其他工具结合使用以执行所需的数据工程操作。虽然有些工具完全或部分是商业化的，但也有几个开源工具可用于执行专业水平的数据工程任务。本调查根据设计和数据工程意图，审视了基于这些流水线工具的广泛类别和示例。这些类别包括提取转换加载/提取加载转换（ETL/ELT）、数据集成、摄取和转换的流水线、数据流水线编排和工作流管理，以及机器学习流水线。调查还提供了这些广泛类别内的利用概述和示例，并最终提供了一个讨论，其中包括使用案例展示了流水线工具在数据工程中的用途。这些研究展示了一些初次用户的应用经验，使用示例数据，应用流水线的一些复杂性，以及使用这些工具为机器学习准备数据的方法总结。

论文链接: https://arxiv.org/pdf/2406.08335

cs.AI: 一个用于信号调制识别深度学习模型的通用层剪枝方法

原标题: A Generic Layer Pruning Method for Signal Modulation Recognition Deep Learning Models

作者: Yao Lu, Yutao Zhu, Yuqi Li, Dongwei Xu, Yun Lin, Qi Xuan, Xiaoniu Yang

摘要: 随着深度学习在通信系统中的成功应用，深度神经网络正成为信号分类的首选方法。尽管这些模型产生了令人印象深刻的结果，但它们通常具有较高的计算复杂性和庞大的模型大小，这阻碍了它们在通信系统中的实际部署。为了解决这一挑战，我们提出了一种新颖的层剪枝方法。具体地，我们将模型分解为几个连续的块，每个块包含具有相似语义的连续层。然后，我们根据它们的贡献确定需要在每个块内保留的层。最后，我们重新组装修剪过的块并微调紧凑模型。对五个数据集进行的大量实验表明，我们的方法在各种最新基准线上（包括层剪枝和通道剪枝方法）表现出了高效性和有效性。

论文链接: https://arxiv.org/pdf/2406.07929

cs.AI: ProTrain: 通过内存感知技术实现高效的大语言模型训练

原标题: ProTrain: Efficient LLM Training via Memory-Aware Techniques

作者: Hanmei Yang, Jin Zhou, Yao Fu, Xiaoqun Wang, Ramine Roane, Hui Guan, Tongping Liu

机构: University of Massachusetts Amherst, Advanced Micro Devices, Inc.

摘要: 训练大语言模型（LLM）需要极大的内存消耗。为了解决这个问题，现有的工作利用CPU和GPU的组合进行训练过程，例如ZeRO-Offload。这种技术在很大程度上使十亿规模模型训练民主化，使得用少量消费级显卡进行训练成为可能。然而，根据我们的观察，现有框架通常提供粗粒度的内存管理，并需要经验丰富的专家进行配置调优，导致硬件利用率和性能不佳。本文提出了ProTrain，一种智能平衡内存使用和性能的新型训练系统，通过协调内存、计算和IO来实现。ProTrain通过基于块的模型状态管理和基于块的激活管理实现自适应内存管理，由内存感知运行时分析器指导，无需用户干预。ProTrain不改变训练算法，因此不会影响准确性。实验证明，与SOTA训练系统相比，ProTrain将训练吞吐量提高了1.43倍至2.71倍。

论文链接: https://arxiv.org/pdf/2406.08334

cs.AI: 高效神经网络常邻居用于时序图链接预测

原标题: Efficient Neural Common Neighbor for Temporal Graph Link Prediction

作者: Xiaohui Zhang, Yanbo Wang, Xiyuan Wang, Muhan Zhang

机构: 北京大学人工智能研究所

摘要: 时间图在现实场景中是无处不在的，比如社交网络、贸易和交通领域。预测时间图中节点之间的动态链接至关重要。传统方法通常利用交互历史的时间邻域来首先生成节点嵌入，然后聚合源节点和目标节点的嵌入以预测链接。然而，这些方法侧重于学习单个节点表示，但忽视了链接预测的成对表示学习特性，未能捕捉链接的重要成对特征，如共同邻居（CN）。受静态图链接预测中神经共同邻居（NCN）成功的启发，我们提出了 TNCN，这是用于时间图中链接预测的 NCN 的时间版本。TNCN 动态更新每个节点的时间邻居字典，并利用源节点和目标节点之间的多跳共同邻居来学习更有效的成对表示。我们在来自时间图基准（TGB）的五个大规模真实数据集上验证了我们的模型，并发现它在其中三个上实现了新的最先进性能。此外，TNCN 在大型数据集上展现出出色的可扩展性，在速度上比流行的 GNN 基准模型表现提升了高达 6.4 倍。我们的代码可在 https://github.com/GraphPKU/TNCN 上找到。

论文链接: https://arxiv.org/pdf/2406.07926

cs.AI: 这一切都关乎公关——使用性能代表智能基准加速器

原标题: It’s all about PR – Smart Benchmarking AI Accelerators using Performance Representatives

作者: Alexander Louis-Ferdinand Jung, Jannik Steinmetz, Jonathan Gietz, Konstantin Lübeck, Oliver Bringmann

机构: 图宾根大学

摘要: 统计模型被广泛用于估计商用现成的人工智能硬件加速器的性能。然而，训练统计性能模型通常需要大量数据，这导致需要大量时间投入，并且在硬件有限的情况下可能会很困难。为了缓解这个问题，我们提出了一种新颖的性能建模方法，可以显著减少训练样本数量，同时保持良好的准确性。我们的方法利用目标硬件架构的知识和初始参数扫描，识别出深度神经网络（DNN）层的一组性能代表（PR）。然后，这些性能代表用于基准测试、构建统计性能模型和进行估算。这种有针对性的方法大大减少了所需的训练样本数量，与随机抽样相反，以实现更好的估算准确性。我们在单层估算中实现了低至0.02%的平均绝对百分比误差（MAPE），在少于10000个训练样本的情况下，整个DNN估算的MAPE为0.68%。结果表明，与使用相同大小的随机抽样数据集训练的模型相比，我们的方法在单层估算方面表现出了优越性。

论文链接: https://arxiv.org/pdf/2406.08330

cs.AI: CTC对齐的音频文本嵌入用于流式开放词汇关键词检测

原标题: CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting

作者: Sichen Jin, Youngmoon Jung, Seungjin Lee, Jaeyoung Roh, Changwoo Han, Hoonyoung Cho

机构: Samsung Research

摘要: 这篇论文介绍了一种新颖的方法，用于使用基于文本的关键词注册进行流式开放词汇关键词识别（KWS）。对于每个输入帧，所提出的方法使用连接主义时间分类（CTC）找到以该帧结尾的最佳对齐，并聚合帧级声学嵌入（AE）以获得更高级别（即字符、单词或短语）的AE，该AE与目标关键词文本的文本嵌入（TE）对齐。之后，我们计算聚合AE和TE的相似性。据我们所知，这是首次尝试动态地在运行时对齐音频和关键词文本，以获得用于KWS的联合音频文本嵌入。尽管以流式方式运行，我们的方法在LibriPhrase数据集上实现了与非流式方法竞争性能相当的表现，仅使用了155K个模型参数和一个时间复杂度为O(U)的解码算法，其中U是推断时目标关键词的长度。

论文链接: https://arxiv.org/pdf/2406.07923

cs.AI: ICE-G：3D 高斯斑点的图像条件编辑

原标题: ICE-G: Image Conditional Editing of 3D Gaussian Splats

作者: Vishnu Jaganathan, Hannah Hanyun Huang, Muhammad Zubair Irshad, Varun Jampani, Amit Raj, Zsolt Kira

机构: 佐治亚理工学院丰田研究所 Stability AI 谷歌研究

摘要: 最近出现了许多技术来创建高质量的3D资产和场景。然而，在编辑这些对象时，现有方法要么速度慢，要么在质量上有所妥协，要么不能提供足够的定制。我们引入了一种新颖的方法，可以快速编辑一个3D模型，只需一个参考视图。我们的技术首先对编辑图像进行分割，然后使用DINO特征在所选的分割数据集视图之间匹配语义对应的区域。然后，可以以一种语义上合理的方式将编辑图像的特定区域的颜色或纹理更改自动应用到其他视图中。这些编辑后的视图作为更新后的数据集，用于进一步训练和重新设计3D场景。因此，最终结果是一个经过编辑的3D模型。我们的框架可以实现各种编辑任务，如手动局部编辑，基于对应关系的样式转移，以及从多个示例图像中组合不同样式。我们使用高斯斑点作为我们的主要3D表示，因为它们速度快，易于局部编辑，但我们的技术也适用于其他方法，如NeRFs。通过多个示例，我们展示了我们的方法产生了更高质量的结果，同时提供了编辑的精细控制。项目页面：this http URL

论文链接: https://arxiv.org/pdf/2406.08488

Github: http://ice-gaussian.github.io

cs.AI: 针对表格数据合成的因果关系：一个高阶结构因果基准框架

原标题: Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework

作者: Ruibo Tu, Zineb Senane, Lele Cao, Cheng Zhang, Hedvig Kjellström, Gustav Eje Henter

机构: 北京大学清华大学

摘要: 表格综合模型仍然无法有效捕捉复杂的依赖关系，合成数据的质量对于诸如在分布转移下的预测、自动决策和跨表理解等全面的下游任务仍然不足。一个主要挑战是缺乏关于表格数据中潜在结构和高阶关系的先验知识。我们认为，对表格数据综合的高阶结构信息进行系统评估是解决问题的第一步。在本文中，我们将高阶结构因果信息作为自然先验知识引入，并为表格综合模型的评估提供了一个基准框架。该框架使我们能够生成具有灵活数据生成过程范围的基准数据集，并使用这些数据集训练表格综合模型以进行进一步评估。我们提出了多个基准任务、高阶度量和因果推断任务作为评估经过训练模型生成的合成数据质量的下游任务。我们的实验表明，利用基准框架评估模型捕捉高阶结构因果信息的能力。此外，我们的基准结果提供了对最先进的表格综合模型的初步评估。它们清楚地揭示了理想性能和实际性能之间的显著差距以及基准方法的差异。我们的基准框架可在此 URL 上获得。

论文链接: https://arxiv.org/pdf/2406.08311

Github: https://github.com/TURuibo/CauTabBench

cs.AI: 在分离的潜在 MDP 中的近似最优学习和规划

原标题: Near-Optimal Learning and Planning in Separated Latent MDPs

作者: Fan Chen, Constantinos Daskalakis, Noah Golowich, Alexander Rakhlin

机构: 麻省理工学院 Archimedes AI

摘要: 我们研究学习潜在马尔可夫决策过程（LMDPs）的计算和统计方面。在这个模型中，学习者与每个时期开始时从未知MDP混合物中抽取的MDP进行交互。为了规避已知的不可能结果，我们考虑了几种成分MDP分离的概念。本文的主要重点在于建立一个几乎尖锐的统计阈值，以便进行高效学习所需的时间长度。在计算方面，我们展示了在对最优策略下的可分离性的较弱假设下，存在一个时间复杂度与统计阈值成比例的准多项式算法。我们进一步展示了在指数时间假设下的近匹配时间复杂度下界。

论文链接: https://arxiv.org/pdf/2406.07920

cs.AI: 通过PDFA学习分析受限LLM

原标题: Analyzing constrained LLM through PDFA-learning

作者: Matías Carrasco, Franz Mayr, Sergio Yovine, Johny Kidd, Martín Iturbide, Juan Pedro da Silva, Alejo Garat

机构: Facultad de Ingeniería, Universidad ORT Uruguay

摘要: 我们定义了一个与空的下一个符号概率相关的同余关系，当语言模型的输出在文本生成过程中受到某种约束时，这种概率就会出现。我们开发了一个算法，用于有效地学习关于这种同余关系的商，并在案例研究中对LLM的统计属性进行评估。

论文链接: https://arxiv.org/pdf/2406.08269

cs.AI: RMem: 限制性内存银行改进视频对象分割

原标题: RMem: Restricted Memory Banks Improve Video Object Segmentation

作者: Junbao Zhou, Ziqi Pang, Yu-Xiong Wang

机构: 伊利诺伊大学香槟分校

摘要: 最近，随着视频对象分割（VOS）基准测试演变为具有挑战性的场景，我们重新审视了一种简单但被忽视的策略：限制记忆库的大小。这与扩大记忆库以容纳大量历史信息的普遍做法不同。我们特别设计的“记忆解密”研究提供了支撑这种策略的关键见解：扩大记忆库，虽然表面上有益，但实际上增加了VOS模块解码相关特征的难度，因为冗余信息会导致混淆。通过将记忆库限制在有限数量的关键帧上，我们在VOS准确性方面取得了显著改进。这个过程平衡了帧的重要性和新鲜度，以在有界容量内维护一个信息丰富的记忆库。此外，与持续扩展相比，受限制的记忆库减少了训练推理中记忆长度的差异。这为时间推理带来了新的机会，并使我们能够引入先前被忽视的“时间位置嵌入”。最后，我们的见解体现在“RMem”（“R”代表受限制）中，这是一种简单而有效的VOS修改，在具有挑战性的VOS场景中表现出色，并为对象状态变化（在VOST数据集上）和长视频（在长视频数据集上）建立了新的技术水平。我们的代码和演示可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.08476

Github: https://restricted-memory.github.io/

cs.AI: 对“分裂联邦自监督学习”的深入剖析

原标题: A deep cut into Split Federated Self-supervised Learning

作者: Marcin Przewięźlikowski, Marcin Osial, Bartosz Zieliński, Marek Śmieja

机构: Jagiellonian University IDEAS NCBR

摘要: 协作自监督学习最近在高度分布式环境中变得可行，通过在客户端设备和中央服务器之间划分网络层。然而，诸如MocoSFL等最先进的方法是针对初始层的网络划分进行优化的，这降低了客户数据的保护程度并增加了通信开销。本文中，我们展示了在分布式训练中，分割深度对于保持隐私和通信效率至关重要。我们还表明，MocoSFL在最小通信开销下存在灾难性的质量下降。为此，我们引入了动量对齐对比分割联邦学习（MonAcoSFL），在训练过程中对在线和动量客户模型进行对齐。因此，我们在显著减少通信开销的同时实现了最先进的准确性，使MonAcoSFL在实际场景中更加实用。

论文链接: https://arxiv.org/pdf/2406.08267

Github: https://github.com/gmum/monacosfl

cs.AI: 图传导式防御：一种用于图成员推断攻击的两阶段防御

原标题: Graph Transductive Defense: a Two-Stage Defense for Graph Membership Inference Attacks

作者: Peizhi Niu, Chao Pan, Siheng Chen, Olgica Milenkovic

机构: 上海交通大学伊利诺伊大学香槟分校上海人工智能实验室

摘要: 图神经网络（GNNs）已经成为各种现实世界应用中的重要工具，为社交网络和医疗数据分析等任务提供了强大的图学习能力。尽管取得了成功，但GNNs容易受到对抗性攻击的影响，包括成员推断攻击（MIA），这种攻击通过识别一条记录是否是模型训练数据的一部分来威胁隐私。尽管现有研究已经在图归纳学习设置下探讨了GNNs中的MIA，但更常见且具有挑战性的图传导学习设置在这方面仍未得到充分研究。本文填补了这一空白，并提出了一种有效的两阶段防御方法，即面向图传导学习特征的图传导防御（GTD）。我们方法的要点是结合了训练-测试交替训练计划和平坦化策略，成功地减少了训练和测试损失分布之间的差异。大量实证结果表明，我们的方法性能优越（相对于LBP，攻击AUROC减少了9.42％，效用性能平均提高了18.08％），突显了其在各种分类模型中实现无缝集成的潜力，且开销最小。

论文链接: https://arxiv.org/pdf/2406.07917

cs.AI: Real2Code: 通过代码生成重建关节对象

原标题: Real2Code: Reconstruct Articulated Objects via Code Generation

作者: Zhao Mandi, Yijia Weng, Dominik Bauer, Shuran Song

机构: Stanford University Columbia University

摘要: 我们提出了Real2Code，这是一种通过代码生成重建关节对象的新方法。给定对象的视觉观察，我们首先使用图像分割模型和形状完成模型重建其部分几何结构。然后，我们用定向边界框表示对象部分，这些边界框是输入到经过精调的大语言模型（LLM）以预测关节关节代码的。通过利用预训练的视觉和语言模型，我们的方法可以优雅地扩展到关节部分的数量，并且可以从合成训练数据推广到非结构化环境中的真实世界对象。实验结果表明，Real2Code在重建准确性方面明显优于先前的最先进技术，并且是第一个能够超越训练集中对象结构复杂性的方法，并且可以重建具有多达10个关节部分的对象。当与立体重建模型结合时，Real2Code还可以从少量多视角RGB图像泛化到真实世界对象，而无需深度或相机信息。

论文链接: https://arxiv.org/pdf/2406.08474

cs.AI: 基于消融的反事实数据

原标题: Ablation Based Counterfactuals

作者: Zheng Dai, David K Gifford

机构: 麻省理工学院 Massachusetts Institute of Technology

摘要: 扩散模型是一类生成模型，能够生成高质量样本，但目前很难表征它们如何依赖于它们的训练数据。这种困难引发了科学和监管方面的问题，是扩散模型及其采样过程复杂性的结果。为了分析这种依赖关系，我们引入了基于消融的反事实分析（ABC），这是一种依赖于模型消融而不是模型重新训练的反事实分析方法。在我们的方法中，我们在训练集的不同但有重叠的拆分上训练模型的独立组件。然后将这些组件组合成一个单一模型，通过消融模型组件的组合可以消除任何训练样本的因果影响。我们演示了如何使用一组扩散模型构建这样的模型。然后我们使用这个模型来研究训练数据归因的极限，通过列举完整的反事实景观，展示了随着训练数据规模增加，单一来源的可归因性减弱。最后，我们展示了不可归因样本的存在。

论文链接: https://arxiv.org/pdf/2406.07908

cs.AI: 使用深度卷积神经网络来检测视频游戏中的渲染故障

原标题: Using Deep Convolutional Neural Networks to Detect Rendered Glitches in Video Games

作者: Carlos Garcia Ling, Konrad Tollmar, Linus Gisslen

机构: KTH Royal Institute of Technology, SEED - Electronic Arts (EA)

摘要: 在这篇论文中，我们提出了一种使用深度卷积神经网络（DCNNs）来检测视频游戏中常见故障的方法。问题设置包括将一幅图像（800x800 RGB）作为输入，被分类为五个定义好的类别之一，即正常图像，或者四种不同类型的故障（拉伸、低分辨率、缺失和占位纹理）之一。我们使用监督方法训练了一个使用生成数据的ShuffleNetV2。这项工作侧重于检测纹理图形异常，在准确率达到86.8%的情况下取得了可观的性能，能够检测出88%的故障，误报率为8.7%，并且模型能够泛化并检测出甚至是未见过的对象中的故障。我们还应用了置信度度量来解决误报问题，以及一种有效的图像聚合方法来实现更好的生产中检测。这项工作的主要用途是在视频游戏开发的最后阶段部分自动化图形测试。

论文链接: https://arxiv.org/pdf/2406.08231

cs.AI: 何时技能有助于强化学习？时间抽象的理论分析

原标题: When Do Skills Help Reinforcement Learning? A Theoretical Analysis of Temporal Abstractions

作者: Zhening Li, Gabriel Poesia, Armando Solar-Lezama

机构: 麻省理工学院 Massachusetts Institute of Technology MIT

摘要: 技能是一种暂时的抽象，旨在通过分层强化学习（RL）来提高性能。尽管我们对使技能有用的环境属性有直觉，但对其进行精确描述尚未出现。我们提供了第一个这样的描述，重点关注确定性技能在具有有限动作空间的确定性稀疏奖励环境中的效用。我们从理论和经验上展示，从技能中获得的RL性能提升在解决状态的可压缩性较低的环境中更差。额外的理论结果表明，技能对探索的益处大于对从现有经验中学习的益处，并且使用诸如宏动作之类的不具表达力的技能可能会降低RL性能。我们希望我们的发现可以引导自动技能发现的研究，并帮助RL从业者更好地决定何时以及如何使用技能。

论文链接: https://arxiv.org/pdf/2406.07897

Github: https://github.com/uranium11010/rl-skill-theory

cs.AI: DafnyBench：一个用于形式化软件验证的基准测试

原标题: DafnyBench: A Benchmark for Formal Software Verification

作者: Chloe Loughridge, Qinyi Sun, Seth Ahrenbach, Federico Cassano, Chuyue Sun, Ying Sheng, Anish Mudide, Md Rakib Hossain Misu, Nada Amin, Max Tegmark

机构: 哈佛大学麻省理工学院东北大学斯坦福大学加利福尼亚大学尔湾分校

摘要: 我们介绍了 DafnyBench，这是目前用于训练和评估机器学习系统进行形式化软件验证的最大基准测试。我们测试了诸如 GPT-4 和 Claude 3 等大语言模型自动生成足够的提示，以使 Dafny 形式验证引擎成功验证超过750个约53,000行代码的程序的能力。最佳模型和提示方案实现了68%的成功率，我们量化了在使用错误消息反馈重试时此成功率如何提高，以及在所需代码和提示量增加时如何恶化。我们希望 DafnyBench 能够促进从这个基准开始的快速改进，随着大语言模型和验证技术的质量不断提高。

论文链接: https://arxiv.org/pdf/2406.08467

Github: https://github.com/sun-wendy/dafnybench

cs.AI: 有限时间分析折扣MDP中均值方差的时序差分学习

原标题: Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP

作者: Tejaram Sangadi, L. A. Prashanth, Krishna Jagannathan

机构: 印度理工学院马德拉斯分校

摘要: 受风险敏感强化学习场景的启发，我们考虑折现奖励马尔可夫决策过程（MDP）中方差的策略评估问题。针对这个问题，文献中存在一种具有线性函数逼近（LFA）的时间差分（TD）类型学习算法，尽管对于这个算法只有渐近保证。我们推导出有限样本界，这些界在均方意义上成立；并且在采用尾部迭代平均时以及不采用正则化时，这些界在高概率下成立。我们的界展示了初始误差的指数衰减，而整体界为 $O (1/ t)$ ，其中 $t$ 是TD算法的更新迭代次数。此外，正则化TD变体的界适用于通用步长。我们的界为在折现MDP中进行均值-方差优化的演员-评论家算法分析开辟了途径。

论文链接: https://arxiv.org/pdf/2406.07892

cs.AI: DistilDoc：用于视觉丰富文档应用的知识蒸馏

原标题: DistilDoc: Knowledge Distillation for Visually-Rich Document Applications

作者: Jordy Van Landeghem, Subhajit Maity, Ayan Banerjee, Matthew Blaschko, Marie-Francine Moens, Josep Lladós, Sanket Biswas

机构: KU Leuven, Contract.fit, Computer Vision Center, Universitat Autònoma de Barcelona

摘要: 这项工作探讨了知识蒸馏（KD）在视觉丰富文档（VRD）应用中的应用，例如文档布局分析（DLA）和文档图像分类（DIC）。虽然VRD研究依赖于越来越复杂和繁琐的模型，但该领域忽视了通过模型压缩来研究效率。在这里，我们设计了一种KD实验方法，用于在文档理解（DU）任务中设计更精简、高性能的模型，这些任务在更大的任务流水线中是至关重要的。我们精心选择了KD策略（基于响应、基于特征）来将知识从具有不同架构（ResNet、ViT、DiT）和容量（基础、小型、微型）的主干网络中提取和蒸馏。我们研究了什么因素影响了师生知识差距，并发现一些方法（调整后的普通KD、均方误差、具有适当投影仪的SimKD）可以始终优于监督式学生训练。此外，我们设计了下游任务设置，评估了协变量转移以及零样本布局感知文档视觉问答（DocVQA）上蒸馏的DLA模型的稳健性。DLA-KD实验导致了较大的mAP知识差距，这不可预测地转化为下游的稳健性，突显了进一步探索如何有效获取更多语义文档布局意识的需求。

论文链接: https://arxiv.org/pdf/2406.08226

cs.AI: 使用基于RNN、随机森林和XGBoost的分类建模：以东盟五国股市早期崩盘检测为例。

原标题: Classification Modeling with RNN-Based, Random Forest, and XGBoost for Imbalanced Data: A Case of Early Crash Detection in ASEAN-5 Stock Markets

作者: Deri Siswara, Agus M. Soleh, Aji Hamim Wigena

机构: IPB大学

摘要: 这项研究旨在评估几种循环神经网络（RNN）架构的性能，包括Simple RNN、门控循环单元（GRU）和长短期记忆（LSTM），并将它们与传统算法如随机森林和XGBoost在构建用于东盟五国股市早期崩盘检测的分类模型中进行比较。该研究使用不平衡数据进行检验，这是由于市场崩盘的罕见性而普遍存在的。该研究分析了2010年至2023年间东盟五国主要股市的每日数据，包括印度尼西亚、马来西亚、新加坡、泰国和菲律宾。当主要股价指数跌破5%、2.5%和1%的风险价值（VaR）阈值时，将市场崩盘确定为目标变量。预测因素涉及主要本地和全球市场以及大宗商品市场的技术指标。该研究包括213个预测因子及其相应的滞后期（5、10、15、22、50、200），并使用时间步长为7，将总预测因子数量扩展至1491。数据不平衡的挑战通过SMOTE-ENN得到解决。结果显示，所有基于RNN的架构均优于随机森林和XGBoost。在各种RNN架构中，Simple RNN表现出色，主要是由于数据特征并不过于复杂，更注重短期信息。该研究通过纳入不同地理区域和时间段以及方法上的调整，增强和扩展了以往研究中观察到的现象范围。

论文链接: https://arxiv.org/pdf/2406.07888

cs.AI: 用社会技术视角评估计算机视觉模型：关于检测和推理性别和情绪的案例研究

原标题: A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion

作者: Sha Luo, Sang Jung Kim, Zening Duan, Kaiping Chen

机构: 威斯康星大学麦迪逊分校艾奥瓦大学

摘要: 在不断发展的计算机视觉（CV）技术领域中，对图像中性别和情绪的自动检测和解释是一个关键研究领域。本文调查了CV模型中的社会偏见，强调了传统评估指标（如精确度、召回率和准确度）的局限性。这些指标通常无法捕捉到性别和情绪的复杂性，因为它们是流动的、具有文化细微差别的构建。我们的研究提出了一个用于评估CV模型的社会技术框架，结合了技术性能指标和社会公平考虑。我们使用了一个包含5,570张与疫苗接种和气候变化相关的图像数据集，从实证角度比较了各种CV模型的性能，包括传统模型如DeepFace和FER，以及生成模型如GPT-4 Vision。我们的分析涉及手动验证图像子集中的性别和情绪表达，作为基准。我们的研究结果显示，虽然GPT-4 Vision在性别分类的技术准确度方面优于其他模型，但在对跨性别和非二元人物的反应中存在歧视性偏见。此外，该模型的情绪检测严重偏向于积极情绪，尤其在受到男性人物提示时，女性图像与快乐的关联偏见明显。这些发现强调了制定更全面的评估标准的必要性，这些标准既考虑了CV模型的有效性，也考虑了歧视性偏见。我们提出的框架为研究人员提供了指导，以批判性评估CV工具，确保它们在传播研究中的应用既符合伦理，又有效。本研究的重要贡献在于强调了一种社会技术方法，倡导支持社会利益并减少偏见的CV技术，而不是使其持续存在。

论文链接: https://arxiv.org/pdf/2406.08222

cs.AI: 小规模无数据知识蒸馏

原标题: Small Scale Data-Free Knowledge Distillation

作者: He Liu, Yikai Wang, Huaping Liu, Fuchun Sun, Anbang Yao

机构: 清华大学中国电信云技术有限公司 Intel中国实验室

摘要: 无需数据知识蒸馏能够利用大型教师网络学到的知识，增强较小学生网络的训练，而无需访问原始训练数据，在真实应用中避免隐私、安全和专有风险。在这一研究领域中，现有方法通常遵循一个反转和蒸馏范式，其中一个生成对抗网络在预先训练的教师网络的指导下实时训练，用于合成一个大规模样本集以进行知识蒸馏。在本文中，我们重新审视这种常见的无数据知识蒸馏范式，表明通过“小规模反转数据用于知识蒸馏”的视角，有相当大的改进整体训练效率的空间。鉴于三个经验观察表明在数据反转和蒸馏过程中如何平衡类别分布的重要性，以及合成样本的多样性和难度，我们提出了小规模无数据知识蒸馏 SSD-KD。在制定上，SSD-KD引入了一个调节函数来平衡合成样本，以及一个优先采样函数来选择适当的样本，借助动态重放缓冲区和强化学习策略。因此，SSD-KD可以在极小规模的合成样本条件下进行蒸馏训练（例如，比原始训练数据规模少10倍），使整体训练效率比许多主流方法快一个或两个数量级，同时保持出色或具有竞争力的模型性能，如在流行的图像分类和语义分割基准上所展示的。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.07876

Github: https://github.com/OSVAI/SSD-KD

cs.AI: 使用对话者嵌入的对抗性扰动进行异步语音匿名化

原标题: Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding

作者: Rui Wang, Liping Chen, Kong AiK Lee, Zhen-Hua Ling

机构: 中国科学技术大学

摘要: 语音匿名化已经作为一种技术被开发出来，通过用伪造说话者的声音替换语音信号中的说话者的声音，从而模糊原始声音属性，使机器识别和人类感知难以辨认。本文关注改变声音属性以抵御机器识别，同时保留人类感知。我们将此称为异步声音匿名化。为此，采用了一个包含说话者解缠机制的语音生成框架来生成匿名化的语音。通过对说话者嵌入应用对抗性扰动来改变说话者属性，同时通过控制扰动的强度来保留人类感知。在LibriSpeech数据集上进行的实验表明，60.71%的处理后语音中说话者属性被模糊化，同时保留了人类感知。

论文链接: https://arxiv.org/pdf/2406.08200

cs.AI: 碳市场模拟与自适应机制设计

原标题: Carbon Market Simulation with Adaptive Mechanism Design

作者: Han Wang, Wenhao Li, Hongyuan Zha, Baoxiang Wang

机构: 中国香港中文大学深圳、Vector Institute

摘要: 碳市场是一种基于市场的工具，激励经济主体将个人利润与全球效用保持一致，即减少碳排放以应对气候变化。“定额交易”作为一项关键原则，基于分配和交易碳配额（碳排放配额），使经济主体遵循计划的排放量并对超额排放进行惩罚。中央机构负责在定额交易中引入和分配这些配额。然而，碳市场动态的复杂性使得准确模拟变得棘手，进而阻碍了有效分配策略的设计。为了解决这个问题，我们提出了一种自适应机制设计框架，使用分层、无模型的多智能体强化学习（MARL）来模拟市场。政府机构分配碳配额，而企业从事经济活动和碳交易。这个框架全面展示了智能体的行为。数值结果显示，MARL使政府机构能够平衡生产力、平等性和碳排放。

论文链接: https://arxiv.org/pdf/2406.07875

Github: https://github.com/xwanghan/Carbon-Simulator

cs.AI: 神经盲源分离和远场语音识别的语音分离和辨认

原标题: Neural Blind Source Separation and Diarization for Distant Speech Recognition

作者: Yoshiaki Bando, Tomohiko Nakamura, Shinji Watanabe

机构: 国家先进科学技术研究所（AIST），日本卡内基梅隆大学，美国

摘要: 这篇论文提出了一种用于远场语音识别（DSR）的神经方法，可以在没有通过隔离信号进行监督的情况下同时分离和记录语音混合。用于多人谈话 DSR 的标准分离方法是一种称为引导源分离（GSS）的统计多通道方法。虽然 GSS 不需要信号级别的监督，但它依赖说话者记录结果来处理未知数量的活跃说话者。为了克服这一限制，我们以弱监督的方式引入并训练了一个神经推理模型，采用了统计分离方法的客观函数。这种训练只需要多通道混合和说话者活动的时间注释。与 GSS 相比，训练好的模型可以在没有任何辅助信息的情况下同时分离和记录语音混合。AMI 语料库的实验表明，我们的方法在单词错误率方面优于具有 oracle 记录结果的 GSS。代码可在网上找到。

论文链接: https://arxiv.org/pdf/2406.08396

cs.AI: 揭示小波的力量：基于小波的 Kolmogorov-Arnold 网络用于高光谱图像分类

原标题: Unveiling the Power of Wavelets: A Wavelet-based Kolmogorov-Arnold Network for Hyperspectral Image Classification

作者: Seyd Teymoor Seydi

机构: IEEE

摘要: 高光谱图像分类是一项至关重要但具有挑战性的任务，这是由于高光谱数据固有的高维度和复杂的空间-光谱相关性。本文采用基于小波的科尔莫戈洛夫-阿诺德网络（Wav-KAN）架构，专为有效建模这些复杂依赖关系而设计。受科尔莫戈洛夫-阿诺德表示定理启发，Wav-KAN将小波函数作为可学习的激活函数，实现对输入光谱特征的非线性映射。基于小波的激活机制使Wav-KAN能够通过扩张和平移有效捕获多尺度空间和光谱模式。在三个基准高光谱数据集（Salinas、Pavia、Indian Pines）上的实验评估显示，与传统的多层感知器（MLPs）和最近提出的基于样条的KAN（Spline-KAN）模型相比，Wav-KAN表现出卓越的性能。在这项工作中，我们正在：（1）在额外的高光谱数据集（Pavia University、WHU-Hi和Urban Hyperspectral Image）上进行更多实验，以进一步验证Wav-KAN的泛化能力；（2）开发多分辨率的Wav-KAN架构，以捕获尺度不变特征；（3）分析降维技术对分类性能的影响；（4）探索调整KAN模型超参数的优化方法；以及（5）将Wav-KAN与高光谱图像分类中其他最先进的模型进行比较。

论文链接: https://arxiv.org/pdf/2406.07869

cs.AI: 连续的假新闻检测：将深度伪造检测器调整到新的生成技术

原标题: Continuous fake media detection: adapting deepfake detectors to new generative techniques

作者: Francesco Tassone, Luca Maiano, Irene Amerini

机构: Sapienza University of Rome Ubiquitous srl

摘要: 生成技术继续以令人印象深刻的速度发展，受到对这些技术的炒作推动。尽管科学界做出了许多努力，但这种快速进步严重限制了深度伪造检测器的应用，这些检测器难以在不断变化的内容中实现足够强大的性能。为了解决这些限制，在本文中，我们提出了对短序列和长序列的两种连续学习技术进行分析。这两个序列都包括从GAN、计算机图形技术和未知来源生成的复杂和异构的深度伪造。我们的研究表明，持续学习在减少对泛化能力的需求方面可能很重要。事实上，我们表明，尽管存在一些限制，持续学习方法有助于在整个训练序列中保持良好的性能。然而，为了使这些技术以足够强大的方式工作，有必要让序列中的任务具有相似性。事实上，根据我们的实验，任务的顺序和相似性会影响模型随时间的性能。为了解决这个问题，我们表明可以根据任务的相似性对其进行分组。这一小措施甚至可以在更长的序列中实现显著改进。这一结果表明，连续技术可以与最有前途的检测方法相结合，使它们能够跟上最新的生成技术。除此之外，我们提出了如何将这种学习方法整合到深度伪造检测管道中进行持续集成和持续部署（CI/CD）的概述。这使您可以跟踪不同的资金，如社交网络、新的生成工具或第三方数据集，并通过持续学习的整合，实现对检测器的持续维护。

论文链接: https://arxiv.org/pdf/2406.08171

cs.AI: 探究半梯度 Q-learning 中的隐性偏见：通过福克-普朗克方程可视化有效损失景观

原标题: Probing Implicit Bias in Semi-gradient Q-learning: Visualizing the Effective Loss Landscapes via the Fokker–Planck Equation

作者: Shuyu Yin, Fei Wen, Peilin Liu, Tao Luo

摘要: 半梯度 Q-learning 在许多领域中得到应用，但由于缺乏显式损失函数，研究其在参数空间中的动态和隐含偏差具有挑战性。本文介绍了福克-普朗克方程，并利用通过抽样获得的部分数据来构建和可视化二维参数空间内的有效损失景观。这种可视化揭示了损失景观中的全局最小值如何在有效损失景观中转变为鞍点，以及半梯度方法的隐含偏差。此外，我们证明了鞍点，源自损失景观中的全局最小值，在高维参数空间和神经网络设置下仍存在于有效损失景观中。本文开发了一种探究半梯度 Q-learning 隐含偏差的新方法。

论文链接: https://arxiv.org/pdf/2406.08148

cs.AI: 让我们来真实交谈：面对面对话的口语对话模型

原标题: Let’s Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

作者: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeong Hun Yeo, Yong Man Ro

机构: KAIST

摘要: 在这篇论文中，我们介绍了一种新颖的面对面口语对话模型。它处理用户输入的音频-视觉语音，并生成音频-视觉语音作为响应，标志着朝着创建一个无需依赖中间文本的阿凡达聊天机器人系统迈出了初始步伐。为此，我们新引入了MultiDialog，这是第一个包含约340小时约9,000个对话的大规模多模态（即音频和视觉）口语对话语料库，根据开放域对话数据集TopicalChat记录而成。MultiDialog包含根据给定脚本并带有情感标注的对话伙伴的平行音频-视觉录音，我们期望这将为多模态合成开辟研究机会。我们的面对面口语对话模型融合了一个经过文本预训练的大语言模型，并通过融合语音-文本联合预训练将其调整到音频-视觉口语对话领域。通过大量实验，我们验证了我们的模型在促进面对面对话方面的有效性。演示和数据分别可在此https URL和此https URL找到。

论文链接: https://arxiv.org/pdf/2406.07867

Github: https://multidialog.github.io

cs.AI: 在AutoML环境中对预测性能的置信区间估计

原标题: Confidence Interval Estimation of Predictive Performance in the Context of AutoML

作者: Konstantinos Paraschakis, Andrea Castellani, Giorgos Borboudakis, Ioannis Tsamardinos

机构: JADBio Gnosis DA S.A. Honda Research Institute Europe GmbH

摘要: 任何监督式机器学习分析都需要提供一个对样本外预测性能的估计。然而，除了提供一个点估计外，还必须提供关于这种性能不确定性的量化，以置信区间（CI）的形式。在AutoML设置中，由于“赢家的诅咒”，即由于交叉验证多个机器学习流程并选择获胜者而导致的估计偏差，估计CI是具有挑战性的。在这项工作中，我们对AutoML设置中对一组真实和模拟数据集进行CI估计的9种最先进方法和变体进行了比较评估。这些方法在包含百分比（95% CI是否至少95%的时间包含真实性能）、CI紧密度（更紧密的CI更具信息性）和执行时间方面进行了比较。该评估是第一个涵盖大多数（如果不是全部）这类方法并将先前工作扩展到不平衡和小样本任务的评估。此外，我们提出了一种现有方法的变体，称为BBC-F（Bootstrap Bias Correction的变体），它保持了BBC的统计特性，但更具计算效率。结果表明，BBC-F和BBC在所有测量指标上都优于其他方法。

论文链接: https://arxiv.org/pdf/2406.08099

cs.AI: FaithFill: 使用单个参考图像进行对象完整性修复的忠实修复

原标题: FaithFill: Faithful Inpainting for Object Completion Using a Single Reference Image

作者: Rupayan Mallick, Amr Abdalla, Sarah Adel Bargal

摘要: 我们提出了FaithFill，一种基于扩散的修复对象完成方法，用于实现缺失对象部分的逼真生成。通常，需要多个参考图像才能实现这种逼真生成，否则生成的结果将无法忠实地保留形状、纹理、颜色和背景。在这项工作中，我们提出了一个流程，仅利用单个输入参考图像 - 其中包含不同的光照、背景、对象姿势和/或视角。这个单一的参考图像用于生成待修复对象的多个视图。我们展示了FaithFill从单个参考图像生成对象缺失部分的忠实生成，同时保留背景/场景，这是通过标准相似度度量、人类判断和GPT评估来证明的。我们的结果是在DreamBooth数据集和一个新提出的数据集上展示的。

论文链接: https://arxiv.org/pdf/2406.07865

cs.AI: 基于时空一致性的脉冲神经网络自蒸馏学习

原标题: Self-Distillation Learning Based on Temporal-Spatial Consistency for Spiking Neural Networks

作者: Lin Zuo, Yongqi Ding, Mengmeng Jing, Kunshan Yang, Yunqian Yu

机构: 中国电子科技大学信息与软件工程学院

摘要: 脉冲神经网络（SNNs）因其事件驱动、低功耗特性和高生物可解释性而受到广泛关注。受知识蒸馏（KD）的启发，最近的研究通过预训练的教师模型改善了SNN模型的性能。然而，额外的教师模型需要大量计算资源，并且手动定义适当的教师网络架构很繁琐。本文探讨了SNN的经济自蒸馏学习，以规避这些问题。在没有明确定义的教师的情况下，SNN生成伪标签并在训练过程中学习一致性。一方面，我们在训练过程中延长SNN的时间步长，创建一个隐式时间“教师”，指导原始“学生”的学习，即时间自蒸馏。另一方面，我们通过SNN的最终输出指导中间阶段的弱分类器的输出，即空间自蒸馏。我们的时空自蒸馏（TSSD）学习方法不会引入任何推理开销，并具有出色的泛化能力。对静态图像数据集CIFAR10/100和ImageNet以及神经形态数据集CIFAR10-DVS和DVS-Gesture的大量实验验证了TSSD方法的优越性能。本文提出了一种将SNN与KD融合的新颖方式，为高性能SNN学习方法提供了见解。

论文链接: https://arxiv.org/pdf/2406.07862

cs.AI: CFG++：流形约束分类器自由引导扩散模型

原标题: CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models

作者: Hyungjin Chung, Jeongsol Kim, Geon Yeong Park, Hyelin Nam, Jong Chul Ye

机构: KAIST

摘要: 无分类器指导（CFG）是现代扩散模型中用于文本引导生成的基本工具。尽管有效，但CFG存在明显的缺点。例如，具有CFG的DDIM缺乏可逆性，使图像编辑复杂化；此外，对于高质量输出至关重要的高指导比例经常导致诸如模式崩溃之类的问题。与普遍认为这些是扩散模型固有限制相反，本文揭示了问题实际上源自与CFG相关的离流形现象，而不是扩散模型本身。更具体地说，受到扩散模型为基础的逆问题求解器（DIS）最近进展的启发，我们将文本引导重新构建为一个具有文本条件评分匹配损失的逆问题，并开发了CFG++，这是一种新颖方法，解决了传统CFG中固有的离流形挑战。CFG++具有对CFG的惊人简单修复，但它提供了显著的改进，包括文本到图像生成的更好样本质量，可逆性，较小的指导比例，减少模式崩溃等。此外，CFG++使得在较低指导比例下无条件和有条件采样之间实现无缝插值，始终优于所有比例下的传统CFG。实验结果证实，我们的方法显著提升了文本到图像生成、DDIM反演、编辑和解决逆问题的性能，表明在利用文本指导的各个领域中具有广泛影响和潜在应用。项目页面：此处的链接。

论文链接: https://arxiv.org/pdf/2406.08070

Github: https://cfgpp-diffusion.github.io/

cs.AI: 通过视觉运动链预测扩展操作学习

原标题: Scaling Manipulation Learning with Visual Kinematic Chain Prediction

作者: Xinyu Zhang, Yuhan Liu, Haonan Chang, Abdeslam Boularias

摘要: 从各种数据集中学习通用模型在机器学习领域取得了巨大成功。然而，在机器人领域，现有的多任务学习方法通常局限于单个机器人和工作空间，而最近的工作（如RT-X）则需要一个非平凡的动作归一化过程，手动弥合不同环境中不同动作空间之间的差距。在本文中，我们提出视觉运动链作为机器人学习在不同环境中的准静态动作的精确和通用表示，这不需要手动调整，因为视觉运动链可以从机器人的模型和摄像头参数中自动获取。我们提出了视觉运动变换器（VKT），这是一种无卷积的架构，支持任意数量的摄像头视角，并且通过最优点集匹配的单一目标进行训练，以预测运动结构。我们展示了VKT在Calvin、RLBench、Open-X和真实机器人操作任务上作为通用智能体的卓越性能。视频演示可以在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.07837

Github: https://mlzxy.github.io/visual-kinetic-chain

cs.AI: 探索-前进：利用探索在深度强化学习中实现泛化

原标题: Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning

作者: Max Weltevrede, Felix Kaubek, Matthijs T.J. Spaan, Wendelin Böhmer

机构: 代尔夫特理工大学

摘要: 在强化学习中仍然存在的挑战之一是开发能够泛化到可能在部署后遇到的新场景的智能体。这一挑战通常在多任务设置中提出，其中智能体在固定一组任务上训练，并且必须泛化到新任务。最近的研究表明，在这种设置中，训练过程中增加探索可以被利用来提高智能体的泛化性能。当在测试过程中遇到的状态实际上可以在训练过程中被探索时，这是有道理的。在本文中，我们提供了探索为什么也可以有助于泛化到在训练过程中无法明确遇到的状态的直觉。此外，我们提出了一种利用这种直觉的新方法 Explore-Go，通过增加智能体训练的状态数量来实现。Explore-Go有效地增加了智能体的起始状态分布，因此可以与大多数现有的在线或离线强化学习算法结合使用。我们通过实验证明，我们的方法可以在一个说明性环境和 Procgen 基准测试中提高泛化性能。

论文链接: https://arxiv.org/pdf/2406.08069

如果想您想查看常用AI工具的中文文档，可以使用 www.aidoczh.com，里面有Langchain、Milvus等工具的官方文档的中文翻译。

数智笔记

关注

27
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024年6月13日Arxiv人工智能相关论文

我们提出了扩散汤（Diffusion Soup），这是一种用于文本到图像生成的分隔方法，它对在分片数据上训练的扩散模型的权重进行平均。通过构造，我们的方法实现了无需训练的持续学习和遗忘，而且没有额外的内存或推理成本，因为与数据分片对应的模型可以通过重新平均来添加或移除。我们展示了扩散汤从权重空间中的一个点进行采样，该点近似于各个数据集分布的几何平均，这提供了反记忆保证并实现了零样本风格混合。
复制链接

扫一扫