2024年7月16日Arxiv人工智能相关论文

生成智能体:具有行为提示扩散的通用策略网络生成器

原标题: Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

作者: Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu

机构: 马里兰大学 学院公园 清华大学 加利福尼亚大学圣地亚哥分校 上海启智研究院 上海人工智能实验室

摘要: 我们能否仅凭所需行为的一个演示作为提示来为智能体生成控制策略,就像从文本描述中创建图像一样轻松?在本文中,我们提出了Make-An-Agent,这是一个利用条件扩散模型的力量进行行为到策略生成的新型策略参数生成器。在行为嵌入的指导下,编码轨迹信息,我们的策略生成器合成潜在参数表示,然后可以解码为策略网络。在策略网络检查点和相应轨迹上进行训练后,我们的生成模型展示了在多个任务上的出色的多功能性和可扩展性,并且在看不见的任务上具有强大的泛化能力,仅以少量样本演示作为输入输出表现良好的策略。我们展示了它在各种领域和任务上的功效和效率,包括不同目标、行为,甚至跨不同机器人操作器的情况。除了模拟,我们还直接将Make-An-Agent生成的策略部署到真实世界的机器人上进行运动任务。

论文链接: https://arxiv.org/abs/2407.10973

通过事实图像检索解决文本到图像生成中的图像幻觉问题

原标题: Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

作者: Youngsun Lim, Hyunjung Shim

机构: 金斗智人工智能研究生院,韩国科学技术院

摘要: 文本到图像生成在扩散模型的出现下取得了显著进展。然而,这些模型通常生成事实不一致的图像,未能准确反映输入文本提示传达的事实信息和常识。我们将这个问题称为图像幻觉。借鉴语言模型幻觉研究,我们将这个问题分类为三种类型,并提出一种方法,利用从外部来源检索的事实图像来生成逼真的图像。根据幻觉的性质,我们使用现成的图像编辑工具InstructPix2Pix或IP-Adapter,以利用从检索到的图像中获取的事实信息。这种方法能够生成准确反映事实和常识的图像。

论文链接: https://arxiv.org/abs/2407.10683

GuideLight: “工业解决方案”指导更实用的交通信号控制智能体

原标题: GuideLight: “Industrial Solution” Guidance for More Practical Traffic Signal Control Agents

作者: Haoyuan Jiang, Xuantang Xiong, Ziyue Li, Hangyu Mao, Guanghu Sui, Jingqing Ruan, Yuheng Cheng, Hua Wei, Wolfgang Ketter, Rui Zhao

机构: 清华大学 西安交通大学 德克特大学

摘要: 目前,基于强化学习(RL)的交通信号控制(TSC)方法已被证明优于传统方法。然而,大多数RL方法在现实世界中应用时面临三个因素的困难:输入、输出和循环流关系。工业界可观察到的输入远远不及基于模拟的RL方法。对于真实世界的解决方案,只能可靠地收集流量,而常见的RL方法需要更多的信息。对于输出动作,大多数RL方法侧重于非循环控制,而真实世界的信号控制器不支持这种方式。最重要的是,工业标准要求一致的循环流关系:对于低、中、高水平流量,需要非递减和不同的响应策略,而这些是RL方法所忽视的。为了缩小RL方法和工业标准之间的差距,我们提出了创新性的方法,即利用工业解决方案来指导RL智能体。具体来说,我们设计了行为克隆和课程学习,以指导智能体模仿并满足工业要求,并同时利用RL中的探索和利用的能力以获得更好的性能。我们在理论上证明了这种指导可以大大降低在搜索最优策略时的样本复杂度,使其多项式级别。我们的严格实验表明,我们的方法具有良好的循环流关系和优越的性能。

论文链接: https://arxiv.org/abs/2407.10811

Ref-AVS:在音频-视觉场景中引用和分割对象

原标题: Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

作者: Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

机构: 中国人民大学高灵人工智能学院 北京邮电大学 上海人工智能实验室 Engineering Research Center of Next-Generation Search and Recommendation

摘要: 传统的参考分割任务主要关注无声的视觉场景,忽视了多模态感知和互动在人类体验中的重要作用。在这项工作中,我们引入了一项名为参考音频-视觉分割(Ref-AVS)的新任务,旨在基于包含多模态线索的表达来对视觉领域内的对象进行分割。这些表达以自然语言形式表达,但又丰富了多模态线索,包括音频和视觉描述。为了促进这项研究,我们构建了第一个Ref-AVS基准,为相应的多模态线索表达中描述的对象提供了像素级注释。为了解决Ref-AVS任务,我们提出了一种新方法,充分利用多模态线索来提供精确的分割指导。最后,我们对三个测试子集进行定量和定性实验,将我们的方法与相关任务中现有方法进行比较。结果表明我们的方法的有效性,突出了其利用多模态线索表达精确分割对象的能力。数据集可在\href{this https URL}{this https URL}获得。

论文链接: https://arxiv.org/abs/2407.10957

Github: https://gewu-lab.github.io/Ref-AVS

加强建筑安全设计,针对主动枪击事件:利用基于强化学习的模拟探索建筑出口参数。

原标题: Enhancing Building Safety Design for Active Shooter Incidents: Exploration of Building Exit Parameters using Reinforcement Learning-Based Simulations

作者: Ruying Liu, Wanjing Wu, Burcin Becerik-Gerber, Gale M. Lucas

机构: 南加州大学

摘要: 随着美国活动射击事件(ASI)的急剧增加,通过建筑设计提升公共安全已成为一个迫切的需求。本研究提出了一种基于强化学习的模拟方法,解决了现有研究中忽视了射击者动态行为的差距。我们开发了一个自主智能体,在一个真实的办公环境中模拟了一个活动射击者,旨在提供建筑设计参数与ASI结果之间互动的见解。通过案例研究,定量调查了建筑物出口数量(可访问出口总数)和配置(哪些出口可用或不可用的安排)对疏散和伤害率的影响。研究结果表明,更多的出口可用性显著改善了疏散结果并减少了伤害。离射击者初始位置更近的出口比离得更远的出口更重要。通过包含动态射击者行为,本研究提供了针对不断演变的威胁的有效建筑安全设计的初步见解。

论文链接: https://arxiv.org/abs/2407.10441

FabGPT:一种用于复杂晶圆缺陷知识查询的高效大型多模态模型

原标题: FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries

作者: Yuqi Jiang, Xudong Lu, Qian Jin, Qi Sun, Hanming Wu, Cheng Zhuo

机构: 浙江大学

摘要: 智能是推动集成电路(IC)制造的关键。最近在大型多模型(LMMs)方面取得的突破性进展解锁了在理解图像和文本方面的无与伦比的能力,促进了智能制造。利用LMMs的能力,我们引入了FabGPT,这是一个定制的IC制造大型多模型,用于晶片缺陷知识查询。FabGPT在扫描电子显微镜(SEM)图像中进行缺陷检测、执行根本原因分析,并在制造过程中提供专家问答(Q&A)方面表现出专业知识。FabGPT将增强的多模态特征与自动检测复杂晶片背景下微小缺陷并减少手动阈值设置的主观性相匹配。此外,所提出的调制模块和交互式语料库训练策略将晶片缺陷知识嵌入到预训练模型中,有效平衡与缺陷知识和原始知识相关的Q&A查询,并减轻模态偏见问题。对内部晶片数据(SEM-WaD)的实验表明,我们的FabGPT在晶片缺陷检测和知识查询方面取得了显著的性能改进。

论文链接: https://arxiv.org/abs/2407.10810

多智能体路径规划的合作奖励塑造

原标题: Cooperative Reward Shaping for Multi-Agent Pathfinding

作者: Zhenyu Song, Ronghao Zheng, Senlin Zhang, Meiqin Liu

机构:

摘要: 多智能体路径规划(MAPF)的主要目标是为所有智能体规划高效且无冲突的路径。传统的多智能体路径规划算法往往难以实现多智能体的高效分布式路径规划。相比之下,多智能体强化学习(MARL)被证明是实现这一目标的有效方法。通过将MAPF问题建模为MARL问题,智能体可以通过部分观察下的分布式策略实现高效路径规划和碰撞避免。然而,由于缺乏全局信息,MARL策略通常缺乏智能体之间的合作,这随后导致MAPF效率降低。为了解决这一挑战,本文介绍了一种基于独立Q学习(IQL)的独特奖励塑造技术。该方法的目的是评估一个智能体对其邻居的影响,并将这种互动整合到奖励函数中,从而促进智能体之间的积极合作。这种奖励塑造方法在分布式操作时促进了智能体之间的合作。所提出的方法已通过在不同规模和智能体数量的各种场景中进行实验进行了评估。结果与其他最先进的规划器进行了比较。证据表明,本文提出的方法在许多方面与其他规划器相媲美,并在涉及大量智能体的场景中表现优异。

论文链接: https://arxiv.org/abs/2407.10403

通过计算树逻辑实现MCTS的可解释性,用于顺序规划

原标题: Enabling MCTS Explainability for Sequential Planning Through Computation Tree Logic

作者: Ziyan An, Hendrik Baier, Abhishek Dubey, Ayan Mukhopadhyay, Meiyi Ma

机构: 范德堡大学 鹿特丹理工大学

摘要: 蒙特卡洛树搜索(MCTS)是最具能力的在线搜索算法之一,用于顺序规划任务,在资源分配和交通规划等领域有重要应用。尽管在实际部署中表现出色,但MCTS的固有复杂性使得没有技术背景的用户难以理解。本文考虑了MCTS在交通路由服务中的应用,该算法被整合用于开发优化的路线规划。这些规划需要同时满足一系列约束和要求,进一步增加了在实际环境中解释算法操作的难度。为了填补这一重要的研究空白,我们引入了一种基于计算树逻辑的MCTS解释器。我们的框架首先接受用户定义的要求,并通过语言模板将其转化为严格的逻辑规范。然后,我们的解释器结合逻辑验证和定量评估模块,验证MCTS算法遍历的状态和动作。这一分析的结果随后通过第二组语言模板呈现为人类可读的描述性文本。我们的方法的用户满意度通过对82名参与者进行的调查进行评估。结果表明,我们的解释方法在用户偏好方面明显优于其他基准。

论文链接: https://arxiv.org/abs/2407.10820

时空神经距离场用于心脏条件生成建模

原标题: Spatio-temporal neural distance fields for conditional generative modeling of the heart

作者: Kristine Sørensen, Paula Diez, Jan Margeta, Yasmin El Youssef, Michael Pham, Jonas Jalili Pedersen, Tobias Kühl, Ole de Backer, Klaus Kofoed, Oscar Camara, Rasmus Paulsen

机构: 丹麦技术大学 论文作者:Kristine Sørensen, Paula Diez, Jan Margeta, Yasmin El Youssef, Michael Pham, Jonas Jalili Pedersen, Tobias Kühl, Ole de Backer, Klaus Kofoed, Rasmus Paulsen
Nova Dubnica研发公司 论文作者:Jan Margeta
Rigshospitalet医院 论文作者:Yasmin El Youssef, Michael Pham, Jonas Jalili Pedersen, Tobias Kühl, Ole de Backer, Klaus Kofoed
Zealand大学医院 论文作者:Tobias Kühl
巴塞罗那庞培法布拉大学 论文作者:Oscar Camara

摘要: 心脏的节律性泵动在生命中扮演着重要角色,通过一系列精确计时的心脏各个心房的收缩,将血液循环到整个人体。心房的大小、形状和运动的变化可能是心脏疾病的重要标志,因此将其与临床人口统计学或疾病建模相关是很有意义的。现有的人类心脏时空建模方法要求随时间的形状对应或受到大内存需求的限制,这使得对于复杂解剖结构的使用变得困难。我们引入了一种新颖的条件生成模型,其中形状和运动以时空神经距离场的形式隐式建模,并以临床人口统计学为条件。该模型基于自动解码器架构,旨在将个体变异与临床人口统计学相关的变异分离开来。它在左心房(包括左心房附加部)上进行了测试,在解剖序列完成方面优于当前最先进的方法,并生成了逼真模拟真实左心房形状和运动的合成序列。实际上,这意味着我们可以从静态图像中推断功能性测量,生成具有指定人口统计学或疾病的合成人群,并研究非成像临床数据如何影响心脏解剖结构的形状和运动。

论文链接: https://arxiv.org/abs/2407.10663

Github: https://github.com/kristineaajuhl/spatio_temporal_generative_cardiac_model

通过深度学习进行乳腺X线摄影定位评估

原标题: Mammographic Breast Positioning Assessment via Deep Learning

作者: Toygar Tanyel, Nurper Denizoglu, Mustafa Ege Seker, Deniz Alis, Esma Cerekci, Ercan Karaarslan, Erkin Aribal, Ilkay Oksuz

机构: 伊斯坦布尔理工大学 安巴德姆医疗集团 安巴德姆梅赫梅特·阿里·艾登拉大学 希什利哈米迪耶埃夫塔尔培训和研究医院

摘要: 乳腺癌仍然是全球妇女癌症相关死亡的主要原因,乳房X线摄影筛查是早期检测的最有效方法。确保乳房X线摄影的正确定位至关重要,因为不良定位可能导致诊断错误、增加患者压力,并由于召回而增加成本。尽管深度学习(DL)在乳腺癌诊断方面取得了进展,但对乳房X线摄影定位的评估关注有限。本文介绍了一种新颖的DL方法,用于定量评估乳房X线摄影定位质量,特别是在中侧斜(MLO)视图中使用注意力和坐标卷积模块。我们的方法识别关键解剖标志,如乳头和胸大肌,并自动绘制后乳头线(PNL),提供了一个强大且本质上可解释的替代方案,与众所周知的基于分类和回归的方法相比。我们将所提出方法的性能与各种基于回归和分类的模型进行了比较。CoordAtt UNet模型实现了最高准确率为88.63% ± \pm ± 2.84和特异性为90.25% ± \pm ± 4.04,以及显著的敏感性为86.04% ± \pm ± 3.41。在关键解剖点的地标检测中,同一模型还记录了最低的平均误差和最小的角度误差为2.42度。我们的结果表明,结合注意力机制和CoordConv模块的模型提高了分类乳房定位质量和检测解剖标志的准确性。此外,我们向社区提供标签和源代码,以启动一个面向乳房X线摄影的开放研究领域,可在此 https URL 上访问。

论文链接: https://arxiv.org/abs/2407.10796

Github: https://github.com/tanyelai/deep-breast-positioning

利用多模态CycleGAN生成解剖学准确的合成CT扫描图像从MRI

原标题: Leveraging Multimodal CycleGAN for the Generation of Anatomically Accurate Synthetic CT Scans from MRIs

作者: Leonardo Crespi, Samuele Camnasio, Damiano Dei, Nicola Lambri, Pietro Mancosu, Marta Scorsetti, Daniele Loiacono

机构: Politecnico di Milano Humanitas University IRCCS Humanitas Research Hospital

摘要: 在许多临床环境中,使用计算机断层扫描(CT)和磁共振(MRI)是必要的,以深入了解患者的解剖结构并制定适当的治疗策略;这在基于MRI的放射治疗中经常发生,其中CT始终是必要的,以准备剂量传递,因为它提供了关于组织的辐射吸收特性的基本信息。有时,MRI被优先用于勾勒目标体积。然而,这种方法通常不是最有效的,因为它更昂贵、耗时,并且最重要的是对患者造成压力。为了解决这个问题,在这项工作中,我们分析了不同配置的深度学习模型生成从MRI合成CT扫描的能力,利用生成对抗网络(GANs)的强大功能,特别是CycleGAN架构,能够以无监督的方式工作,而不需要配对图像,这些图像是不可用的。多个CycleGAN模型被无监督地训练,以从不同的MRI模态生成带有和不带有对比剂的CT扫描。为了克服没有地面真相的问题,基于分布的指标被用来定量评估模型的性能,同时进行定性评估,医生被要求区分真实和合成图像,以了解生成图像的逼真程度。结果显示,根据输入模态的不同,模型的性能可能会有很大的差异;然而,根据使用的基于分布的指标,具有最佳定量结果的模型可以生成非常难以区分真实图像的图像,即使对于医生也是如此,展示了这种方法的潜力。

论文链接: https://arxiv.org/abs/2407.10888

嘿,那是我的模型!介绍 Chain & Hash,一种大语言模型指纹技术

原标题: Hey, That’s My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique

作者: Mark Russinovich, Ahmed Salem

机构: 微软Azure

摘要: 随着对大语言模型(LLMs)易于被盗用和滥用的担忧日益增长,对模型进行指纹识别的需求也在增加。在这种情况下,指纹识别意味着模型所有者可以将给定模型与其原始版本关联起来,从而确定其模型是否被滥用或完全被盗用。在本文中,我们首先定义了一组成功指纹应满足的五个属性;即,指纹应该是透明的、高效的、持久的、强大的和不可伪造的。接下来,我们提出了Chain & Hash,一种新的简单的指纹识别方法,它实现了一种带有密码学风格的指纹,实现了所有这些属性。Chain & Hash 包括生成一组问题(指纹)以及一组潜在的答案。这些元素使用安全的哈希技术进行哈希处理,以选择每个问题的值,从而提供了一种不可伪造性属性,防止对手声称拥有假的所有权。我们在多个模型上评估了Chain & Hash 技术,并展示了它对良性转换(例如在不同数据集上进行微调)和对抗性尝试擦除指纹的强大性。最后,我们的实验展示了实施Chain & Hash的效率和实用性,其中带有指纹的模型在不同基准测试中几乎达到了与无指纹的模型相同的性能。

论文链接: https://arxiv.org/abs/2407.10887

XEQ评估XAI体验质量的XEQ规模,基于心理测量理论。

原标题: XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory

作者: Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Belen Díaz-Agudo, Derek Bridge

机构: 罗伯特戈登大学 马丁大学 康奈尔大学 康普卢滕斯马德里大学 维多利亚大学科克大学

摘要: 可解释人工智能(XAI)旨在通过解释来提高自主决策的透明度。最近的文献强调了用户对全面的“多样本”解释和个性化与XAI系统互动的需求。我们将这种以用户为中心的互动称为XAI体验。尽管在创建XAI体验方面取得了进展,但以用户为中心地评估它们仍然具有挑战性。为了解决这个问题,我们引入了XAI体验质量(XEQ)量表(发音为“Seek”量表),用于评估XAI体验的用户中心质量。此外,XEQ量化了体验质量在学习、效用、满足和参与四个评估维度上的表现。这些贡献扩展了XAI评估的最新技术,超越了经常用于评估单次解释的一维度指标。在本文中,我们介绍了XEQ量表的开发和验证过程,包括与XAI专家的内容验证,以及通过大规模试点研究进行的判别和构造验证。我们的试点研究结果提供了强有力的证据,证实了XEQ量表作为评估以用户为中心的XAI体验的综合框架。

论文链接: https://arxiv.org/abs/2407.10662

通过融合时空交通互动分析的风险感知轨迹预测

原标题: Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis

作者: Divya Thuremella, Lewis Ince, Lars Kunze

摘要: 为了在人类以复杂多样的方式互动的开放环境中运作,自主机器人必须学会预测他们的行为,特别是当这种行为对其他智能体或机器人可能造成危险时。然而,减少事故风险需要事先了解潜在碰撞可能发生的位置和方式。因此,我们建议通过分析数据集中常见的高风险交互对应的位置和速度来获得这些信息,并在训练中使用它来生成在高风险情况下更好的预测。通过这些基于位置和速度的重新加权技术,我们实现了整体性能的改进,通过最可能的FDE和KDE来衡量,以及在高速车辆和高风险位置内的车辆上的性能改进。

2023年IEEE国际机器人与自动化大会(ICRA)

论文链接: https://arxiv.org/abs/2407.10639

Github: https://github.com/cognitive-robots/risk-aware-trajectory-prediction

深度因果学习来解释和量化地缘紧张局势对天然气市场的影响

原标题: Deep Causal Learning to Explain and Quantify The Geo-Tension’s Impact on Natural Gas Market

作者: Philipp Kai Peter, Yulin Li, Ziyue Li, Wolfgang Ketter

机构: 科隆大学 德国 自然气市场能源经济学研究所

摘要: 天然气需求是预测天然气价格的关键因素,因此直接影响电力系统。然而,现有方法在评估俄乌战争爆发等冲击事件的影响方面面临挑战。在这种情况下,我们应用基于深度神经网络的 Granger 因果关系来识别天然气需求的重要驱动因素。此外,所得到的依赖关系被用来构建一个没有战争爆发的反事实案例,从而提供了对德国各能源部门受冲击影响的整体效果的可量化估计。代码和数据集可在此网址获得:https://URL。

论文链接: https://arxiv.org/abs/2407.10878

Github: https://github.com/bonaldli/CausalEnergy

强化学习的三大教条

原标题: Three Dogmas of Reinforcement Learning

作者: David Abel, Mark K. Ho, Anna Harutyunyan

机构: 纽约大学 谷歌DeepMind

摘要: 现代强化学习至少受到三种教条的制约。第一种是环境聚光灯,指的是我们倾向于关注对环境建模而不是对智能体的建模。第二种是我们将学习视为寻找任务解决方案,而不是适应性。第三种是奖励假设,它认为所有的目标和目的都可以被视为奖励信号的最大化。这三种教条塑造了我们所认为的强化学习科学的大部分内容。虽然每种教条在发展该领域方面起到了重要作用,但现在是时候将它们摆到桌面上,反思它们是否应作为我们科学范式的基本要素。为了实现强化学习作为研究智能体的经典框架的潜力,我们建议完全摒弃第一和第二种教条,对第三种采取一种细致入微的方法。

论文链接: https://arxiv.org/abs/2407.10583

双向立体图像压缩与跨维度熵模型

原标题: Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

作者: Zhening Liu, Xinjie Zhang, Jiawei Shao, Zehong Lin, Jun Zhang

机构: 香港科技大学

摘要: 随着立体视觉技术的快速发展,立体图像压缩已经成为一个关键领域,继续吸引着大量关注。先前的方法主要采用单向范式,其中一个视图的压缩取决于另一个视图,导致压缩不平衡。为了解决这个问题,我们引入了一种对称的双向立体图像压缩架构,名为BiSIC。具体地,我们提出了一个基于3D卷积的编解码器骨干来捕捉局部特征,并结合双向注意力块来利用全局特征。此外,我们设计了一种新颖的跨维度熵模型,整合了各种调节因素,包括空间上下文、通道上下文和立体依赖性,以有效估计用于熵编码的潜在表示的分布。大量实验证明,我们提出的BiSIC在PSNR和MS-SSIM方面均优于传统的图像/视频压缩标准,以及最先进的基于学习的方法。

论文链接: https://arxiv.org/abs/2407.10632

AdapTable:通过Shift-Aware不确定性校准器和标签分布处理器实现表格数据的测试时适应。

原标题: AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler

作者: Changhun Kim, Taewon Kim, Seungyeon Woo, June Yong Yang, Eunho Yang

机构: 韩国科学技术研究院(KAIST) AITRICS

摘要: 在现实世界的应用中,表格数据经常因其广泛和丰富的特性而遭受分布偏移,导致预训练的机器学习模型产生错误的预测。然而,由于表格领域中存在独特的挑战,如属性和数据集大小的变化,以及深度学习模型在表格数据中的有限表示学习能力,因此解决这种分布偏移问题相对较少被探索。特别是,随着最近出现的测试时适应(TTA)的有希望的范式,我们在推断阶段将现成模型适应到未标记的目标域,而无需访问源域,我们发现直接采用其他领域常用的TTA方法通常会导致模型崩溃。我们系统地探讨了表格数据测试时适应中的挑战,包括偏斜熵、复杂的潜在空间决策边界、置信度校准问题(既过于自信又不够自信)以及模型偏向源标签分布和类别不平衡。基于这些见解,我们介绍了AdapTable,一种新颖的表格测试时适应方法,通过估计目标标签分布并根据校准的不确定性调整初始概率,直接修改输出概率。对自然分布偏移和合成损坏的广泛实验表明了所提出方法的适应效果。

论文链接: https://arxiv.org/abs/2407.10784

理解在大语言模型中自动启发式设计中进化搜索的重要性

原标题: Understanding the Importance of Evolutionary Search in Automated Heuristic Design with Large Language Models

作者: Rui Zhang, Fei Liu, Xi Lin, Zhenkun Wang, Zhichao Lu, Qingfu Zhang

机构: 香港城市大学 计算机科学系 南方科技大学系统设计与智能制造学院

摘要: 自动启发式设计(AHD)因其自动化开发有效启发式的潜力而受到广泛关注。最近出现的大语言模型(LLMs)为AHD开辟了新的途径,最初的努力集中在将AHD框架化为进化程序搜索(EPS)问题。然而,不一致的基准设置、不足的基线和缺乏详细的组件分析使得LLMs与搜索策略的整合的必要性以及现有基于LLMs的EPS方法取得的真正进展未能得到充分证明。本研究旨在通过进行一个大规模基准测试,包括四种基于LLMs的EPS方法和四个AHD问题,跨越九种LLMs和五次独立运行,来满足这些研究问题。我们的广泛实验产生了有意义的见解,为LLMs基础的AHD方法中进化搜索的重要性提供了经验基础,同时也为未来EPS算法开发的进步做出了贡献。为了促进可访问性和可重现性,我们已完全开源了我们的基准测试和相应结果。

论文链接: https://arxiv.org/abs/2407.10873

利用混合智能实现可持续和节能的机器学习

原标题: Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning

作者: Daniel Geissler, Paul Lukowicz

机构: DFKI 德国卡尔斯鲁厄大学-Landau

摘要: 混合智能旨在通过结合人类认知能力和人工智能的优势,提升决策、问题解决和整体系统性能。随着大语言模型(LLM)的兴起,逐渐作为智能代理参与加速机器学习发展,混合智能正成为人机有效互动的日益重要的话题。本文提出了一种利用混合智能实现可持续和节能机器学习的方法。在开发机器学习模型时,最终模型性能通常主导优化过程,而过程本身的效率往往被忽视。此外,近年来,能源效率由于复杂和大规模计算过程的显著环境影响而变得同样重要。本工作的贡献包括通过人机协同(HITL)和LLM代理的交互式引入次要知识源,以强调并进一步解决机器学习开发过程中的低效问题。

论文链接: https://arxiv.org/abs/2407.10580

MSegRNN:使用Mamba增强的SegRNN模型进行长期时间序列预测

原标题: MSegRNN:Enhanced SegRNN Model with Mamba for Long-Term Time Series Forecasting

作者: GaoXiang Zhao, XiaoQiang Wang

机构: 哈尔滨工业大学(威海) 山东大学

摘要: 长期时间序列预测领域要求处理广泛的回顾窗口和长期预测步骤,这给基于RNN的方法提出了重大挑战。在这些方法中,SegRNN,一个强大的RNN驱动模型,在长期时间序列预测分析中引起了相当大的关注,因为它在保持极简化架构的同时取得了最先进的结果。同时,Mamba结构已经展示了其在小到中等规模模型中的优势,因为它具有信息选择的能力。本研究介绍了SegRNN的一个变种,该变种使用经过微调的单层Mamba结构对信息进行预处理。此外,它将隐式分割和残差结构结合到模型的编码部分中,以进一步减少RNN架构固有的数据迭代周期,并隐式整合通道间的相关性。这个变种被命名为MSegRNN,利用Mamba结构选择有用信息,从而产生一个转换后的序列。线性策略适应的导数保留了原始SegRNN的出色内存效率,同时展示了增强的性能。对真实世界的长期时间序列预测数据集进行的实证评估表明了我们模型的卓越性能,从而有助于推动长期时间序列预测方法的发展。

论文链接: https://arxiv.org/abs/2407.10768

GPT声纹学:通过前臂超声图像解码手势

原标题: GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM

作者: Keshav Bimbraw, Ye Wang, Jing Liu, Toshiaki Koike-Akino

机构: IEEE、Senior Member、Keshav Bimbraw、Ye Wang、Jing Liu、Toshiaki Koike-Akino

摘要: 大视觉语言模型(LVLMs),如生成式预训练Transformer 4-omni(GPT-4o),是新兴的多模态基础模型,具有作为强大人工智能(AI)辅助工具的巨大潜力,可应用于医疗保健、工业和学术领域等各种应用。尽管这些基础模型在各种一般任务中表现良好,但它们在专业任务中的能力通常受到限制,而没有经过精细调整。然而,由于巨大的计算/内存/数据集需求,对大型基础模型进行完全微调是具有挑战性的。我们展示了即使没有经过精细调整,GPT-4o也能从前臂超声数据中解码手势,并且在少样本、上下文学习中得到改进。

论文链接: https://arxiv.org/abs/2407.10870

对卷积神经网络模型和数据增强技术在移动机器人分层定位中的评估

原标题: An evaluation of CNN models and data augmentation techniques in hierarchical localization of mobile robots

作者: J.J. Cabrera, O. J. Céspedes, S. Cebollada, O. Reinoso, L. Payá

机构: 米格尔·埃尔南德斯大学 工程研究所 西班牙
瓦伦西亚人工智能研究网络 西班牙

摘要: 这项工作介绍了对CNN模型和数据增强的评估,以实现使用全向图像对移动机器人进行分层定位。在这方面,提出了对不同最先进的CNN模型进行消融研究,这些模型被用作骨干,并提出了各种数据增强视觉效果,以解决机器人的视觉定位问题。所提出的方法基于对CNN的调整和重新训练,具有双重目的:(1)执行粗定位步骤,在该步骤中,模型用于预测从哪个房间拍摄了图像,以及(2)解决精细定位步骤,该步骤包括通过在CNN的中间层获取的描述符之间的成对比较,在先前预测的房间中检索视觉地图中最相似的图像。在这方面,我们评估了不同最先进的CNN模型(如ConvNeXt)对所提出的定位问题的影响。最后,分别使用各种数据增强视觉效果来训练模型,并评估它们的影响。对生成的CNN的性能在真实操作条件下进行评估,包括光照条件的变化。我们的代码可以在项目网站的此URL上公开获取。

论文链接: https://arxiv.org/abs/2407.10596

Github: https://github.com/juanjo-cabrera/IndoorLocalizationSingleCNN.git https://github.com/juanjo-cabrera/indoorlocalizationsinglecnn

在边缘上通过子网络之间的随机局部竞争进行持续深度学习

原标题: Continual Deep Learning on the Edge via Stochastic Local Competition among Subnetworks

作者: Theodoros Christophides, Kyriakos Tolias, Sotirios Chatzis

机构: Christophides Tolias Chatzis

摘要: 在边缘设备上进行持续学习面临着独特的挑战,因为资源限制非常严格。本文介绍了一种利用随机竞争原则促进稀疏性的新方法,显著减少了深度网络的内存占用和计算需求。具体来说,我们提出了由单元块组成的深度网络,这些单元块在本地竞争以赢得每个新任务的表示;竞争以随机方式进行。这种网络组织形式导致了每个网络层的稀疏任务特定表示;稀疏模式是在训练过程中获得的,并且在不同任务之间是不同的。关键是,我们的方法使权重和权重梯度都变得稀疏,从而有助于在边缘设备上进行训练。这是基于每个单元在一个块中的获胜概率来执行的。在推断过程中,网络仅保留获胜单元,并将与当前任务无关的所有权重归零。因此,我们的方法专门针对在边缘设备上部署,为资源有限的环境中的持续学习提供了高效且可扩展的解决方案。

论文链接: https://arxiv.org/abs/2407.10758

将大型语言模型应用于大型机器人任务环境中的3D推理,利用数据图扩展

原标题: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs

作者: W. J. Meijer, A.C. Kemmeren, E.H.J. Riemens, J.E. Fransman, M. van Bekkum, G.J. Burghouts, J.D. van Mil

机构:

摘要: 本文解决了将大型多模态模型(LMMs)扩展到广阔的3D环境的挑战。解决这一开放性问题对于机器人在许多急救响应场景中的部署尤为重要,例如涵盖广阔空间的搜索和救援任务。在这些环境中使用LMMs目前受到严格的上下文窗口的限制,这限制了LMM的输入大小。因此,我们引入了一种新颖的方法,利用数据图结构,使LMM能够迭代地查询大环境的较小部分。通过将数据图与图遍历算法结合使用,我们可以优先考虑查询最相关的位置,从而提高3D场景语言任务的可扩展性。我们使用3D场景来说明数据图,但这些可以很容易地被其他代表环境的密集模态替代,例如点云或高斯斑点。我们展示了在搜索和救援任务示例中使用数据图进行两个3D场景语言任务用例的潜力。

论文链接: https://arxiv.org/abs/2407.10743

离线强化学习与补偿奖励

原标题: Offline Reinforcement Learning with Imputed Rewards

作者: Carlo Romeo, Andrew D. Bagdanov

机构: 米兰大学 米兰大学

摘要: 离线强化学习(ORL)为在与环境交互必须严格限制的应用中训练智能体提供了强大的解决方案,这些限制可能是由于成本、安全性或缺乏准确的仿真环境。尽管离线强化学习有潜力促进人工智能智能体在现实世界中的部署,但通常需要大量带有地面真实奖励标注的演示。因此,最先进的ORL算法在数据稀缺的情况下可能很难或不可能应用。在本文中,我们提出了一个简单但有效的奖励模型,可以从带有奖励标注的环境转换的非常有限样本中估计奖励信号。一旦奖励信号被建模,我们使用奖励模型为大量无奖励转换填充奖励,从而实现ORL技术的应用。我们在几个D4RL连续运动任务上展示了我们方法的潜力。我们的结果表明,仅使用原始数据集中1%的带有奖励标签的转换,我们学习的奖励模型能够为其余99%的转换填充奖励,从中可以使用离线强化学习学习出性能良好的智能体。

论文链接: https://arxiv.org/abs/2407.10839

学习人类感知路径规划的社会成本函数

原标题: Learning Social Cost Functions for Human-Aware Path Planning

作者: Andrea Eirale, Matteo Leonetti, Marcello Chiaberge

机构: 多伦多理工大学 伦敦国王学院

摘要: 实现社会接受是社交机器人导航的主要目标之一。尽管这个话题近年来受到越来越多的关注,但大部分研究都集中在驾驶机器人代理沿无障碍轨迹行驶,规划未来人类运动的估计以尊重个人距离并优化导航。然而,日常生活中的社交互动也受到不仅仅取决于运动的规范的影响,比如站在队伍的末尾而不是插队。在本文中,我们提出了一种新颖的方法来识别常见的社交场景,并修改传统规划器的成本函数以适应这些场景。这种解决方案使机器人能够执行不同的社交导航行为,否则不会出现,同时保持传统导航的稳健性。我们的方法允许机器人通过单一学习模型学习不同的社交规范,而不是为每个任务使用不同的模块。作为概念验证,我们考虑排队和尊重彼此交谈的人群的互动空间,但这种方法可以扩展到不涉及运动的其他人类活动。

论文链接: https://arxiv.org/abs/2407.10547

Github: https://github.com/pic4ser/socialcostfunction

将动态视觉场景的神经编码与基础视觉模型对齐

原标题: Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models

作者: Rining Wu, Feixiang Zhou, Ziwei Yin, Jian K. Liu

机构: 利兹大学 伯明翰大学 兰开斯特大学

摘要: 我们的大脑以高度动态的方式用神经元来表示不断变化的环境。动态自然场景中视觉像素的时间特征被困在视网膜的神经元响应中。建立视觉像素和神经元响应之间的内在时间关系至关重要。最近的基础视觉模型为理解图像像素铺平了一条先进的道路。然而,大脑中的神经编码在很大程度上缺乏与像素对齐的深刻理解。大多数先前的研究采用静态图像或从静态图像派生的人工视频来模拟更真实和复杂的刺激。尽管这些简单的场景有效地帮助分离影响视觉编码的关键因素,但复杂的时间关系却没有得到考虑。为了分解自然场景中视觉编码的时间特征,我们提出了Vi-ST,这是一个以自监督视觉Transformer(ViT)为先导的时空卷积神经网络,旨在揭示视网膜神经元群体的基于时间的编码模式。该模型在泛化测试中展现出了强大的预测性能。此外,通过详细的消融实验,我们展示了每个时间模块的重要性。此外,我们引入了一个旨在整合时间考虑并比较不同数量神经元群体对互补编码影响的视觉编码评估指标。总之,我们提出的Vi-ST展示了一个新颖的建模框架,用于大脑中动态视觉场景的神经编码,有效地将我们对视频的大脑表征与神经活动对齐。代码可在此https URL找到。

论文链接: https://arxiv.org/abs/2407.10737

Github: https://github.com/wurining/Vi-ST

MetaLLM:一个高性能且成本效益的动态框架,用于包装LLMs

原标题: MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs

作者: Quang H. Nguyen, Duy C. Hoang, Juliette Decugis, Saurav Manchanda, Nitesh V. Chawla, Khoa D. Doan

机构: 越南文大学 巴西亚马逊 美国圣母大学

摘要: 机器学习(ML)的快速进展带来了许多在各种任务和领域表现出色的大语言模型(LLMs)。这些LLMs在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能会有所不同,例如,由于查询的领域或复杂性,将一个LLM作为应用程序的默认选择通常不是最佳选择,无论它是最大的、最昂贵的,甚至是具有最佳平均测试性能的LLM。因此,为应用程序选择既准确又具有成本效益的正确LLM仍然是一个挑战。在本文中,我们介绍了MetaLLM,这是一个框架,可以动态智能地将每个查询路由到最佳的LLM(在多个可用的LLMs中)用于分类任务,从而实现显著提高的准确性和成本效益。通过将选择问题构建为多臂老虎机,MetaLLM在不确定性下平衡了预测准确性和成本效率。我们在流行的LLM平台上进行的实验,如OpenAI的GPT模型、亚马逊的Titan、Anthropic的Claude和Meta的LLaMa,展示了MetaLLM在现实场景中的有效性,为未来超越分类任务的扩展奠定了基础。

论文链接: https://arxiv.org/abs/2407.10834

动态排版扩散模型

原标题: Kinetic Typography Diffusion Model

作者: Seonmi Park, Inhwan Bae, Seunghyun Shin, Hae-Gon Jeon

机构: GIST (韩国科学技术院)

摘要: 本文介绍了一种用于生成用户首选可动画化“文本内容”的逼真动态排版的方法。我们借鉴了最近在引导视频扩散模型方面取得的进展,以实现视觉上令人愉悦的文本外观。为此,我们首先构建了一个动态排版数据集,包括约60万个视频。我们的数据集由专业动态图形设计师设计的584个模板中的各种组合制成,涉及更改每个字母的位置、字形和大小(即飞行、故障、色差、反射效果等)。接下来,我们提出了一个用于动态排版的视频扩散模型。为此,有三个要求:美学外观、动态效果和可读性字母。本文确定了这些要求。为此,我们提出了用作视频扩散模型的空间和时间指导的静态和动态字幕。静态字幕描述了视频的整体外观,如颜色、纹理和字形,代表了每个字母的形状。动态字幕考虑了字母和背景的移动。我们增加了一个零卷积的指导,以确定视频中应该显示哪些文本内容。我们将零卷积应用于文本内容,并将其施加在扩散模型上。最后,我们提出了字形损失,仅最小化预测单词与其实际内容之间的差异,以使预测的字母可读。实验证明,我们的模型基于文本提示生成了具有可读和艺术字母运动的动态排版视频。

论文链接: https://arxiv.org/abs/2407.10476

在边缘设备上具有低内存占用的高效持续学习

原标题: Efficient Continual Learning with Low Memory Footprint For Edge Device

作者: Zeqing Wang, Fei Cheng, Kangye Ji, Bohu Huang

机构: 西安电子科技大学

摘要: 持续学习(CL)是一种获取动态知识的有用技术。尽管强大的云平台可以充分发挥CL的能力,例如定制推荐系统,但对于边缘设备的类似个性化需求几乎被忽视了。这种现象源于训练神经网络和克服CL中遗忘问题所涉及的巨大资源开销。本文关注这些场景,并提出了一种称为LightCL的紧凑算法。LightCL与其他CL方法不同,其他方法为了延迟遗忘而带来巨大的资源消耗以获得所有任务之间的泛化能力,LightCL压缩了神经网络中已经泛化组件的资源消耗,并利用少量额外资源来改善其他部分的记忆。我们首先提出了两个新的学习可塑性和记忆稳定性指标,以在CL过程中寻求泛化能力。基于发现,较低和中间层具有更多的泛化能力,而更深层相反,我们通过冻结较低和中间层来 保持泛化能力 \textit{保持泛化能力} 保持泛化能力。然后,我们 记忆特征模式 \textit{记忆特征模式} 记忆特征模式来稳定先前任务的特征提取模式,以改善更深层的泛化能力。在实验比较中,LightCL在延迟遗忘方面优于其他SOTA方法,并且最多减少了KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{6.16\timesKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲的内存占用,证明了LightCL在效率方面的出色性能。我们还在边缘设备Jetson Nano上评估了我们方法的效率,进一步证明了我们方法的实际有效性。

论文链接: https://arxiv.org/abs/2407.10545

当合成痕迹隐藏真实内容:稳定扩散图像清洗分析

原标题: When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering

作者: Sara Mandelli, Paolo Bestagini, Stefano Tubaro

机构: Politecnico di Milano

摘要: 近年来,生成高度逼真的合成图像的方法取得了显著进展,允许从描述所需内容的文本提示中创建高质量图像。更令人印象深刻的是,稳定扩散(SD)模型现在为用户提供了以图像到图像转换方式创建合成图像的选项,修改高级自动编码器的潜在空间中的图像。然而,这种引人注目的演变带来了一个令人担忧的后果:可以通过SD自动编码器传递图像以复制具有高逼真度几乎没有视觉伪影的合成图像。这个过程被称为SD图像洗白,可以将真实图像转化为看起来相似的合成图像,并且可能会使内容真实性验证的取证分析变得复杂。我们的论文调查了图像洗白的取证影响,揭示了掩盖真实内容痕迹的严重潜力,包括可能被错误分类为合成的敏感和有害材料,从而破坏了被描绘个体的保护。为了解决这个问题,我们提出了一个两阶段检测流程,有效区分原始、洗白和完全合成图像(从文本提示生成的图像),在各种条件下表现出鲁棒性。最后,我们强调了图像洗白的另一个令人担忧的特性,似乎掩盖了取证探测器利用解决相机型号识别任务所利用的独特伪影,严重削弱了它们的性能。我们的实验代码可在此网址获取。

论文链接: https://arxiv.org/abs/2407.10736

Github: https://github.com/polimi-ispl/synthetic-image-detection

GROOT: 为基于扩散模型的音频合成生成稳健水印

原标题: GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis

作者: Weizhi Liu, Yue Li, Dongdong Lin, Hui Tian, Haizhou Li

机构: 华侨大学 深圳大学 香港中文大学

摘要: 在生成模型如扩散模型蓬勃发展的背景下,区分合成音频与其自然对应物的任务变得更加艰巨。深度伪造检测提供了一个可行的解决方案来应对这一挑战。然而,这种防御措施无意中助长了生成模型的持续改进。数字水印技术作为一种积极和可持续的策略出现,预先监管合成内容的创建和传播。因此,本文作为先驱,提出了生成鲁棒音频水印方法(Groot),提出了一种积极监督合成音频及其源扩散模型的范式。在这种范式中,水印生成和音频合成的过程同时发生,由配备专用编码器的参数固定的扩散模型促成。嵌入在音频中的水印随后可以通过轻量级解码器检索。实验结果突出了Groot在鲁棒性方面的出色表现,特别是在鲁棒性方面,超过了领先的最新方法。除了在面对单个后处理攻击时表现出令人印象深刻的抗性外,Groot在面对复合攻击时表现出卓越的鲁棒性,保持了约95%的平均水印提取准确率。

论文链接: https://arxiv.org/abs/2407.10471

理解感知模型能力与图像区域之间的依赖关系

原标题: Understanding the Dependence of Perception Model Competency on Regions in an Image

作者: Sara Pohland, Claire Tomlin

机构: 加利福尼亚大学伯克利分校

摘要: 深度神经网络(DNN)感知模型在许多应用中很有用,但这些模型是黑盒子,它们的输出尚未被很好地理解。为了确保一个现实世界的决策系统能够自信地利用这样一个感知模型而无需人为干预,我们必须使系统能够推断感知模型的能力水平,并在模型无能时做出适当的响应。为了使系统能够在模型无能时做出明智的决定,了解模型为何无能将是有用的。我们探索了五种新颖的方法,用于识别导致模型能力不足的输入图像区域,我们称之为图像裁剪、分割遮罩、像素扰动、能力梯度和重建损失。我们评估了这五种方法识别陌生对象、识别与未见类别相关的区域以及识别环境中未探索区域的能力。我们发现,能力梯度和重建损失方法在识别与模型能力不足相关的区域方面表现出很大的潜力,特别是当图像中对于感知模型而言陌生的方面导致能力降低时。这两种方法都具有较低的计算时间和高水平的准确性,能够检测到模型不熟悉的图像区域,从而在决策流程中提供潜在的实用性。我们的方法和结果的代码可在GitHub上找到:https://github.com/。

论文链接: https://arxiv.org/abs/2407.10543

Github: https://github.com/sarapohland/explainable-competency

在 Cortex-M 微控制器上对完全量化的深度神经网络进行设备端训练

原标题: On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers

作者: Mark Deutel, Frank Hannig, Christopher Mutschler, Jürgen Teich

机构: 1 德国埃尔朗根大学 纽伦堡工业大学

摘要: 在设备上对深度神经网络(DNNs)进行训练允许模型在部署在微控制器单元(MCUs)上时适应和微调新收集的数据或变化的领域。然而,DNN训练是一项资源密集型任务,由于处理器速度低、吞吐量受限、浮点支持有限和内存限制,使得在MCUs上实现和执行DNN训练算法具有挑战性。在这项工作中,我们探索了针对Cortex-M MCUs的设备上DNN训练。我们提出了一种方法,通过完全量化训练(FQT)和动态部分梯度更新,在MCU上完全就地高效地训练DNN。我们在多个视觉和时间序列数据集上展示了我们方法的可行性,并提供了关于在真实硬件上训练精度、内存开销、能量和延迟之间权衡的见解。

论文链接: https://arxiv.org/abs/2407.10734

在多呼吸中增强异常肺音分类:一种轻量级多标签和多头注意力分类方法

原标题: Towards Enhanced Classification of Abnormal Lung sound in Multi-breath: A Light Weight Multi-label and Multi-head Attention Classification Method

作者: Yi-Wei Chua, Yun-Chien Cheng

机构:

摘要: 本研究旨在开发一个辅助诊断系统,用于分类异常肺部呼吸声音,通过创新的多标签学习方法和多头注意机制提高自动异常呼吸声音分类的准确性。针对现有呼吸声音数据集中存在的类别不平衡和缺乏多样性的问题,我们采用了一种轻量级且高度准确的模型,使用二维标签集表示多种呼吸声音特征。我们的方法在ICBHI2017数据集上的四类任务中取得了59.2%的ICBHI分数,展示了其在轻量级和高准确性方面的优势。本研究不仅提高了肺部呼吸声音异常自动诊断的准确性,还为临床应用开辟了新的可能性。

论文链接: https://arxiv.org/abs/2407.10828

通过高效的点云匹配进行3D几何形状组装

原标题: 3D Geometric Shape Assembly via Efficient Point Cloud Matching

作者: Nahyuk Lee, Juhong Min, Junha Lee, Seungwook Kim, Kanghee Lee, Jaesik Park, Minsu Cho

机构: Lee Min Kim Park Cho Bad Wang Hauser Zakka Zeng Tian Li

摘要: 学习将几何形状组装成更大目标结构是各种实际应用中的关键任务。在这项工作中,我们通过在粗细级别建立部分形状点云之间的局部对应关系来解决这个问题。为此,我们引入了代理匹配变换(PMT),这是一种近似高阶特征变换层,可以在部件的配合表面之间实现可靠的匹配,同时在内存和计算成本方面造成较低的开销。基于PMT,我们引入了一个新框架,名为代理匹配变换器(PMTR),用于几何组装任务。我们在Breaking Bad的大规模3D几何形状组装基准数据集上评估了提出的PMTR,并展示了其相对于最先进方法的卓越性能和效率。项目页面:https://这个URL。

论文链接: https://arxiv.org/abs/2407.10542

Github: https://nahyuklee.github.io/pmtr

LiteFocus:用于长音频合成的加速扩散推理

原标题: LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis

作者: Zhenxiong Tan, Xinyin Ma, Gongfan Fang, Xinchao Wang

机构: 新加坡国立大学

摘要: 潜在扩散模型在音频生成方面表现出有希望的结果,相比传统方法取得了显著进展。然而,尽管在短音频片段上表现出色,但在延长到更长音频序列时面临挑战。这些挑战源于模型的自注意机制和主要训练于10秒片段,这使得在没有适应的情况下延长音频变得复杂。针对这些问题,我们引入了一种新颖的方法,LiteFocus,它增强了现有音频潜在扩散模型在长音频合成中的推断。观察到自注意力中的注意力模式,我们采用了一种用于注意力计算的双稀疏形式,称为同频焦点和跨频补偿,这在同频约束下削减了注意力计算,同时通过跨频补充提高了音频质量。LiteFocus在扩散型TTA模型中显示出推断时间大幅减少,80秒音频片段的合成速度提高了1.99倍,同时获得了改善的音频质量。

论文链接: https://arxiv.org/abs/2407.10468

在室内环境中使用全向成像进行机器人定位的孪生神经网络的实验评估

原标题: An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments

作者: J.J.Cabrera, V. Román, A. Gil, O. Reinoso, L. Payá

机构: 米格尔·埃尔南德斯大学、瓦伦西亚人工智能研究网络(valgrAI)

摘要: 本文的目标是利用机器人上安装的全景视觉系统捕获的全向图像来解决定位问题。为此,我们探讨了使用Siamese神经网络模拟室内环境的潜力,其中全景图像是唯一的信息来源。Siamese神经网络以其能够在两个输入数据之间生成相似性函数而闻名,本例中是两个全景图像之间。在这项研究中,使用了由两个卷积神经网络(CNNs)组成的Siamese神经网络。每个CNN的输出是一个描述符,用于表征每个图像。通过测量这些描述符之间的距离来计算图像的不相似性。这一事实使Siamese神经网络特别适合执行图像检索任务。首先,我们评估了一个与定位密切相关的初始任务,即检测两幅图像是否是在同一房间拍摄还是在不同房间拍摄。接下来,我们评估了Siamese神经网络在全局定位问题的背景下的表现。结果表明,在各种照明条件下,特别是在多云和夜间条件下拍摄的图像时,Siamese神经网络在使用COLD-Freiburg数据集解决定位任务方面优于先前的技术。

论文链接: https://arxiv.org/abs/2407.10536

BandControlNet:基于并行Transformer的可操控流行音乐生成,具有精细的时空特征

原标题: BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features

作者: Jing Luo, Xinyu Yang, Dorien Herremans

机构: Jing Luo Xinyu Yang Dorien Herremans

摘要: 可控音乐生成促进了人类与作曲系统之间的互动,通过将用户意图投射到他们所期望的音乐中。引入可控性的挑战在符号音乐生成领域变得越来越重要。在构建可控的生成流行多乐器音乐系统时,通常会出现两个主要挑战,即弱可控性和音乐质量不佳。为了解决这些问题,我们首先提出时空特征作为强大而细粒度的控制,以增强生成模型的可控性。此外,设计了一种高效的音乐表示 REMI_Track,将多轨音乐转换为多个并行音乐序列,并利用字节对编码(BPE)技术缩短每个轨道的序列长度。随后,我们发布了基于并行Transformer的条件模型 BandControlNet,用于处理多个音乐序列,并生成高质量的音乐样本,这些样本受到给定时空控制特征的条件影响。更具体地说,BandControlNet的两个特别设计的模块,即结构增强自注意力(SE-SA)和跨轨Transformer(CTT),分别用于加强生成的音乐结构和跨轨和谐建模。在两个不同长度的流行音乐数据集上进行的实验结果表明,所提出的BandControlNet在大多数客观指标上优于其他条件音乐生成模型,包括保真度和推理速度,并且在生成长音乐样本方面表现出很强的鲁棒性。主观评估显示,在短数据集上训练的BandControlNet可以生成与最先进模型相媲美质量的音乐,而在使用更长数据集时明显优于它们。

论文链接: https://arxiv.org/abs/2407.10462

研讨会:用于终身序列推荐的搜索增强多模态兴趣网络和近似检索

原标题: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation

作者: Kaiming Shen, Xichen Ding, Zixiang Zheng, Yuqi Gong, Qianqian Li, Zhongyi Liu, Guannan Zhang

机构: 蚂蚁集团 深圳大学

摘要: 用户行为建模在现代推荐系统中至关重要。许多研究关注于对用户的终身序列进行建模,这些序列可能非常长,有时甚至超过数千个项目。这些模型使用目标项目从历史序列中搜索最相关的项目。然而,在点击率(CTR)预测或个性化搜索排名(PSR)中训练终身序列非常困难,主要是由于 ID 嵌入的学习问题不足,特别是当终身序列特征中的 ID 在训练数据集的样本中不存在时。此外,现有的目标注意机制难以很好地学习序列中项目的多模态表示。用户交互项目的多模态嵌入(文本、图像和属性)的分布没有得到正确对齐,不同模态之间存在差异。我们还观察到用户的搜索查询序列和项目浏览序列可以充分描述用户的意图,并且可以互相受益。为了解决这些挑战,我们提出了一个统一的终身多模态序列模型,称为 SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval。具体来说,一个名为 Pretraining Search Unit(PSU)的网络以多目标的预训练微调方式学习多模态查询-项目对的终身序列:多模态对齐、下一个查询-项目对预测、查询-项目相关性预测等。在预训练之后,下游模型将恢复预训练的嵌入作为初始化,并微调网络。为了加速多模态嵌入的在线检索速度,我们提出了一种基于多模态码书的产品量化策略,以近似精确的注意计算。

论文链接: https://arxiv.org/abs/2407.10714

利用生成式 AI 图像数据增强进行甜瓜水果检测和质量评估

原标题: Melon Fruit Detection and Quality Assessment Using Generative AI-Based Image Data Augmentation

作者: Seungri Yoon, Yunseong Cho, Tae In Ahn

机构: 首尔国立大学 韩国大学 生命科学研究所

摘要: 监测和管理水果的生长和质量是非常重要的任务。为了有效地训练像 YOLO 这样的深度学习模型进行实时水果检测,高质量的图像数据集是必不可少的。然而,在农业领域,这样的数据集通常是缺乏的。生成式 AI 模型可以帮助创建高质量的图像。在这项研究中,我们使用 MidJourney 和 Firefly 工具通过文本到图像、成熟前图像到图像和成熟后图像到图像的方法生成了甜瓜大棚和采后水果的图像。我们使用 PSNR 和 SSIM 指标评估了这些 AI 生成的图像,并测试了 YOLOv9 模型的检测性能。我们还评估了真实和生成水果的净质量。我们的结果显示,生成式 AI 可以产生与真实图像非常相似的图像,特别是对于采后水果。YOLOv9 模型很好地检测了生成的图像,而且净质量也是可测量的。这表明生成式 AI 可以创建对水果检测和质量评估有用的逼真图像,显示了其在农业领域的巨大潜力。这项研究突出了生成式 AI 图像在甜瓜水果检测和质量评估中用于数据增强的潜力,并展望了生成式 AI 在农业应用中的积极未来。

论文链接: https://arxiv.org/abs/2407.10413

VGBench:评估大语言模型在矢量图形理解和生成方面的表现

原标题: VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation

作者: Bocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee

机构: 威斯康星大学麦迪逊分校

摘要: 在视觉模型领域,主要的表示方式是使用像素来光栅化视觉世界。然而,这并不总是表示视觉内容的最佳或唯一方式,特别是对于使用几何原语(如多边形)描绘世界的设计师和艺术家。另一方面,矢量图形(VG)提供了视觉内容的文本表示,对于卡通或草图等内容来说,可能更加简洁和强大。最近的研究已经展示了利用能力强大的大语言模型(LLMs)处理矢量图形的有希望结果。然而,这些工作仅关注定性结果、理解或特定类型的矢量图形。我们提出了 VGBench,一个全面的基准测试,用于评估LLMs在处理矢量图形时的各个方面,包括(a)视觉理解和生成,(b)评估各种矢量图形格式,(c)多样的问题类型,(d)广泛的提示技术,(e)在多个LLMs下。通过对我们收集的4279个理解和5845个生成样本进行评估,我们发现LLMs在两个方面表现出强大的能力,同时在低级格式(SVG)上表现出不太理想的性能。我们的数据和评估流程将在此 https URL 上开源。

论文链接: https://arxiv.org/abs/2407.10972

Github: https://vgbench.github.io https://github.com/vgbench/VGBench

带有增强同步性的遮蔽生成视频到音频的Transformer

原标题: Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

作者: Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

机构: Dolby Laboratories Universitat Politècnica de Catalunya

摘要: 视频到音频(V2A)生成利用仅视觉视频特征来呈现与场景相匹配的合理声音。重要的是,生成的声音起始点应该与与之对齐的视觉动作相匹配,否则会出现不自然的同步问题。最近的研究探讨了在静止图像和视频特征上进行声音生成器的条件进展,重点放在质量和语义匹配上,而忽略了同步,或者通过牺牲一定数量的质量来专注于仅改善同步。在这项工作中,我们提出了一个名为MaskVAT的V2A生成模型,它将全频高质量通用音频编解码器与一个序列到序列的掩码生成模型相互连接。这种组合允许同时建模高音频质量、语义匹配和时间同步性。我们的结果表明,通过将高质量编解码器与适当的预训练音频-视觉特征和序列到序列并行结构相结合,我们能够在一方面产生高度同步的结果,同时在非编解码器生成音频模型的最新技术方面具有竞争力。示例视频和生成的音频可在此网址上找到:https://URL。

论文链接: https://arxiv.org/abs/2407.10387

Github: https://maskvat.github.io

使用多分支深度卷积网络和LSTM-CNN对心音进行分类

原标题: Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN

作者: Seyed Amir Latifi, Hassan Ghassemian, Maryam Imani

机构: 塔比亚特莫达雷斯大学

摘要: 这篇论文提出了一种快速且经济有效的方法,利用低成本系统在诊所中以高准确性和可靠性诊断心脏异常。自动诊断心脏疾病的主要限制是正确和可接受的标记样本的稀缺性,这可能会导致昂贵的准备成本。为了解决这个问题,本文提出了两种方法。第一种方法是一种独特的受人类听觉处理启发的多分支深度卷积神经网络(MBDCN)架构,专门设计用于通过采用各种大小的卷积滤波器和音频信号功率谱作为输入来优化特征提取。在第二种方法中,称为长短期记忆-卷积神经(LSCN)模型,此外,网络架构包括长短期记忆(LSTM)网络块,以改善时间域中的特征提取。将多个并行分支组合成的创新方法,包括一维卷积层和LSTM块,有助于在音频信号处理任务中取得优越结果。实验结果表明,所提出的方法优于现有技术。LSCN网络对心音的整体分类准确率超过96%。与常见的特征提取方法如梅尔频率倒谱系数(MFCC)和小波变换相比,该网络的效率显著。因此,所提出的方法在心音的自动分析中显示出有希望的结果,并在心血管疾病的诊断和早期检测中具有潜在应用。

论文链接: https://arxiv.org/abs/2407.10689

GraphPrint:从3D蛋白质结构中提取特征以预测药物靶点亲和力

原标题: GraphPrint: Extracting Features from 3D Protein Structure for Drug Target Affinity Prediction

作者: Amritpal Singh

机构: 乔治亚理工学院 美国

摘要: 准确的药物靶点亲和力预测可以改善药物候选物选择,加速药物发现过程,并降低药物生产成本。先前的工作主要集中在传统指纹或基于蛋白质氨基酸序列提取的特征上,忽略了影响其结合亲和力的三维结构。在这项工作中,我们提出了GraphPrint:一个用于药物靶点亲和力预测的框架,将蛋白质的三维结构特征纳入其中。我们利用氨基酸残基位置坐标生成蛋白质三维结构的图表示,并将其与药物图表示和传统特征结合起来,共同学习药物靶点亲和力。我们的模型在KIBA数据集上实现了均方误差为0.1378和一致性指数为0.8929,并且优于仅使用传统蛋白质特征的情况。我们的消融研究表明,基于三维蛋白质结构的特征提供了与传统特征互补的信息。

论文链接: https://arxiv.org/abs/2407.10452

DDFAD:音频数据集精炼框架

原标题: DDFAD: Dataset Distillation Framework for Audio Data

作者: Wenbo Jiang, Rui Zhang, Hongwei Li, Xiaoyuan Liu, Haomiao Yang, Shui Yu

机构: 清华大学 西安电子科技大学 福建农林大学 悉尼科技大学

摘要: 深度神经网络(DNNs)在许多应用中取得了显著的成功。DNNs 的出色性能很大程度上归因于大规模、高质量的训练数据集的可用性。然而,处理如此庞大的训练数据需要巨大的计算和存储资源。数据集蒸馏是这个问题的一个有前途的解决方案,它可以将大型数据集压缩成一个更小的蒸馏数据集。在蒸馏数据集上训练的模型可以达到与在整个数据集上训练的模型相当的性能。
虽然数据集蒸馏已经在图像数据中得到了证明,但尚未有人探索音频数据的数据集蒸馏。在这项工作中,我们首次提出了一个用于音频数据的数据集蒸馏框架(DDFAD)。具体来说,我们首先提出了融合差分MFCC(FD-MFCC)作为音频数据的提取特征。之后,通过匹配训练轨迹蒸馏方法对FD-MFCC进行蒸馏。最后,我们提出了一种基于Griffin-Lim算法的音频信号重构算法,用于从蒸馏的FD-MFCC中重构音频信号。大量实验证明了DDFAD在各种音频数据集上的有效性。此外,我们展示了DDFAD 在许多应用中具有有前途的应用前景,如持续学习和神经架构搜索。

论文链接: https://arxiv.org/abs/2407.10446

在多机器人网络中的通信和计算高效分布式决策-making

原标题: Communication- and Computation-Efficient Distributed Decision-Making in Multi-Robot Networks

作者: Zirui Xu, Sandilya Sai Garimella, Vasileios Tzoumas

机构:

摘要: 我们提供了一种分布式协调范式,可以实现多个机器人之间的可扩展和接近最优的联合运动规划。我们的协调范式与当前的范式形成对比,当前的范式要么接近最优但在重新规划时间上不切实际,要么是实时的但没有提供接近最优性的保证。我们的动机来自于协作移动自主性的未来,通过车辆间通信(v2v)协调的分布式机器人团队将执行诸如制图、监视和目标跟踪等信息密集型任务。为了实现快速的分布式协调,我们必须限制网络中信息共享的爆炸,从而限制机器人的协调。然而,这可能导致次优的计划,导致重叠的轨迹而不是互补的轨迹。我们在决策速度和最优性之间取得了平衡的理论和算法贡献。我们引入了分布式子模优化工具,这是信息收集任务中的收益递减属性。从理论上讲,我们分析了本地网络拓扑如何影响全局水平的接近最优性。在算法上,我们提供了一种通信和计算高效的协调算法,使代理能够平衡这种权衡。我们的算法比竞争性的接近最优算法快两个数量级。在最多45个机器人的监视任务模拟中,它实现了1 Hz量级的实时规划,具有优越的覆盖性能。为了实现这些模拟,我们提供了一个高保真度的模拟器,通过集成协作自主性流水线和模拟v2v通信延迟来扩展AirSim。

论文链接: https://arxiv.org/abs/2407.10382

图像到图像网络的后门攻击

原标题: Backdoor Attacks against Image-to-Image Networks

作者: Wenbo Jiang, Hongwei Li, Jiaming He, Rui Zhang, Guowen Xu, Tianwei Zhang, Rongxing Lu

机构: 清华大学 哈尔滨工业大学 华为 Technologies Co. Ltd.

摘要: 最近,基于深度学习的图像到图像(I2I)网络已成为图像超分辨率和去噪等I2I任务的主要选择。尽管它们表现出色,但I2I网络的后门漏洞尚未被探索。为了填补这一研究空白,我们对I2I网络对后门攻击的易感性进行了全面调查。具体来说,我们提出了一种新颖的后门攻击技术,其中受损的I2I网络在干净的输入图像上表现正常,但在包含触发器的恶意输入图像上输出对手的预定义图像。为了实现这种I2I后门攻击,我们提出了一种针对I2I网络的有针对性的通用对抗扰动(UAP)生成算法,其中生成的UAP被用作后门触发器。此外,在包含主要任务和后门任务的后门训练过程中,采用了多任务学习(MTL)和动态加权方法来加速收敛速度。除了攻击I2I任务外,我们还将我们的I2I后门扩展到攻击下游任务,包括图像分类和目标检测。大量实验证明了I2I后门对最先进的I2I网络架构的有效性,以及对不同主流后门防御的稳健性。

论文链接: https://arxiv.org/abs/2407.10445

一个用于牙科CBCT中3D个体牙齿分割的多阶段框架

原标题: A Multi-Stage Framework for 3D Individual Tooth Segmentation in Dental CBCT

作者: Chunshi Wang, Bin Zhao, Shuxue Ding

机构: 桂林电子科技大学 南开大学 广西高校人工智能算法工程重点实验室

摘要: 锥束计算机断层扫描(CBCT)是诊断牙科相关疾病的常见方法。准确分割3D牙齿对治疗至关重要。尽管基于深度学习的方法在医学图像处理方面取得了令人信服的结果,但它们需要大量带标注的数据进行网络训练,使得数据收集和标注非常耗时。此外,由不同设备获取的数据分布中普遍存在的领域转移严重影响了模型的泛化能力。为了解决这个问题,我们提出了一个用于牙科CBCT中3D牙齿分割的多阶段框架,在"Semi-supervised Teeth Segmentation" 3D(STS-3D)挑战赛中获得第三名。与其他半监督分割方法在验证集上的实验进一步表明了我们方法的有效性。

论文链接: https://arxiv.org/abs/2407.10433

增强的自监督学习用于多模态 MRI 分割和分类:一种新方法避免模型崩溃

原标题: Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse

作者: Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Fumin Guo, Yeqing Han, Xin Zhou

机构:

摘要: 多模态磁共振成像(MRI)可以为计算机辅助诊断提供互补信息。传统的深度学习算法适用于识别特定解剖结构、分割病变和分类疾病的磁共振图像。然而,由于高昂的费用,手动标签受到限制,这阻碍了模型准确性的进一步提高。自监督学习(SSL)可以通过预训练有效地从无标签数据中学习特征表示,并且已被证明在自然图像分析中是有效的。大多数SSL方法忽略了多模态MRI的相似性,导致模型崩溃。这限制了预训练的效率,导致下游分割和分类任务的准确性较低。为了解决这一挑战,我们建立并验证了一个多模态MRI掩模自编码器,包括混合掩模模式(HMP)和金字塔巴洛双(PBT)模块,用于多模态MRI分析的SSL。HMP连接三个掩模步骤,强制SSL通过重建掩模补丁来学习多模态图像的语义连接。我们证明了所提出的HMP可以避免模型崩溃。PBT模块利用网络的金字塔层次结构,在掩模和原始视图之间构建巴洛双损失,将不同视觉尺度的图像补丁的语义表示在潜在空间中对齐。对BraTS2023、PI-CAI和肺气MRI数据集的实验进一步证明了我们的框架优于最先进技术。分割和分类的性能得到了显著提高,支持对小病变区域的准确检测。代码可在此https URL获取。

论文链接: https://arxiv.org/abs/2407.10377

Github: https://github.com/LinxuanHan/M2-MAE

基于曼巴的行人属性识别的实证研究

原标题: An Empirical Study of Mamba-based Pedestrian Attribute Recognition

作者: Xiao Wang, Weizhe Kong, Jiandong Jin, Shiao Wang, Ruichong Gao, Qingchuan Ma, Chenglong Li, Jin Tang

机构: 安徽大学 人工智能学院

摘要: 当前强大的行人属性识别模型是基于Transformer网络开发的,这些模型在计算上非常耗费资源。最近提出的具有线性复杂度的模型(例如Mamba)引起了广泛关注,并在各种视觉任务中取得了良好的准确性和计算成本平衡。相关的评论文章还表明,虽然这些模型在一些行人属性识别数据集上表现良好,但通常比相应的Transformer模型弱。为了进一步挖掘新型Mamba架构在PAR任务中的潜力,本文将Mamba设计并调整为两种典型的PAR框架,即文本-图像融合方法和纯视觉Mamba多标签识别框架。研究发现,与属性标签进行交互作为额外输入并不总是会带来改进,特别是Vim可以增强,但VMamba不能。本文进一步设计了各种混合Mamba-Transformer变体,并进行了彻底的实验验证。这些实验结果表明,简单地将Mamba与Transformer结合并不总是会带来性能改进,但在某些设置下会产生更好的结果。我们希望这项实证研究能够进一步激发对Mamba在PAR领域的研究,甚至通过这些网络结构的设计和全面实验扩展到多标签识别领域。本工作的源代码将在\url{此https URL}上发布。

论文链接: https://arxiv.org/abs/2407.10374

Github: https://github.com/Event-AHU/OpenPAR

通过多级摘要提升大语言模型在 Verilog 生成中的能力

原标题: Empowering LLMs for Verilog Generation through Multi-Level Summarization

作者: Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

机构: 中国科学院计算技术研究所 中国科学院大学 中国科学技术大学 Cambricon Technologies

摘要: 随着现代处理器设计日益复杂和成本高昂,对处理器设计自动化的需求激增。指令调优的大型语言模型(LLMs)已经在自动生成用于通用编程语言如Python的代码方面展现出卓越的性能。然而,这些方法在硬件描述语言(HDLs)如Verilog上失败,原因是高质量指令调优数据的稀缺性,即使像GPT-3.5这样的先进LLMs在Verilog生成方面也表现出有限的性能。针对这个问题,我们观察到(1)从现实世界收集的Verilog代码质量比LLMs生成的代码更高。 (2)像GPT-3.5这样的LLMs在总结Verilog代码方面表现出色,而不是生成它。基于这些观察,本文介绍了CodeV,一系列开源指令调优的Verilog生成LLMs。我们不是首先从先进的LLMs生成描述,然后获取相应的代码,而是用Verilog代码提示LLMs,并让LLMs通过多级总结生成相应的自然语言描述。实验结果表明,CodeV在VerilogEval中相对于先前的开源SOTA(BetterV)和RTLLM中的RTLCoder分别提高了14.4%和11.3%,并且在VerilogEval中相对于先前的商业SOTA GPT-4提高了22.1%。

论文链接: https://arxiv.org/abs/2407.10424

通过视觉场景驱动扩散进行声学匹配和去混响的相互学习

原标题: Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion

作者: Jian Ma, Wenguan Wang, Yi Yang, Feng Zheng

机构: 南方科技大学 浙江大学 悉尼科技大学

摘要: 视听匹配(VAM)对于增强沉浸式体验至关重要,去混响的任务有助于提高音频可懂性。现有方法独立处理每个任务,忽视它们之间固有的相互关系。此外,这些方法依赖配对的训练数据,获取这些数据具有挑战性,阻碍了广泛未配对数据的利用。在本文中,我们介绍了一种基于扩散模型的相互学习框架 MVSD。MVSD 对这两个任务进行对称处理,利用相互关系促进从逆任务中学习,并克服数据稀缺性。此外,我们将扩散模型作为基础条件转换器,以规避传统 GAN 架构的训练不稳定性和过度平滑的缺点。具体而言,MVSD 使用两个转换器:一个用于 VAM 的混响器,一个用于去混响的去混响器。去混响器判断混响器生成的混响音频是否听起来像是在条件视觉场景中,反之亦然。通过形成闭环,这两个转换器可以生成信息反馈信号,优化逆任务,即使只有轻松获取的单向未配对数据。在两个标准基准测试 SoundSpaces-Speech 和 Acoustic AVSpeech 上的大量实验表明,我们的框架可以提高混响器和去混响器的性能,并更好地匹配指定的视觉场景。

论文链接: https://arxiv.org/abs/2407.10373

使用机械手作为尾巴学习快速转向、空中重新定位和平衡

原标题: Learning Rapid Turning, Aerial Reorientation, and Balancing using Manipulator as a Tail

作者: Insung Yang, Jemin Hwangbo

机构: 汉堡和黄波

摘要: 在这项研究中,我们调查了在四足机器人中创新地将机械手臂用作尾巴以增强它们的物理能力。先前的研究主要集中在通过连接仅作为尾巴的机器人尾巴来增强各种能力。虽然这些尾巴提高了机器人的性能,但也带来了一些缺点,比如整体重量增加和成本更高。为了减轻这些限制,我们提出使用一个六自由度的机械手臂作为尾巴,使其既可以作为尾巴又可以作为机械手臂。为了控制这个高度复杂的机器人,我们为配备机械手臂的机器人开发了基于强化学习的控制器。我们的实验结果表明,配备机械手臂的机器人在快速转弯、空中重新定位和平衡等任务中胜过没有机械手臂的机器人。这些结果表明,机械手臂可以提高四足机器人的敏捷性和稳定性,类似于尾巴,除了其操纵能力。

论文链接: https://arxiv.org/abs/2407.10420

以 ImageNet 级别的成本访问 Vision 基础模型

原标题: Accessing Vision Foundation Models at ImageNet-level Costs

作者: Yitian Zhang, Xu Ma, Yue Bai, Huan Wang, Yun Fu

机构: 东北大学 计算机工程系 考里计算机科学学院

摘要: 视觉基础模型以其由大量训练数据带来的泛化能力而闻名。然而,它们需要大量的训练资源,训练数据通常难以获取,例如 CLIP、DINOv2,这给开发可能推进该领域研究的衍生产品带来了巨大挑战。在这项工作中,我们提出了一个非常简单和通用的解决方案,名为 Proteus,将基础模型提炼为较小的等效模型,而无需访问原始训练数据。具体来说,我们消除了传统知识蒸馏设置中导致数据集偏差的设计,并提出了三个训练目标级别,即 token、patch 和 feature,以最大化知识传递的效果。通过这种方式,Proteus 在 ImageNet-1K 级别的成本下训练,具有惊人的能力,促进了更广泛研究社区对训练基础模型的可访问性。利用 DINOv2-g/14 作为教师,Proteus-L/14 在 15 个基准测试中与 Oracle 方法 DINOv2-L/14(142M 训练数据)的性能相匹配,并优于其他视觉基础模型,包括 CLIP-L/14(400M)、OpenCLIP-L/14(400M/2B)和 SynCLR-L/14(600M)。

论文链接: https://arxiv.org/abs/2407.10366

Github: https://github.com/bespontaneous/proteus-pytorch

在这里插入代码片
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值