XQSV:一种结构可变的网络,用于模仿象棋中的人类对局
原标题: XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi
作者: Chenliang Zhou
机构: 剑桥大学
摘要: 在这篇论文中,我们介绍了一种创新的深度学习架构,名为象棋结构可变(XQSV),旨在模拟中国象棋中人类玩家的行为模式。XQSV 的独特属性在于其能够动态改变结构配置,根据其训练的特定数据子集优化任务性能。我们已经融入了几项设计改进以显著提高网络的预测准确性,包括本地非法移动过滤器、Elo 范围分区、顺序一维输入以及模拟不完美记忆容量。实证评估显示,XQSV 达到了约 40% 的预测准确率,并且其性能在训练的 Elo 范围内达到峰值。这表明该模型成功地模仿了该特定范围内个体的下棋行为。我们采用了三端图灵测试来证明,XQSV 模型比传统的象棋引擎更准确地模拟人类行为,使其与实际人类对手无法区分。鉴于人类游戏中固有的不确定性,我们提出了两个补充的放松评估指标。据我们所知,XQSV 是第一个模仿象棋玩家的模型。
论文链接: https://arxiv.org/pdf/2407.04678
使用并行化树搜索发现符号表达式
原标题: Discovering symbolic expressions with parallelized tree search
作者: Kai Ruan, Ze-Feng Gao, Yike Guo, Hao Sun, Ji-Rong Wen, Yang Liu
机构: 中国人民大学高灵人工智能学院 香港科技大学 中国科学院大学工程科学学院 中国科学院力学研究所
摘要: 符号回归在现代科学研究中发挥着关键作用,因为它能够从数据中发现简洁且可解释的数学表达式。一个重大挑战在于在无限的搜索空间中寻找简洁且具有泛化能力的数学公式,同时意图拟合训练数据。现有算法在处理复杂性问题时面临着准确性和效率方面的关键瓶颈,这实质上阻碍了符号回归在跨学科领域科学探索中的应用步伐。为此,我们引入了并行化树搜索(PTS)模型,以高效地从有限数据中提炼出通用数学表达式。通过一系列广泛的实验,我们展示了PTS在方程发现方面的卓越准确性和效率,大大优于超过80个合成和实验数据集上的最先进基线模型(例如,将其性能提高了高达99%的准确性改进和一个数量级的加速)。PTS代表了在准确和高效的数据驱动符号可解释模型(例如,潜在物理定律)发现方面的重大进展,并标志着向可扩展符号学习的关键转变。
论文链接: https://arxiv.org/pdf/2407.04405
Github: https://github.com/intell-sci-comput/pts
超越 Lex-Leader 的对称性破坏复杂性
原标题: The Complexity of Symmetry Breaking Beyond Lex-Leader
作者: Markus Anders, Sofia Brenner, Gaurav Rattan
机构: 德国达姆斯塔特工业大学 荷兰特文特大学
摘要: 对称性破坏是增强约束编程中求解器的一种广泛流行的方法,例如用于SAT或MIP的求解器。对称性破坏谓词(SBPs)通常对变量施加顺序,并单独确定每个赋值轨道中的词典领导者(lex-leader)。尽管找到完整的词典领导者SBPs是NP难的,但不完整的词典领导者SBPs在实践中被广泛使用。
在本文中,我们研究了计算SAT的完整SBPs,无论是词典领导者还是其他情况,的复杂性。我们的主要结果证明了有效计算SBPs的一个自然障碍:图非同构的有效认证。我们的结果解释了获取重要CP问题(例如具有行列对称性的矩阵模型和图生成问题)的简短SBPs的困难。即使允许SBPs引入额外变量,我们的结果仍然成立。我们展示了破坏某些对称性群的多项式上界,即树的自同构群和具有有效SBPs的群的环积。
论文链接: https://arxiv.org/pdf/2407.04419
利用眼底照相术进行青光眼诊断的图形引导测试时间适应性
原标题: Graph-Guided Test-Time Adaptation for Glaucoma Diagnosis using Fundus Photography
作者: Qian Zeng, Fan Zhang
机构: 中国电子科技大学
摘要: 青光眼是全球不可逆盲目的主要原因之一。虽然使用眼底图像的深度学习方法在青光眼的早期诊断方面取得了很大进展,但来自不同设备和位置的图像变化(称为域漂移)挑战了在实际环境中使用预训练模型。为了解决这个问题,我们提出了一种新颖的图引导的测试时适应(GTTA)框架,将青光眼诊断模型推广到未见过的测试环境。GTTA将眼底图像的拓扑信息整合到模型训练中,增强了模型的可迁移性,并减少了学习虚假相关性的风险。在推断过程中,GTTA引入了一种新颖的测试时训练目标,使源训练的分类器逐渐适应目标模式,具有可靠的类条件估计和一致性正则化。在跨领域青光眼诊断基准测试中的实验证明了整体框架和不同主干网络下各个组件的优越性。
论文链接: https://arxiv.org/pdf/2407.04396
关于专家系统在改善制造业能效方面的系统性综述
原标题: A systematic review on expert systems for improving energy efficiency in the manufacturing industry
作者: Borys Ioshchikhes, Michael Frank, Matthias Weigold
机构: 德国达姆斯塔特工业大学
摘要: 在欧盟致力于在2050年实现气候中立的背景下,改善能源效率的努力正在加强。由于制造业对最终电能需求高,并且面临着日益严重的熟练工人短缺问题,制造业成为这些努力的关键焦点之一。专家系统(ESs)提供了克服这一挑战的机会,通过自动识别潜在的能源效率改进措施,在减少电力消耗方面发挥着重要作用。本文系统地审查了专家系统在改善制造业能源效率方面的最新方法,重点关注制造业。文献检索得到了1692个结果,其中深入分析了1987年至2023年间发表的54篇文章。这些出版物根据系统边界、制造类型、应用视角、应用目的、ES类型和行业进行分类。此外,我们还研究了在这一背景下专家系统的结构、实施、利用和发展。通过这一分析,审查揭示了研究中存在的空白,指向了未来研究的有前途的主题。
论文链接: https://arxiv.org/pdf/2407.04377
使用重新参数化异构卷积的多分支辅助融合 YOLO 以实现准确的目标检测
原标题: Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
作者: Zhiqiang Yang, Qiu Guan, Keer Zhao, Jianmin Yang, Xinli Xu, Haixia Long, Ying Tang
机构: 浙江工业大学 浙江体育学院
摘要: 由于多尺度特征融合性能的有效表现,Path Aggregation FPN(PAFPN)被广泛应用于YOLO检测器中。然而,它无法有效且自适应地同时整合高级语义信息和低级空间信息。本文提出了一个名为MAF-YOLO的新模型,这是一个具有多功能neck(Multi-Branch Auxiliary FPN,MAFPN)的新颖目标检测框架。在MAFPN中,设计了Superficial Assisted Fusion(SAF)模块,用于将backbone的输出与neck结合,保留浅层信息的最佳水平以促进后续学习。同时,深度嵌入在neck内部的Advanced Assisted Fusion(AAF)模块传达更多样化的梯度信息到输出层。
此外,我们提出的Re-parameterized Heterogeneous Efficient Layer Aggregation Network(RepHELAN)模块确保整体模型架构和卷积设计均采用异构大卷积核的利用。因此,这保证了保留与小目标相关的信息,同时实现多尺度感受野。最后,以MAF-YOLO的nano版本为例,它在COCO数据集上可以实现42.4%的AP,仅具有3.76M可学习参数和10.51G FLOPs,并且大约比YOLOv8n表现好约5.1%。本工作的源代码可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2407.04381
Github: https://github.com/yang-0201/MAF-YOLO
AriGraph:使用记忆片段学习知识图世界模型,用于LLM智能体
原标题: AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents
作者: Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Mikhail Burtsev, Evgeny Burnaev
机构: AIRI Skoltech London Institute for Mathematical Sciences
摘要: 生成式人工智能的进步扩展了大语言模型(LLMs)在自主智能体开发中的潜在应用。实现真正的自主性需要积累和更新通过与环境互动获得的知识,并有效利用它。当前基于LLM的方法利用过去的经验,使用完整的观察历史、摘要或检索增强。然而,这些非结构化的记忆表示不能促进复杂决策所必需的推理和规划。在我们的研究中,我们引入了AriGraph,一种新颖的方法,其中智能体构建一个记忆图,集成语义和情节记忆,同时探索环境。这种图结构促进了互相关联概念的高效联想检索,与智能体当前状态和目标相关,从而作为一个有效的环境模型,增强了智能体的探索和规划能力。我们展示了我们的Ariadne LLM智能体,配备了这种提出的记忆架构,增强了规划和决策能力,在TextWorld环境中以零样本基础有效处理复杂任务。我们的方法在各种任务中明显优于建立的方法,如完整历史、摘要和检索增强生成,包括第一届TextWorld Problems竞赛中的烹饪挑战以及新颖任务,如清洁房屋和解谜寻宝。
论文链接: https://arxiv.org/pdf/2407.04363
Github: https://github.com/airi-institute/arigraph
ADS的舞蹈:通过历史信息场景模糊化编排故障
原标题: Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing
作者: Tong Wang, Taotao Gu, Huan Deng, Hu Li, Xiaohui Kuang, Gang Zhao
机构: 中国军事科学院
摘要: 随着自动驾驶系统(ADS)向更高级别的自主性发展,协调它们的安全验证变得越来越复杂。本文揭示了一种开创性的基于场景的模糊测试方法ScenarioFuzz。设计得像一个了解过去表现的舞蹈编导者,它在没有预定义场景的情况下揭示了ADS中的漏洞。利用地图道路网络,如OPENDRIVE,我们提取关键数据以形成基础场景种子语料库。这个语料库通过相关信息的丰富化,为模糊测试提供了必要的边界,即使在没有起始场景的情况下也能进行测试。我们的方法整合了专门的变异器和变异技术,结合图神经网络模型,以预测和过滤出高风险的场景种子,利用历史测试数据优化模糊测试过程。与其他方法相比,我们的方法将时间成本平均降低了60.3%,同时每单位时间发现的错误场景数量增加了103%。此外,我们提出了一种自监督碰撞轨迹聚类方法,有助于识别和总结易导致ADS故障的54个高风险场景类别。我们的实验成功地发现了六个被测试系统中的58个错误,强调了ADS的关键安全问题。
论文链接: https://arxiv.org/pdf/2407.04359
利用量子神经网络和感知器之间的等价性
原标题: Exploiting the equivalence between quantum neural networks and perceptrons
作者: Chris Mingard, Jessica Pointing, Charles London, Yoonsoo Nam, Ard A. Louis
机构: 牛津大学 理论物理学中心 物理与理论化学实验室 物理系 计算机科学系
摘要: 基于参数化量子电路的量子机器学习模型,也称为量子神经网络(QNNs),被认为是在近期量子设备上应用最有前途的候选方案之一。在这里,我们通过利用从具有输入 x x x的QNN到作用于 x ⊗ x x \otimes x x⊗x(推广到复数输入)的经典感知器的精确映射,来探讨QNNs的表达能力和归纳偏差。感知器架构的简单性使我们能够清晰地展示当前QNN模型的缺点,以及它们成为有用的通用学习算法所面临的许多障碍。例如,具有振幅编码的QNN无法表达 n ≥ 3 n\geq 3 n≥3时的布尔奇偶函数,这只是这种QNN无法表达的指数级数据结构之一。将QNN映射到经典感知器简化了训练,使我们能够系统地研究其他更具表现力的布尔数据嵌入的归纳偏差。几种流行的嵌入主要产生了对低类平衡函数的归纳偏差,降低了它们的泛化性能,与展现更丰富归纳偏差的深度神经网络架构相比。我们探讨了两种超越标准QNNs的替代策略。在第一种策略中,我们使用QNN来帮助生成受经典DNN启发的核。在第二种策略中,我们类比于深度神经网络的分层结构,并构建了一个分层非线性QNN,在布尔数据上被证明是完全表达的,同时比简单QNNs具有更丰富的归纳偏差。最后,我们讨论了QNN文献的特征,这可能掩盖了在经典数据上实现量子优势比深度学习算法更困难的事实。
论文链接: https://arxiv.org/pdf/2407.04371
LaRa: 高效大基线辐射场
原标题: LaRa: Efficient Large-Baseline Radiance Fields
作者: Anpei Chen, Haofei Xu, Stefano Esposito, Siyu Tang, Andreas Geiger
机构: 图宾根大学 瑞士苏黎世联邦理工学院
摘要: 辐射场方法已经实现了逼真的新视角合成和几何重建。但它们大多应用于每个场景的优化或小基线设置。最近的一些研究探讨了利用Transformer实现大基线的前向重建,但它们都使用标准的全局注意机制,因此忽略了3D重建的局部特性。我们提出了一种方法,在Transformer层中统一局部和全局推理,从而提高了质量并加快了收敛速度。我们的模型将场景表示为高斯体积,并将其与图像编码器和组注意力层结合,实现了高效的前向重建。实验结果表明,我们的模型在四个GPU上训练两天后,在重建360°辐射场方面表现出高保真度,并对零样本和域外测试具有鲁棒性。
论文链接: https://arxiv.org/pdf/2407.04699
基于知识的药物样本比较
原标题: Knowledge-based Drug Samples’ Comparison
作者: Sébastien Guillemin (LIB), Ana Roxin (LIB), Laurence Dujourdy, Ludovic Journaux (LIB)
机构: 布尔戈尼亚大学 Institut Agro Dijon
摘要: 法国国家警察使用药物样本比对过程来识别药物分销网络。目前的方法是由法医专家进行手动比对。在本文中,我们介绍了我们的方法,即获取、形式化和规范专家知识以改进当前流程。为了对基础知识进行建模,我们使用本体论和逻辑规则相结合。我们的方法的不同步骤被设计为可在其他应用领域中重复使用。所获得的结果是可解释的,使其可以被不同领域的专家使用。
论文链接: https://arxiv.org/pdf/2407.04317
通过平滑输入边际密度来调节模型对非鲁棒特征的依赖。
原标题: Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density
作者: Peiyu Yang, Naveed Akhtar, Mubarak Shah, Ajmal Mian
机构: 西澳大利亚大学 墨尔本大学 中佛罗里达大学
摘要: 值得信赖的机器学习需要对模型对非鲁棒特征的依赖进行细致的调节。我们提出了一个框架,通过将模型预测归因于输入来描绘和调节这些特征。在我们的方法中,鲁棒特征归因表现出一定的一致性,而非鲁棒特征归因容易波动。这种行为允许我们识别模型对非鲁棒特征依赖与输入样本边际密度平滑性之间的相关性。因此,我们通过调节边际密度对输入特征的梯度来实现独特的正则化以提高鲁棒性。我们还设计了一个高效的实现方式来解决潜在的优化过程中的数值不稳定性问题。此外,我们在理论上揭示,与我们的边际密度平滑相反,普遍存在的输入梯度正则化会使输入的条件或联合密度平滑化,这可能导致有限的鲁棒性。我们的实验证实了所提出方法的有效性,清晰地证明了其解决特征泄漏问题和减轻虚假相关性的能力。广泛的结果进一步证明了我们的技术使模型能够对像素值、输入梯度和密度的扰动表现出鲁棒性。
论文链接: https://arxiv.org/pdf/2407.04370
Autoverse:一个可进化的游戏语言,用于学习稳健的具身智能体。
原标题: Autoverse: An Evolvable Game Langugage for Learning Robust Embodied Agents
作者: Sam Earle, Julian Togelius
机构: 纽约大学
摘要: 我们介绍了Autoverse,这是一种可进化的、针对单人2D基于网格的游戏的领域特定语言,并展示了它作为开放式学习(OEL)算法可扩展训练场的用途。Autoverse使用类似元胞自动机的重写规则来描述游戏机制,从而能够表达各种游戏环境(例如迷宫、地牢、推箱子谜题),这些环境是强化学习(RL)智能体的流行测试平台。每个重写规则可以被表达为一系列简单的卷积,使得环境可以在GPU上并行化,从而大大加速RL训练。利用Autoverse,我们提出通过模仿搜索来启动开放式学习。在这种方法中,我们首先演化Autoverse环境(它们的规则和初始地图拓扑)以最大化贪婪树搜索发现新最佳解所需的迭代次数,产生一系列越来越复杂的环境和游玩轨迹。然后,我们通过模仿学习将这些专家游玩轨迹提炼成基于神经网络的策略。最后,我们将学到的策略用作开放式RL的起点,其中不断演化新的训练环境以最大化RL玩家智能体的值函数误差(作为其遗憾的代理,或生成环境的可学习性),发现这种方法提高了结果玩家智能体的性能和泛化能力。
论文链接: https://arxiv.org/pdf/2407.04221
基于人工智能的高铁通信中的波束级和小区级移动管理
原标题: AI-Based Beam-Level and Cell-Level Mobility Management for High Speed Railway Communications
作者: Wen Li, Wei Chen, Shiyue Wang, Yuanyuan Zhang, Michail Matthaiou, Bo Ai
机构: IEEE Fellow Michail Matthaiou Bo Ai 北京邮电大学
摘要: 高铁通信对于确保铁路安全、运营、维护和提供乘客信息服务至关重要。列车的高速造成了快速变化的无线信道,增加了信令开销,降低了系统吞吐量,使得难以满足高铁应用日益增长和严格的需求。在本文中,我们探讨了基于人工智能(AI)的适用于高铁通信的基于波束和基站级别的移动性管理,包括AI模型的用例、输入、输出和关键绩效指标(KPI)。特别是,与传统的下采样空间波束测量相比,我们展示了通过压缩感知实现的压缩空间多波束测量可以改善空间-时间波束预测。此外,我们展示了AI辅助的小区切换相对于传统的移动切换机制的性能提升。此外,我们观察到,提出的减少测量开销的方法实现了与传统方法相当的无线链路失败性能,而前者的方法可以节省50%的波束测量开销。
论文链接: https://arxiv.org/pdf/2407.04336
智能视觉-语言推理器
原标题: Smart Vision-Language Reasoners
作者: Denisa Roberts, Lucas Roberts
摘要: 在这篇文章中,我们将调查视觉-语言模型(VLM)作为推理者的能力。形成抽象概念的能力是数学推理、问题解决和其他数学人工智能任务的基础。已经提出了几种形式主义来描述人类和智能系统用于推理的基本抽象概念和技能。此外,人类的推理本质上是多模态的,因此我们将重点放在多模态人工智能的调查上。在这篇文章中,我们使用了在\cite{cherian2022deep}中介绍的SMART任务(简单多模态算法推理任务)中提供的抽象概念作为元推理和问题解决技能,涵盖了数学、计数、路径、度量、逻辑、空间和模式等八个方面。我们调查了视觉-语言模型沿着这些方面进行推理的能力,并寻求改进的途径。通过将视觉-语言交叉注意力的复合表示与融合的冻结预训练骨干进行学习,实现了自适应地学习更好的视觉基础。此外,适当的超参数和其他训练选择在SMART任务中带来了显著的改进(准确率提高了高达48%),进一步突显了深度多模态学习的强大能力。最聪明的VLM包括一种新颖的QF多模态层,改进了以往所有八种基本推理技能中最好的基线。端到端的代码可以在此https网址找到。
论文链接: https://arxiv.org/pdf/2407.04212
Github: https://github.com/smarter-vlm/smarter
基于几何启发的核机器用于超越梯度下降的协作学习
原标题: Geometrically Inspired Kernel Machines for Collaborative Learning Beyond Gradient Descent
作者: Mohit Kumar, Alexander Valentinitsch, Magdalena Fuchs, Mathias Brucker, Juliana Bowles, Adnan Husakovic, Ali Abbas, Bernhard A. Moser (Institute of Signal Processing)
机构: 德国罗斯托克大学 软件能力中心哈根贝格有限公司 奥地利罗斯托克大学
摘要: 这篇论文通过几何启发的核机器开发了一种新颖的协作学习数学框架,其中包括关于泛化和逼近误差以及样本复杂度的界定。对于分类问题,这种方法使我们能够学习围绕给定数据点的有界几何结构,从而通过利用相关优化问题在再生核希尔伯特空间(RKHS)中的凸性质来有效地解决全局模型学习问题。通过这种方式,我们可以将分类问题简化为确定给定数据点最接近的有界几何结构。我们解决方案的进一步优点是,我们的方法不需要客户端使用随机梯度下降执行多个周期的局部优化,也不需要客户端/服务器之间的通信轮次来优化全局模型。我们强调,大量实验证明所提出的方法是与最先进技术竞争的替代方案。
论文链接: https://arxiv.org/pdf/2407.04335
MuseBarControl:通过预训练和反事实损失增强符号音乐生成中的细粒度控制
原标题: MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss
作者: Yangyang Shu, Haiming Xu, Ziqin Zhou, Anton van den Hengel, Lingqiao Liu
机构: 阿德莱德大学
摘要: 自动生成符号音乐乐谱以满足特定人类需求可能对音乐家和爱好者非常有益。最近的研究表明,使用大量数据集和先进的Transformer架构可以取得有希望的结果。然而,这些最先进的模型通常只能基本控制诸如速度和风格之类的整个作品方面,缺乏管理诸如个别小节级别控制等更细节的能力。虽然微调预训练的符号音乐生成模型似乎是实现这种更精细控制的一种简单方法,但我们的研究表明这种方法存在挑战。该模型通常无法充分响应新的、细粒度的小节级别控制信号。为了解决这个问题,我们提出了两种创新性的解决方案。首先,我们引入了一个旨在直接将控制信号与相应的音乐标记联系起来的预训练任务,这有助于实现对后续微调更有效的初始化。其次,我们实施了一种新颖的反事实损失,促进生成音乐与控制提示之间更好的对齐。这些技术共同显著增强了我们在小节级别控制音乐生成方面的能力,相比传统方法提高了13.06%。我们的主观评估也证实,这种增强的控制并不会损害原始预训练生成模型的音乐质量。
论文链接: https://arxiv.org/pdf/2407.04331
植物热成像是一种有效的数字生物标志物,用于表征糖尿病足溃疡风险吗?
原标题: Is plantar thermography a valid digital biomarker for characterising diabetic foot ulceration risk?
作者: Akshay Jagadeesh, Chanchanok Aramrat, Aqsha Nur, Poppy Mallinson, Sanjay Kinra
机构: 伦敦卫生与热带医学院
摘要: 背景:在缺乏关于糖尿病足溃疡(DFU)的前瞻性数据的情况下,可以利用与因果风险因素(外周神经病变和外周动脉疾病(PAD))的横断面关联来建立植物热成像用于DFU风险分层的有效性。
方法:首先,我们利用非监督深度学习框架研究了植物热成像图像的内在聚类与几个DFU风险因素之间的关联。然后,我们研究了获得的热成像聚类与DFU风险因素之间的关联。其次,为了识别具有预测能力的关联,我们使用监督学习训练了卷积神经网络(CNN)回归/分类模型,根据热成像(和视觉)输入预测风险因素。
发现:我们的数据集包括来自2型糖尿病患者的282个热成像图像(年龄为56.31 ± 9.18岁,男性占51.42%)。在聚类分析中,我们发现两个重叠的聚类(轮廓分数=0.10,表明分离较弱)。已有强有力证据表明,分配的聚类与与糖尿病足溃疡相关的几个因素之间存在关联,如外周神经病变、PAD、糖尿病并发症数量,以及马丁斯-门德斯、PODUS-2020和SIGN等综合DFU风险预测评分。然而,预测上述风险因素的模型表现不佳。
解释:内在热成像聚类与几个DFU风险因素之间的强关联支持使用热成像来表征DFU风险的有效性。然而,获得的关联并未证明具有预测能力,可能是由于光谱偏差,或者是因为热成像和经典风险因素仅部分重叠地表征了DFU风险构成的部分。我们的发现突显了在定义新型数字生物标志物时标准化基本事实所面临的挑战。
论文链接: https://arxiv.org/pdf/2407.04676
MARS:在基于文本的人员搜索中更多关注视觉属性
原标题: MARS: Paying more attention to visual attributes for text-based person search
作者: Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati
机构: 帕尔马大学 工程与建筑学院 意大利
摘要: 基于文本的人物搜索(TBPS)是一个在研究界引起了极大兴趣的问题。该任务是基于文本描述检索特定个体的一个或多个图像。任务的多模态性要求学习在共享潜在空间内连接文本和图像数据的表示。现有的TBPS系统面临两个主要挑战。一个被定义为跨身份噪声,这是由于文本描述的内在模糊性和不精确性而产生的,它表明视觉属性描述如何通常与不同的人相关联;另一个是身份内变化,即所有那些可能改变给定主体相同文本属性的视觉外观的干扰,例如姿势、光照等。为了解决这些问题,本文提出了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型TBPS架构,通过引入两个关键组件增强了当前最先进的模型:一个是视觉重建损失,另一个是属性损失。前者利用经过训练的遮罩自编码器重建随机遮罩的图像补丁,辅以文本描述。通过这样做,模型被鼓励学习更具表现力的表示和潜在空间中的文本-视觉关系。而属性损失则平衡了不同类型属性的贡献,定义为文本的形容词-名词块。这种损失确保每个属性在人物检索过程中都被考虑进去。在三个常用数据集(即CUHK-PEDES、ICFG-PEDES和RSTPReid)上进行了大量实验,报告了性能改进,平均精度均值(mAP)指标相对于当前最先进技术有显著提升。
论文链接: https://arxiv.org/pdf/2407.04287
Github: https://github.com/ergastialex/mars
在火箭和电子之间高效的材料信息学
原标题: Efficient Materials Informatics between Rockets and Electrons
作者: Adam M. Krajewski
机构: 宾夕法尼亚州立大学
摘要: 计算研究的真正力量通常体现在其所取得的成就或促使他人取得的成就。在这项工作中,同时涵盖了在三个一般抽象层次上存在的几个不同努力,即材料的原子级、物理级和设计级。在每个层次上,正在从头开始构建一个高效的材料信息基础设施,基于(1)对基础先验知识的基本理解,包括数据,(2)利用它的部署路径,以及(3)在依赖人工智能(AI)大力指导的基础上,以自主或半自主的方式扩展它,以引导成熟的基于DFT的从头算和基于CALPHAD的热力学方法。
由此产生的多层次发现基础设施具有很高的泛化能力,因为它专注于对问题进行编码以便轻松解决问题,而不是寻找现有解决方案。为了展示这一点,本论文讨论了设计多合金功能梯度材料(FGMs),将超高温抗高熵合金(RHEAs)纳入其中,以提高燃气轮机和喷气发动机效率,减少二氧化碳排放,以及超音速飞行器。它利用了一种基于组合学的新开发算法,利用底层数学空间的新图表示,不受困扰社区的许多问题。在此基础上,从全球最大且最高质量的HEA数据集(称为ULTERA)的优化采样中学习了属性模型和相互关系。在原子级别上,利用一个针对机器学习(ML)进行优化的数据生态系统(称为MPDD),从超过450万个松弛结构中获取信息,以指导实验观察,并通过提供由新的高效特征化框架实现的稳定性数据来改进热力学模型。
论文链接: https://arxiv.org/pdf/2407.04648
Robust Decision Transformer: 通过序列建模解决离线强化学习中的数据损坏
原标题: Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling
作者: Jiawei Xu, Rui Yang, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han
机构: 香港中文大学深圳、腾讯机器人X、香港科技大学、腾讯人工智能实验室、利物浦大学
摘要: 通过离线强化学习(RL)从离线数据集中学习策略具有潜力扩展基于数据的决策制定,并避免不安全和昂贵的在线交互。然而,从传感器或人类收集的现实世界数据通常包含噪声和错误,这给现有的离线RL方法带来了重大挑战。我们的研究表明,基于时序差分学习的传统离线RL方法在数据损坏情况下往往表现不佳,尤其是在数据量有限时。这表明了序列建模在应对离线RL中的数据损坏方面的潜力。为了进一步释放序列建模方法的潜力,我们提出了鲁棒决策Transformer(RDT),通过整合几种鲁棒技术。具体而言,我们引入了高斯加权学习和迭代数据校正来减少受损数据的影响。此外,我们利用嵌入式丢失以增强模型对错误输入的抵抗力。在MoJoCo、KitChen和Adroit任务上进行的大量实验表明,与先前方法相比,RDT在面对各种数据损坏时表现出卓越的性能。此外,RDT在一个具有挑战性的设置中表现出显著的鲁棒性,该设置将训练时数据损坏与测试时观察扰动相结合。这些结果突显了鲁棒序列建模在从嘈杂或损坏的离线数据集中学习方面的潜力,从而促进了离线RL在真实世界任务中的可靠应用。
论文链接: https://arxiv.org/pdf/2407.04285
变分部分群卷积用于输入感知旋转和颜色偏移的部分等变性
原标题: Variational Partial Group Convolutions for Input-Aware Partial Equivariance of Rotations and Color-Shifts
作者: Hyunsu Kim, Yegon Kim, Hongseok Yang, Juho Lee
摘要: Group Equivariant CNNs (G-CNNs)在各种任务中表现出很好的效果,这归功于它们能够以等变的方式捕捉层次特征。然而,它们的等变性被固定在整个群体的对称性上,限制了对真实世界数据集中各种部分对称性的适应能力,比如手写数字图像的有限旋转对称性和花朵图像的有限色彩偏移对称性。最近的研究努力解决了这一限制,其中一个例子是部分 G-CNN,它限制了卷积层的输出群空间以打破完全的等变性。然而,这种方法仍然无法调整数据之间的等变性水平。在本文中,我们提出了一种新方法,变分部分 G-CNN(VP G-CNN),以捕捉每个数据实例特定的不同水平的部分等变性。VP G-CNN重新设计了输出群元素的分布,以便根据输入数据进行条件化,利用变分推断来避免过拟合。这使得模型能够根据个别数据点的需求调整其等变性水平。此外,我们通过重新设计可重参数化分布来解决离散群等变性模型中固有的训练不稳定性。我们展示了VP G-CNN在玩具和真实数据集(包括MNIST67-180、CIFAR10、ColorMNIST和Flowers102)上的有效性。我们的结果表明,即使在不确定性指标中,模型也表现出稳健的性能。
论文链接: https://arxiv.org/pdf/2407.04271
视觉模型的同构剪枝
原标题: Isomorphic Pruning for Vision Models
作者: Gongfan Fang, Xinyin Ma, Michael Bi Mi, Xinchao Wang
机构: 新加坡国立大学 华为技术有限公司
摘要: 结构化剪枝通过移除冗余的子结构降低了深度神经网络的计算开销。然而,评估不同子结构的相对重要性仍然是一个重大挑战,特别是在包含自注意力、深度卷积或残差连接等新型机制和架构的先进视觉模型中。这些异质子结构通常表现出不同的参数规模、权重分布和计算拓扑,给重要性比较带来了相当大的困难。为了克服这一问题,我们提出了同构剪枝,这是一种简单的方法,可以在诸如 Vision Transformers 和 CNN 等一系列网络架构上展现出有效性,并在不同模型大小上提供竞争性能。同构剪枝源于这样一个观察:在预定义的重要性标准下评估时,异质子结构展现出重要性分布的显著差异,而同构结构则呈现出类似的重要性模式。这启发我们对不同类型的子结构进行孤立的排名和比较,以获得更可靠的剪枝效果。我们在 ImageNet-1K 上的实证结果表明,同构剪枝超越了专门为 Transformer 或 CNN 设计的几种剪枝基线。例如,我们通过剪枝一个现成的 DeiT-Base 模型,将 DeiT-Tiny 的准确率从 74.52% 提高到 77.50%。对于 ConvNext-Tiny,我们将性能从 82.06% 提升到 82.18%,同时减少了参数数量和内存使用。代码可在 \url{this https URL} 上找到。
论文链接: https://arxiv.org/pdf/2407.04616
Github: https://github.com/VainF/Isomorphic-Pruning
NeuFair: 使用Dropout修复神经网络公平性
原标题: NeuFair: Neural Network Fairness Repair with Dropout
作者: Vishnu Asutosh Dasu, Ashish Kumar, Saeid Tizpaz-Niari, Gang Tan
机构: 宾夕法尼亚州立大学 德克萨斯大学埃尔帕索分校
摘要: 这篇论文调查了神经失活方法作为深度神经网络(DNNs)的后处理偏差缓解方法。神经驱动的软件解决方案越来越多地应用于在具有重大公平性影响的社会关键领域。虽然神经网络在从数据中找到统计模式方面表现出色,但它们以在训练数据集中过度拟合而臭名昭著,这可能会编码和放大历史数据中存在的偏见。现有的偏差缓解算法通常要求修改输入数据集或修改学习算法。我们认为,在训练过程中通过随机丢弃神经元来防止过度拟合的普遍失活方法可能是改善预训练DNNs公平性的一种有效且不太侵入的方法。然而,找到要丢弃的理想神经元集合是一个组合问题。我们提出了NeuFair,这是一组后处理随机算法,用于减轻预训练DNNs中的不公平性。我们的随机搜索受到一个旨在最小化歧视而保持模型效用的目标的指导。我们展示了我们设计的随机算法在找到最优解方面提供了统计保证,并在实证评估NeuFair在改善公平性方面的有效性和效率,几乎没有或没有性能降级。我们的结果表明,NeuFair将公平性提高了高达69%,并且优于最先进的后处理偏差技术。
论文链接: https://arxiv.org/pdf/2407.04268
有限歧义集的稳健 Q 学习
原标题: Robust Q-Learning for finite ambiguity sets
作者: Cécile Decker, Julian Sester
机构: 新加坡国立大学 数学系
摘要: 在本文中,我们提出了一种新颖的 Q Q Q-learning 算法,可以解决分布鲁棒马尔可夫决策问题,其中概率测度的模糊集可以任意选择,只要包含有限数量的测度即可。因此,我们的方法超越了涉及以某个参考测度为中心的球形模糊集的研究案例,其中到参考测度的距离是根据Wasserstein距离或Kullback-Leibler散度来衡量的。因此,我们的方法允许申请人创建更适合自己需求的模糊集,并通过我们的主要结果保证的 Q Q Q-learning 算法解决相关的鲁棒马尔可夫决策问题的收敛性。此外,我们在几个数值实验中展示了我们方法的可操作性。
论文链接: https://arxiv.org/pdf/2407.04259
Github: https://github.com/ceciledecker/finiteqlearning
缺陷表示的特征衰减可以解决异常检测中的不完全屏蔽
原标题: Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection
作者: YeongHyeon Park, Sungho Kang, Myung Jin Kim, Hyeong Seok Kim, Juneho Yi
摘要: 在无监督异常检测(UAD)研究中,尽管最先进的模型在公共基准数据集上进行了广泛研究并达到了饱和点,但它们采用了大规模定制的神经网络(NN)以提高检测性能,或者追求适用于各种任务的统一模型。面向边缘计算,有必要开发一种计算效率高、可扩展的解决方案,避免使用大规模复杂的神经网络。受此启发,我们旨在通过最小程度地更改NN设置来优化UAD性能。因此,我们重新审视了通过修补重建的方法,并通过分析其优势和劣势来改进它。SOTA方法的优势在于采用了一种单一确定性的掩模方法,解决了随机多重掩模带来的推理延迟和输出不一致性的挑战。然而,未能提供完全覆盖异常区域的掩模是一个仍然存在的弱点。为了缓解这个问题,我们提出了缺陷表示的特征衰减(FADeR),它只使用了两个MLP层,在解码过程中减弱了异常重建的特征信息。通过利用FADeR,看不见的异常模式的特征被重建为已见的正常模式,减少了误报。实验结果表明,与类似规模的NN相比,FADeR实现了更好的性能。此外,我们的方法在与其他单一确定性掩模方法以即插即用方式集成时表现出性能增强的可扩展性。
论文链接: https://arxiv.org/pdf/2407.04597
通过强化学习和训练有素的评估器进行无监督视频摘要
原标题: Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator
作者: Mehryar Abbasi, Hadi Hadizadeh, Parvaneh Saeedi
机构: IEEE 学生会员,伊朗理工大学,伊朗理工大学
摘要: 这篇论文提出了一种使用强化学习进行无监督视频摘要的新方法。它旨在解决当前无监督方法存在的问题,包括对抗生成器-判别器结构的不稳定训练以及依赖手工制作的奖励函数进行质量评估。所提出的方法基于这样一个概念,即简洁而信息丰富的摘要应导致一个重构视频,其与原始视频密切相似。摘要模型为每个帧分配重要性分数并生成视频摘要。在所提出的方案中,采用强化学习结合独特的奖励生成管道来训练摘要模型。奖励生成管道训练摘要生成改进重构的摘要。它包括一个生成器模型,能够从部分遮罩的视频中重构遮罩帧,以及一个奖励机制,比较摘要中的重构视频与原始视频。视频生成器以自监督方式训练,重构随机遮罩帧,增强其生成准确摘要的能力。这种训练管道导致摘要模型比依赖手工制作奖励的方法更好地模拟人类生成的视频摘要。训练过程包括两个稳定且独立的训练步骤,不同于对抗结构。实验结果显示出有希望的性能,分别在TVSum和SumMe数据集上的F分数为62.3和54.5。此外,推理阶段比我们先前报告的最先进方法快300倍。
论文链接: https://arxiv.org/pdf/2407.04258
具有分类和解释硬件木马能力的AI架构
原标题: An AI Architecture with the Capability to Classify and Explain Hardware Trojans
作者: Paul Whitten, Francis Wolff, Chris Papachristou
机构: Case School of Engineering Case Western Reserve University
摘要: 基于机器学习(ML)技术的硬件特洛伊检测方法主要识别可疑电路,但缺乏解释决策形成的能力。基于现有硬件特洛伊检测特征,引入了一种可解释的方法论和架构。通过使用信任中心特洛伊基准测试,提供了解释网表中数字硬件特洛伊的结果。
论文链接: https://arxiv.org/pdf/2407.04551
AnySR:将图像超分辨率实现为任意尺度、任意资源
原标题: AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource
作者: Wengyi Zhan, Mingbao Lin, Chia-Wen Lin, Rongrong Ji
机构: 厦门大学 新加坡国立大学 清华大学
摘要: 为了提高单图超分辨率(SISR)应用的效率和可扩展性,我们引入了 AnySR,将现有的任意尺度 SR 方法重建为任意尺度、任意资源实现。与现成方法解决不同尺度的 SR 任务所需的计算成本相同相比,我们的 AnySR 创新在于:1)将任意尺度任务构建为任意资源实现,减少较小尺度的资源需求而无需额外参数;2)以特征交织方式增强任意尺度性能,定期将尺度对插入到特征中,并确保正确的特征/尺度处理。我们的 AnySR 的有效性通过重建大多数现有的任意尺度 SISR 方法并在五个流行的 SISR 测试数据集上验证得到充分展示。结果显示,我们的 AnySR 以更高效的计算方式实现了 SISR 任务,并且与现有的任意尺度 SISR 方法表现相当。我们首次实现了 SISR 任务不仅在文献中任意尺度,而且在任意资源上。代码可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2407.04241
Github: https://github.com/CrispyFeSo4/AnySR
使用可微分数字信号处理实现实时音色重映射。
原标题: Real-time Timbre Remapping with Differentiable DSP
作者: Jordie Shier, Charalampos Saitis, Andrew Robertson, Andrew McPherson
机构: 伦敦玛丽女王大学 中心数字音乐 德国柏林Ableton公司 帝国理工学院设计工程学院
摘要: 音色是各种音乐背景中表达的主要方式。然而,目前流行的基于音频驱动的合成方法主要依赖音高和响度包络,有效地使输入的音色表达变得平坦。我们的方法借鉴了音色类比的概念,并探讨了如何将输入信号的音色表达映射到合成器的控制上。通过利用可微分数字信号处理,我们的方法通过一种新颖的特征差异损失,促进了对合成器参数的直接优化。这个损失函数旨在学习音乐事件之间的相对音色差异,优先考虑乐句中音色调制的微妙之处,从而实现音色空间中有意义的转换。以敲击鼓表演为案例研究,其中音色表达是核心,我们展示了从声学敲击鼓到模拟Roland TR-808的可微分合成器的实时音色重新映射。
论文链接: https://arxiv.org/pdf/2407.04547
批处理Transformer:在批处理中寻找注意力
原标题: Batch Transformer: Look for Attention in Batch
作者: Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han
摘要: 面部表情识别(FER)在计算机视觉领域受到了相当大的关注,其中包括“野外”环境,如人机交互。然而,FER 图像包含诸如遮挡、低分辨率、姿势变化、光照变化和主观性等不确定性,其中包括一些与目标标签不匹配的表情。因此,从嘈杂的单个图像中获得的信息很少,并且不太可信。这可能会显著降低FER任务的性能。为了解决这个问题,我们提出了一个批量 Transformer(BT),它包括所提出的类批量注意(CBA)模块,通过在一个批次中训练反映自多个图像的特征,而不是来自单个图像的信息,以防止在嘈杂数据中过拟合并提取可信赖的信息。我们还提出了多级注意力(MLA)来捕捉每个级别之间的相关性,以防止过拟合特定特征。在本文中,我们提出了一个结合了上述提议的批量 Transformer 网络(BTN)。对各种FER基准数据集的实验结果显示,所提出的BTN在FER数据集中始终优于最先进技术。代表性结果展示了所提出的BTN在FER方面的潜力。
论文链接: https://arxiv.org/pdf/2407.04218
PDiscoFormer:通过视觉Transformer放松部分发现约束
原标题: PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers
作者: Ananthu Aniraj, Cassio F.Dantas, Dino Ienco, Diego Marcos
机构: Inria Univ. Montpellier LIRMM UMR TETIS Inrae 洛林应用科学研究所 法国
摘要: 显式检测对象部分并对其进行推理的计算机视觉方法是朝着固有可解释模型迈出的一步。现有的通过细粒度分类任务驱动部分发现的方法对所发现部分的几何属性做出了非常严格的假设;它们应该是小而紧凑的。尽管在某些情况下这种先验是有用的,但在本文中,我们展示了预训练的基于Transformer的视觉模型,如自监督的DINOv2 ViT,使得这些约束条件得以放宽。特别地,我们发现允许任意大小的多个连接组件的总变差(TV)先验在很大程度上优于先前的工作。我们在三个细粒度分类基准数据集上测试了我们的方法:CUB、PartImageNet和Oxford Flowers,并将我们的结果与先前发表的方法以及基于Transformer骨干的最先进方法PDiscoNet的重新实现进行了比较。我们在整体上持续获得了显著的改进,无论是在部分发现指标还是下游分类任务上,表明自监督ViT模型中的强归纳偏差需要重新思考可用于无监督部分发现的几何先验。
论文链接: https://arxiv.org/pdf/2407.04538
Github: https://github.com/ananthu-aniraj/pdiscoformer
通过细胞异质性和神经调节信号增强人工神经网络中的学习
原标题: Enhancing learning in artificial neural networks through cellular heterogeneity and neuromodulatory signaling
作者: Alejandro Rodriguez-Garcia, Jie Mei, Srikanth Ramaswamy
机构: 纽卡斯尔大学 东京大学 魁北克大学 沖繩科學技術大學研究生院
摘要: 人工智能(AI)领域的最新进展受到了神经科学的启发,特别是人工神经网络(ANNs)的发展。这显著增强了复杂认知任务的复制,如视觉和自然语言处理。尽管取得了这些进展,人工神经网络在持续学习、适应性知识转移、鲁棒性和资源效率方面仍存在困难,这些是生物系统轻松处理的能力。具体来说,人工神经网络经常忽视大脑的功能和形态多样性,从而阻碍了它们的计算能力。此外,将细胞类型特异性的神经调节效应与具有神经元异质性的人工神经网络相结合,可以实现两个空间尺度上的学习:神经元水平上的尖峰行为和电路水平上的突触可塑性,从而潜在地增强它们的学习能力。在本文中,我们总结了最近的生物启发模型、学习规则和架构,并提出了一个用于增强人工神经网络的生物启发框架。我们提出的双重框架方法突出了尖峰神经网络(SNNs)模拟多样的尖峰行为和树突区以模拟神经计算的形态和功能多样性的潜力。最后,我们概述了提出的方法如何整合脑启发的区段模型和任务驱动的尖峰神经网络,平衡生物启发和复杂性,并为迫切的人工智能挑战提供可扩展的解决方案,如持续学习、适应性、鲁棒性和资源效率。
论文链接: https://arxiv.org/pdf/2407.04525
LayerShuffle:通过随机化层执行顺序增强视觉Transformer的鲁棒性
原标题: LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order
作者: Matthias Freiberger, Peter Kun, Anders Sundnes Løvlie, Sebastian Risi
机构: 哥本哈根大学 IT 哥本哈根大学
摘要: 由于它们的架构和训练方式,人工神经网络通常在测试时对剪枝、替换或混洗层不够稳健。然而,这些特性对于不同的应用是可取的,比如分布式神经网络架构,在这种架构中,执行顺序无法保证,或者网络的某些部分在推断过程中可能会失败。在这项工作中,我们通过提出的一些训练方法来解决这些问题,其中最重要的组成部分是在训练时随机化注意力模块的执行顺序。我们展示了,通过我们提出的方法,视觉Transformer在测试时确实能够适应任意层的执行顺序,假设在相同的模型大小下容忍准确率降低约20%。我们还发现,我们训练的模型可以随机合并在一起,形成功能性(“弗兰肯斯坦”)模型,而与源模型相比性能不会下降。最后,我们在测试时对模型进行层剪枝,发现它们的性能会平稳下降。
论文链接: https://arxiv.org/pdf/2407.04513
当大语言模型玩电话游戏:迭代文化传播中的累积变化和吸引子
原标题: When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions
作者: Jérémy Perez, Corentin Léger, Grgur Kovač, Cédric Colas, Gaia Molinaro, Maxime Derex, Pierre-Yves Oudeyer, Clément Moulin-Frier
机构: Inria Université de Bordeaux MIT University of California Berkeley Institute for Advanced Study in Toulouse
摘要: 随着大型语言模型(LLMs)开始相互交互并在线生成越来越多的文本,更加重要的是要更好地理解信息在从一个LLM传递到下一个LLM时是如何转化的。虽然已经有大量研究探讨了单个LLM的行为,但现有研究在很大程度上忽视了由迭代LLM交互引起的集体行为和信息失真。在单个输出水平上微不足道的小偏差,在迭代交互中有可能被放大,潜在地导致内容向吸引子状态演变。在一系列电话游戏实验中,我们应用了从人类文化演化文献中借鉴的传输链设计:LLM智能体迭代地接收、生成和传输文本,从链中的上一个智能体传递到下一个智能体。通过跟踪文本毒性、积极性、难度和长度在传输链中的演变,我们揭示了偏见和吸引子的存在,并研究它们对初始文本、指令、语言模型和模型大小的依赖关系。例如,我们发现更为开放的指令会导致比更为受限制的任务更强的吸引效应。我们还发现不同的文本属性对吸引效应显示出不同的敏感性,毒性比长度导致更强的吸引子。这些发现突显了需要考虑多步传输动态的重要性,并代表了朝着更全面理解LLM文化动态迈出的第一步。
论文链接: https://arxiv.org/pdf/2407.04503
用于编码癌症概况和预测药物反应的变分和解释性神经网络
原标题: Variational and Explanatory Neural Networks for Encoding Cancer Profiles and Predicting Drug Responses
作者: Tianshu Feng, Rohan Gnanaolivu, Abolfazl Safikhani, Yuanhang Liu, Jun Jiang, Nicholas Chia, Alexander Partin, Priyanka Vasanthakumari, Yitan Zhu, Chen Wang
机构: 清华大学 加拿大多伦多大学 西北大学 Mayo Clinic
摘要: 人类癌症是一个重大的公共卫生挑战,需要通过转化研究发现新药物。描述肿瘤和癌细胞系分子活动的转录组学分析数据被广泛应用于预测抗癌药物反应。然而,由于转录组数据中的噪声和缺乏生物解释性,现有的AI模型面临挑战。为了克服这些限制,我们引入了VETE(Variational and Explanatory Transcriptomics Encoder),这是一个新颖的神经网络框架,它结合了变分组件以减轻噪声效应,并将可追溯的基因本体论集成到神经网络架构中,用于编码癌症转录组学数据。关键创新包括一种基于局部可解释性的方法来识别本体路径,一种可视化工具来阐明药物反应的生物机制,以及集中式大规模超参数优化的应用。VETE在癌细胞系分类和药物反应预测中展现出了强大的准确性。此外,它为两项任务提供了可追溯的生物解释,并为其预测的机制提供了见解。VETE弥合了AI驱动的预测与癌症研究中生物学上有意义见解之间的差距,这代表了该领域的一个有前途的进展。
论文链接: https://arxiv.org/pdf/2407.04486
通过表示解耦实现鲁棒的多模态学习
原标题: Robust Multimodal Learning via Representation Decoupling
作者: Shicai Wei, Yang Luo, Yuji Wang, Chunbo Luo
机构: 电子科技大学信息与通信工程学院
摘要: 多模态学习对缺失模态具有鲁棒性,因其实用性而受到越来越多的关注。现有方法倾向于通过学习不同模态组合的共同子空间表示来解决这个问题。然而,我们揭示它们由于对类内表示的隐式约束而不够优化。具体来说,同一类别内具有不同模态的样本将被迫学习相同方向的表示。这妨碍了模型捕获特定于模态的信息,导致学习不足。因此,我们提出了一种新颖的解耦多模态表示网络(DMRNet)来辅助鲁棒的多模态学习。具体而言,DMRNet将来自不同模态组合的输入建模为概率分布,而不是潜在空间中的固定点,并从分布中采样嵌入,供预测模块计算任务损失。结果,来自损失最小化的方向约束被采样表示所阻止。这放宽了对推断表示的约束,使模型能够捕获不同模态组合的特定信息。此外,我们引入了一个硬组合正则化器,通过引导DMRNet更多关注困难的模态组合,防止其训练不平衡。最后,在多模态分类和分割任务上进行的大量实验表明,所提出的DMRNet明显优于现有技术水平。
论文链接: https://arxiv.org/pdf/2407.04458
离线基于偏好的强化学习的事后偏好学习
原标题: Hindsight Preference Learning for Offline Preference-based Reinforcement Learning
作者: Chen-Xiao Gao, Shengjun Fang, Chenjun Xiao, Yang Yu, Zongzhang Zhang
机构: 南京大学 中国 清华大学深圳分校
摘要: 离线偏好强化学习(RL)专注于使用人类在离线数据集中选择的轨迹片段对之间的偏好来优化策略,已经成为RL应用的一个实用途径。现有的研究依赖于从轨迹级别的偏好注释中提取逐步奖励信号,假设偏好与累积马尔可夫奖励相关。然而,这种方法未能捕捉数据注释的整体视角:人们通常通过考虑整体结果而不是即时奖励来评估一系列动作的可取性。为了解决这一挑战,我们提出使用条件于轨迹片段未来结果的奖励来建模人类偏好,即事后信息。对于下游RL优化,每个步骤的奖励通过边际化可能的未来结果来计算,这些结果的分布由使用离线数据集训练的变分自动编码器来近似。我们提出的方法,事后偏好学习(HPL),可以通过充分利用大规模未标记数据集中可用的大量轨迹数据来促进信用分配。全面的实证研究表明了HPL在各个领域交付稳健和有利奖励的好处。我们的代码已公开发布在此网址。
论文链接: https://arxiv.org/pdf/2407.04451
Github: https://github.com/typoverflow/WiseRL
多模态遮蔽孪生网络改进胸部X射线表示学习
原标题: Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning
作者: Saeed Shurrab, Alejandro Guerra-Manzanares, Farah E. Shamout
机构: 纽约大学阿布扎比分校
摘要: 医学图像的自监督学习方法主要依赖于图像模态进行预训练。虽然这些方法取得了令人期待的结果,但并未利用在电子健康记录(EHR)中收集的与患者或扫描信息相关的数据。在这里,我们提出在自监督预训练过程中结合EHR数据,使用Masked Siamese Network(MSN)来增强胸部X射线的表示质量。我们研究了三种类型的EHR数据,包括人口统计信息、扫描元数据和住院信息。我们使用两种Vision Transformer(ViT)骨干网络,具体是ViT-Tiny和ViT-Small,在三个公开可用的胸部X射线数据集MIMIC-CXR、CheXpert和NIH-14上评估我们的方法。通过线性评估来评估表示质量,我们的方法相比普通的MSN和最先进的自监督学习基线表现出显著改进。我们的工作突出了EHR增强的自监督预训练在医学图像领域的潜力。代码公开可在以下网址获取:this https URL
论文链接: https://arxiv.org/pdf/2407.04449
Github: https://github.com/nyuad-cai/CXR-EHR-MSN
利用智能手机传感技术实现设备端大语言模型的个性化
原标题: Enabling On-Device LLMs Personalization with Smartphone Sensing
作者: Shiquan Zhang, Ying Ma, Le Fang, Hong Jia, Simon D’Alfonso, Vassilis Kostakos
机构: 墨尔本大学
摘要: 这个演示展示了一种新颖的端到端框架,将设备上的大语言模型(LLMs)与智能手机感应技术相结合,实现了上下文感知和个性化服务。该框架通过在智能手机上部署LLMs与多模态传感器数据和定制提示工程相结合,解决了当前基于云端LLMs的个性化解决方案存在的关键限制,如隐私问题、延迟和成本,以及个人传感器数据有限的问题。为了实现这一目标,我们创新性地提出了在智能手机上部署LLMs,并通过上下文感知传感来确保隐私,并通过上下文感知传感增强个性化性能。一个涉及大学生的案例研究展示了所提出的框架提供定制推荐的能力。此外,我们展示了所提出的框架在隐私、性能、延迟、成本、电池和能耗等方面在设备上和云端LLMs之间取得了最佳权衡。未来的工作旨在整合更多多样化的传感器数据,并进行大规模用户研究,以进一步完善个性化。我们设想,所提出的框架可以通过在用户设备上直接提供安全、上下文感知和高效的交互,显著改善医疗保健、生产力和娱乐等各个领域的用户体验。
论文链接: https://arxiv.org/pdf/2407.04418