2024年7月24日Arxiv机器学习相关论文

KAN或MLP:一个更公平的比较

原标题: KAN or MLP: A Fairer Comparison

作者: Runpeng Yu, Weihao Yu, Xinchao Wang

机构: 新加坡国立大学

摘要: 这篇论文并未介绍新颖的方法。相反,它在包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示在内的各种任务中,提供了对KAN和MLP模型更公平、更全面的比较。具体来说,我们控制参数数量和FLOPs来比较KAN和MLP的性能。我们的主要观察是,除了符号公式表示任务外,MLP通常优于KAN。我们还对KAN进行消融研究,发现其在符号公式表示中的优势主要源于其B-spline激活函数。当B-spline应用于MLP时,在符号公式表示中的性能显著提高,超过或与KAN相匹配。然而,在MLP已经优于KAN的其他任务中,B-spline并不能显著提升MLP的性能。此外,我们发现在标准的增量式持续学习设置中,KAN的遗忘问题比MLP更严重,这与KAN论文中报道的结果不同。我们希望这些结果能为未来关于KAN和其他MLP替代方案的研究提供启示。项目链接:this https URL

论文链接: https://arxiv.org/abs/2407.16674

Github: https://github.com/yu-rp/KANbeFair

可计算学习自然假设类

原标题: Computable learning of natural hypothesis classes

作者: Matthew Harrison-Trainor, Syed Akbari

摘要: 这篇论文讨论了最近关于可计算地可能近似正确学习的概念,这个概念介于统计学习理论(其中学习者没有计算要求)和高效 PAC(学习者必须是多项式有界的)之间。最近已经给出了一些假设类的例子,这些假设类是 PAC 可学习的,但不是可计算地 PAC 可学习的,但这些假设类在某种意义上是不自然或非规范的,因为它们依赖于证明、公式或程序的编号。我们使用可计算性理论中的锥机制来证明,根据假设类可以被可计算地列出等温和假设,任何可学习的自然假设类必须是可计算地可学习的。因此,先前给出的反例必然是不自然的。

论文链接: https://arxiv.org/abs/2407.16663

BONES:用于神经估计 Shapley 值的基准测试

原标题: BONES: a Benchmark fOr Neural Estimation of Shapley values

作者: Davide Napolitano, Luca Cagliero

机构: 都灵理工大学 Politecnico di Torino

摘要: Shapley Values 是为可解释人工智能建立的概念。它们用于通过量化特征对模型结果的贡献来解释黑盒预测模型。由于在真实数据集上计算确切的 Shapley Values 被认为在计算上是棘手的,神经估计器已经成为替代方案,更具可扩展性的方法来获取近似的 Shapley Values 估计。然而,目前很难复制对神经估计器的实验,因为算法实现、解释评估器和结果可视化既没有标准化,也不容易使用。为了弥合这一差距,我们提出了一个名为 BONES 的新基准,专注于神经估计 Shapley Value。它为研究人员提供了一套最先进的神经和传统估计器、一组常用的基准数据集、用于训练黑盒模型的临时模块,以及特定功能,可以轻松计算最流行的评估指标并可视化结果。其目的是简化可解释人工智能模型的使用、评估和比较。在本文中,我们展示了 BONES 在表格数据和图像数据上的可解释人工智能模型基准测试结果和可视化效果。这个开源库可以在以下链接找到:https://这里是链接。

论文链接: https://arxiv.org/abs/2407.16482

Github: https://github.com/DavideNapolitano/BONES

在双曲空间中学习分层嵌入的几何感知算法

原标题: A Geometry-Aware Algorithm to Learn Hierarchical Embeddings in Hyperbolic Space

作者: Zhangyu Wang, Lantian Xu, Zhifeng Kong, Weilong Wang, Xuyu Peng, Enyang Zheng

机构: 阿里巴巴公司 卡内基梅隆大学 加州大学圣地亚哥分校 普渡大学

摘要: 双曲嵌入是一类表示学习方法,当数据可以抽象为类似树状图时,它们提供了竞争性能。然而,在实践中,学习层次数据的双曲嵌入很困难,因为双曲空间与欧几里得空间之间的几何结构不同。为了解决这些困难,我们首先对损害嵌入性能的三种疾病进行分类。然后,我们开发了一种几何感知算法,使用扩张操作和传递闭包正则化来解决这些问题。我们在实验中验证了这些技术,并对扩张操作背后的机制进行了理论分析。对合成和真实数据集的实验显示了我们算法的卓越性能。

论文链接: https://arxiv.org/abs/2407.16641

通过循环特征更新提高图神经网络在组合优化上的性能

原标题: Enhancing GNNs Performance on Combinatorial Optimization by Recurrent Feature Update

作者: Daria Pugacheva, Andrei Ermakov, Igor Lyskov, Ilya Makarov, Yuriy Zotov

机构: JIHT RAS HSE University RMIT AIRI MEPhI Independent Researcher

摘要: 组合优化(CO)问题在各种科学和工业应用中至关重要。最近,研究人员提出使用无监督图神经网络(GNNs)来解决 NP 难的组合优化问题,这些问题可以重新表述为二次无约束二进制优化(QUBO)问题。GNNs 表现出高性能,几乎线性可扩展,并且在大规模问题的计算效率方面明显优于经典基于启发式算法。然而,当使用标准节点特征时,GNNs 往往会陷入能量景观的次优局部最小值,导致解的质量较低。我们引入了一种新算法,以下简称为 QRF-GNN,利用 GNNs 的力量高效解决 QUBO 格式的 CO 问题。它依赖于通过最小化源自 QUBO 松弛的损失函数进行无监督学习。该架构的提出关键组件包括中间 GNN 预测的循环使用、并行卷积层和将静态节点特征组合作为输入。总的来说,这有助于调整中间解决方案候选以最小化基于 QUBO 的损失函数,不仅考虑静态图特征,还考虑中间预测作为动态处理,即迭代更改的循环特征。所提出算法的性能已在用于最大割、图着色和最大独立集问题的经典基准数据集上进行了评估。实验结果显示,QRF-GNN 显著超越现有的基于学习的方法,并且与最先进的传统启发式方法相媲美,在大规模实例上提高了它们的可扩展性。

论文链接: https://arxiv.org/abs/2407.16468

本地 vs 全局持续学习

原标题: Local vs Global continual learning

作者: Giulia Lanzillotta, Sidak Pal Singh, Benjamin F. Grewe, Thomas Hofmann

机构: ETH AI中心 瑞士 苏黎世联邦理工学院 瑞士 苏黎世大学和苏黎世联邦理工学院神经信息学研究所

摘要: 持续学习是将新信息整合到模型中同时保留过去所获知识的问题。尽管近年来取得了实质性进展,但持续学习问题仍然是一个未解之谜。对现有持续学习算法成功与失败背后机制的更好理解可以促进新成功策略的开发。在这项工作中,我们从多任务损失逼近的角度看待持续学习,并比较了两种替代策略,即局部逼近和全局逼近。我们根据所使用的逼近方法对现有持续学习算法进行分类,并评估了这种区别在常见持续学习设置中的实际影响。此外,我们研究了在局部多项式逼近情况下的最佳持续学习目标,并提供了实现最佳目标的现有算法示例。

论文链接: https://arxiv.org/abs/2407.16611

策略镜像下降的功能加速

原标题: Functional Acceleration for Policy Mirror Descent

作者: Veronica Chelu, Doina Precup

机构: 麦吉尔大学 Mila魁北克人工智能研究所 谷歌DeepMind CIFAR人工智能主席

摘要: 我们将功能加速应用于策略镜像下降(PMD)通用算法族,该族涵盖了强化学习(RL)中一系列新颖且基础的方法。通过利用对偶性,我们提出了基于动量的PMD更新。通过采用功能路线,我们的方法独立于策略参数化,并适用于大规模优化,涵盖了以策略参数为特例的动量先前应用的情况。我们在理论上分析了该方法的几个特性,并结合数值消融研究,用以说明在值多面体上的策略优化动态,相对于该空间中不同算法设计选择的情况。我们进一步在数值上表征了与功能加速相关的问题设置的几个特征,最后,我们调查了近似对他们学习机制的影响。

论文链接: https://arxiv.org/abs/2407.16602

Sobolev神经网络与残差加权作为线性和非线性力学中的替代方案

原标题: Sobolev neural network with residual weighting as a surrogate in linear and non-linear mechanics

作者: A.O.M. Kilicsoy, J. Liedmann, M.A. Valdebenito, F.-J. Barthold, M.G.R. Faes

机构: 多特蒙德工业大学 德国 立陶宛科学院

摘要: 计算力学领域,如不确定性量化和优化,通常涉及对代表工程系统行为的数值模型进行重复评估。然而,在复杂非线性系统的情况下,这些模型往往评估成本较高,因此代理模型非常有价值。人工神经网络通过利用其给定训练数据的固有信息,很好地近似系统。在这种情况下,本文通过包含敏感性信息(即相对于输入的偏导数)来研究训练过程的改进,如 Sobolev 训练所概述的。在计算力学中,通过将训练损失函数扩展为附加损失项,可以将敏感性应用于神经网络,从而改善训练收敛,降低泛化误差。这种改进在线性和非线性材料行为的两个示例中得到展示。更具体地说,Sobolev 设计的损失函数通过调整每个损失对训练步骤的影响的残差权重进行扩展。残差加权是对不同训练数据(在本例中为响应和敏感性)的给定缩放。这些残差权重通过自适应方案进行优化,通过探索不同的目标函数,其中一些显示出在训练收敛的准确性和精度方面的改进。

论文链接: https://arxiv.org/abs/2407.16466

时间序列预测可以自动化吗?一个基准和分析

原标题: Can time series forecasting be automated? A benchmark and analysis

作者: Anvitha Thirthapura Sreedhara

机构: 埃因霍温理工大学

摘要: 在机器学习和人工智能领域,时间序列预测在金融、医疗保健和天气等各个领域起着至关重要的作用。然而,由于数据模式和特征的多样性,为给定数据集选择最合适的预测方法是一项复杂的任务。这项研究旨在通过提出一个全面的基准来评估和排名各种时间序列预测方法,以解决这一挑战。该研究调查了来自两个知名时间序列预测框架AutoGluon-Timeseries和sktime的许多方法的比较性能,以阐明它们在不同实际场景中的适用性。这项研究通过提供一个强大的基准方法,促进了在选择预测方法以实现最佳预测时的明智决策,为时间序列预测领域做出了贡献。

论文链接: https://arxiv.org/abs/2407.16445

在车辆装配中应用因果发现算法进行根本原因分析

原标题: Anwendung von Causal-Discovery-Algorithmen zur Root-Cause-Analyse in der Fahrzeugmontage

作者: Lucas Possner, Lukas Bahr, Leonard Roehl, Christoph Wehner, Sophie Groeger

机构: 宝马集团 巴伐利亚大学班贝格分校 化工大学克雷姆尼茨分校

摘要: 根本原因分析(RCA)是一种旨在系统调查和确定问题及其潜在原因的因果关系的质量管理方法。传统方法是基于专家对问题的分析。在现代生产过程中,收集了大量数据。因此,越来越多地使用计算机辅助和数据驱动的方法进行根本原因分析。其中一种方法是因果发现算法(CDA)。本文演示了在一家领先汽车制造商的装配数据上应用CDA的方法。所使用的算法学习了制造车辆特征、人体工程学、涉及的装配过程的时间范围以及基于代表性数据的与质量相关的产品特征之间的因果结构。本文比较了各种CDA在质量管理背景下的适用性。为此,比较了算法学习的因果结构以及它们的运行时间。本文为质量管理提供了一定的贡献,并演示了如何在装配过程中使用CDA进行根本原因分析。

论文链接: https://arxiv.org/abs/2407.16388

DC就是你所需要的:从信号处理的角度描述ReLU

原标题: DC is all you need: describing ReLU from a signal processing standpoint

作者: Christodoulos Kechris, Jonathan Dan, Jose Miranda, David Atienza

机构: 西班牙联邦理工大学 西班牙巴斯克大学

摘要: 非线性激活函数在卷积神经网络中至关重要。然而,直到现在它们在频域中还没有得到很好的描述。在这项工作中,我们研究了ReLU这一流行激活函数的频谱行为。我们使用ReLU的泰勒展开来推导其在频域中的行为。我们展示了ReLU在信号中引入了更高频率的振荡和一个恒定的直流分量。此外,我们调查了这个直流分量的重要性,我们展示它有助于模型提取与输入频率内容相关的有意义特征。我们将理论推导与实验和真实世界示例相结合。首先,我们通过数值验证我们的频率响应模型。然后我们观察了两个示例模型和一个真实世界模型中ReLU的频谱行为。最后,我们实验性地研究了ReLU引入的直流分量在CNN表示中的作用。我们的结果表明,直流分量有助于收敛到接近初始随机权重的权重配置。

论文链接: https://arxiv.org/abs/2407.16556

使用次线性最佳动作查询的在线学习

原标题: Online Learning with Sublinear Best-Action Queries

作者: Matteo Russo, Andrea Celli, Riccardo Colini Baldeschi, Federico Fusco, Daniel Haimovich, Dima Karamshuk, Stefano Leonardi, Niek Tax

摘要: 在在线学习中,决策者反复选择一组动作中的一个,其目标是最小化总损失。在最近关于具有额外预测特性的算法的研究线上,我们通过允许决策者获取有关要选择的动作的额外信息来重新审视这个问题。具体来说,我们研究了“最佳动作查询”的作用,它们预先揭示了在给定时间步骤中最佳动作的身份。在实践中,预测特性可能很昂贵,因此我们允许决策者最多发出 k k k 个这样的查询。我们为任何算法在不同类型的反馈模型下可以实现的性能建立了严格的界限。特别地,在完全反馈模型中,我们证明了 k k k 个查询足以实现 Θ ( min ⁡ { T , T k } ) \Theta\left(\min\left\{\sqrt T, \frac Tk\right\}\right) Θ(min{T ,kT}) 的最优遗憾。这一发现突显了即使是一个适度的(次线性)数量 k ∈ Ω ( T ) k \in \Omega(\sqrt{T}) kΩ(T ) 的查询也能实现遗憾率的显著乘法优势。此外,我们研究了具有挑战性的设置,在该设置中,唯一可用的反馈是在对应于 k k k 个最佳动作查询的时间步骤中获得的。在那里,我们提供了一个严格的遗憾率 Θ ( min ⁡ { T k , T 2 k 2 } ) \Theta\left(\min\left\{\frac{T}{\sqrt k},\frac{T^2}{k^2}\right\}\right) Θ(min{k T,k2T2}),这优于标准的 Θ ( T k ) \Theta\left(\frac{T}{\sqrt k}\right) Θ(k T) 针对 k ∈ Ω ( T 2 / 3 ) k \in \Omega(T^{2/3}) kΩ(T2/3) 的标签高效预测的遗憾率。

论文链接: https://arxiv.org/abs/2407.16355

通过先进的数据增强技术增强加密互联网流量分类

原标题: Enhancing Encrypted Internet Traffic Classification Through Advanced Data Augmentation Techniques

作者: Yehonatan Zion, Porat Aharon, Ran Dubin, Amit Dvir, Chen Hajaj

机构: 以色列阿里耶尔大学 爱瑞尔网络创新中心 数据科学与人工智能研究中心 工业工程与管理学院 计算机科学系

摘要: 随着在线服务日益普及,互联网流量分类成为一项重要的研究领域。然而,互联网协议和加密的快速发展限制了可用数据的获取。本文讨论了对加密互联网流量进行分类的挑战,重点关注开源数据集的稀缺性和现有数据集的局限性。我们提出了两种数据增强(DA)技术,基于真实样本合成生成数据:平均增强和MTU增强。这两种增强旨在改善分类器的性能,各自从不同的角度进行:平均增强旨在通过生成新的合成样本来增加数据集的大小,而MTU增强则增强了分类器对不同最大传输单元(MTU)的稳健性。我们在两个知名的学术数据集和一个商业数据集上进行的实验表明,这些方法在提高模型性能和缓解与有限和同质数据集相关的限制方面是有效的。我们的研究结果强调了数据增强在解决现代互联网流量分类挑战中的潜力。具体而言,我们展示了我们的增强技术显著提升了加密流量分类模型。这种改进可以通过更准确地将流量分类为视频流媒体(例如 YouTube)或聊天(例如 Google Chat)来积极影响用户体验质量(QoE)。此外,它还可以提升文件下载活动(例如 Google Docs)的服务质量(QoS)。

论文链接: https://arxiv.org/abs/2407.16539

状态:一种用于在线控制实验中方差减少的重尾度量稳健的 ATE 估计器

原标题: STATE: A Robust ATE Estimator of Heavy-Tailed Metrics for Variance Reduction in Online Controlled Experiments

作者: Hao Zhou, Kun Sun, Shaoming Li, Yangfeng Fan, Guibin Jiang, Jiaqi Zheng, Tao Li

机构: 南京大学 美团 北京

摘要: 在线控制实验在许多公司中发挥着至关重要的作用,促使基于数据的决策。方差缩减是一种有效的技术,可以提高实验的灵敏度,实现更高的统计功效,同时使用更少的样本和更短的实验周期。然而,典型的方差缩减方法(例如,回归调整估计量)建立在对高斯分布的直觉假设之上,无法正确表征具有重尾分布的真实业务指标。此外,异常值减弱了实验前协变量与结果指标之间的相关性,极大地限制了方差缩减的有效性。
在本文中,我们开发了一个新颖的框架,将学生 t 分布与机器学习工具相结合,以拟合重尾指标,并构建一个稳健的平均处理效应估计器,我们称之为 STATE。通过采用变分 EM 方法来优化对数似然函数,我们可以推断出一个稳健的解决方案,大大消除了异常值的负面影响,并实现了显著的方差缩减。此外,我们通过利用保持无偏估计的线性变换,将 STATE 方法从计数指标扩展到比率指标,其方差缩减更为复杂,但在现有研究中受到的关注较少。最后,对合成数据进行的模拟实验和在美团实验平台上的长期经验结果表明了我们方法的有效性。与最先进的估计器(CUPAC/MLRATE)相比,STATE 实现了超过 50% 的方差缩减,表明它可以在仅有一半观察结果或实验周期的情况下达到相同的统计功效。

论文链接: https://arxiv.org/abs/2407.16337

一个新的线性时间双层 ℓ 1 , ∞ \ell_{1,\infty} 1,投影;应用于稀疏化自动编码器神经网络

原标题: A new Linear Time Bi-level ℓ 1 , ∞ \ell_{1,\infty} 1, projection ; Application to the sparsification of auto-encoders neural networks

作者: Michel Barlaud, Guillaume Perez, Jean-Paul Marmorat

机构: 法国尼斯大学、巴黎高等矿业学校

摘要: 在这篇论文中,我们提出了一种新的双层投影方法,我们展示了对于矩阵 n × m n\times m n×m ℓ 1 , ∞ \ell_{1,\infty} 1,范数的时间复杂度仅为 O ( n m ) \mathcal{O}\big(n m \big) O(nm)。此外,我们提供了一个带有数学证明和实验验证的新的 ℓ 1 , ∞ \ell_{1,\infty} 1,恒等式。实验证明,我们的双层 ℓ 1 , ∞ \ell_{1,\infty} 1,投影比实际最快算法快2.5倍,并在保持相同分类准确性的同时提供最佳稀疏性。

论文链接: https://arxiv.org/abs/2407.16293

概念漂移中的虚假相关性:解释性交互能帮助吗?

原标题: Spurious Correlations in Concept Drift: Can Explanatory Interaction Help?

作者: Cristiana Lalletti, Stefano Teso

机构: 特伦托大学 DISI CIMeC

摘要: 长期运行的机器学习模型面临概念漂移(CD)的问题,即数据分布随时间变化,影响了预测性能。更新模型需要通过监控数据和/或模型来检测漂移,以发现意外变化。然而,我们发现虚假相关(SCs)可能破坏检测算法跟踪的统计数据。受此启发,我们引入了 ebc-exstream,这是一种利用模型解释来识别潜在虚假相关并利用人类反馈进行纠正的新型检测器。它利用基于熵的启发式方法来减少必要反馈的数量,降低了注释成本。我们在人为混淆的数据上进行的初步实验突显了 ebc-exstream 在减少虚假相关对检测的影响方面的潜力。

论文链接: https://arxiv.org/abs/2407.16515

通过正-无监督学习从示范中学习通用连续约束

原标题: Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning

作者: Baiyu Peng, Aude Billard

机构: 瑞士洛桑联邦理工学院(EPFL)

摘要: 为了规划广泛的真实世界任务,需要了解并编写所有约束条件。然而,存在这样的情况,即这些约束条件要么是未知的,要么很难准确地指定。一种可能的解决方案是从专家演示中推断未知的约束条件。大多数先前的工作限制于学习简单的线性约束,或者需要对真实约束参数化或环境模型有很强的了解。为了缓解这些问题,本文提出了一种正负样本(PU)学习方法,用于从演示中推断连续、任意且可能是非线性的约束。从PU学习的角度来看,我们将演示中的所有数据视为正(可行)数据,并学习一个(次优)策略来生成高奖励但可能不可行的轨迹,这些轨迹作为包含可行和不可行状态的未标记数据。在对数据分布做出假设的情况下,通过后处理的PU学习技术从这两个数据集中学习一个可行-不可行分类器(即约束模型)。整个方法采用一个迭代框架,交替更新策略(生成和选择更高奖励策略)和更新约束模型。此外,引入了一个内存缓冲区,用于记录和重用先前迭代中的样本,以防止遗忘。所提出的方法在两个Mujoco环境中得到验证,成功推断连续非线性约束,并在约束准确性和策略安全性方面优于基线方法。

论文链接: https://arxiv.org/abs/2407.16485

自我推理助理学习非阿贝尔规范场设计

原标题: Self-Reasoning Assistant Learning for non-Abelian Gauge Fields Design

作者: Jinyang Sun, Xi Chen, Xiumei Wang, Dandan Zhu, Xingping Zhou

机构: 波特兰学院 南京邮电大学 东华大学 东华师范大学

摘要: 非阿贝尔编织引起了相当大的关注,因为它在描述任子的交换行为中起着关键作用,在非阿贝尔编织的输入和输出之间通过一个酉矩阵相连。在经典系统中实现编织可以帮助实验研究非阿贝尔物理。然而,非阿贝尔规范场的设计面临着许多挑战,源自于群结构、李代数性质、表示论、拓扑和对称性破缺的复杂相互作用。这种极端多样性使其成为研究凝聚态物理的强大工具。尽管广泛使用的人工智能数据驱动方法极大促进了物理学的发展,但大多数工作仅限于数据到数据的设计。在这里,我们提出了一个自我推理助学框架,能够直接生成非阿贝尔规范场。该框架利用前向扩散过程通过连续变换捕获和再现目标分布中固有的复杂模式和细节。然后使用反向扩散过程使生成的数据更接近原始情况的分布。因此,它具有强大的自我推理能力,能够自动发现特征表示并从数据集中捕获更微妙的关系。此外,自我推理消除了手动特征工程的需要,简化了模型构建的过程。我们的框架提供了一种颠覆性的范式转变,可以解析复杂的物理过程,自动从大量数据集中发现模式。

论文链接: https://arxiv.org/abs/2407.16255

可识别的潜在赌徒:结合观测数据和探索以实现个性化医疗

原标题: Identifiable latent bandits: Combining observational data and exploration for personalized healthcare

作者: Ahmet Zahid Balcıoğlu, Emil Carlsson, Fredrik D. Johansson

机构: 查尔默斯理工大学

摘要: 赌博算法在改善个性化决策方面具有巨大潜力,但以样本为中心。在大多数健康应用中,为每个患者拟合一个新的赌博算法是不可行的,可观测变量通常不足以确定最佳治疗方案,因此无法应用从多个患者学习的情境赌博算法。潜在赌博算法提供了快速探索和个性化,超越了上下文变量所能揭示的内容,但需要能够一致地学习潜在变量模型。在这项工作中,我们提出了基于非线性独立成分分析的赌博算法,可以从观测数据中被证明可以被识别到足以一致地推断出新赌博实例中的最佳行动。我们在模拟数据中验证了这一策略,显示出相对于为每个实例学习独立多臂赌博算法的显著改进。

论文链接: https://arxiv.org/abs/2407.16239

集成梯度上的代数对抗攻击

原标题: Algebraic Adversarial Attacks on Integrated Gradients

作者: Lachlan Simpson, Federico Costanza, Kyle Millar, Adriel Cheng, Cheng-Chew Lim, Hong Gunn Chew

机构: 阿德莱德大学 澳大利亚 防务科学与技术集团

摘要: 对可解释性模型的对抗攻击在安全关键系统中使用解释来理解神经网络推理时会产生严重后果。路径方法是一类易受对抗攻击的归因方法之一。对抗学习通常被表述为一个受限制的优化问题。在这项工作中,我们提出了代数对抗样本,并研究了生成集成梯度对抗样本的条件。代数对抗样本提供了一种在数学上可处理的对抗样本方法。

论文链接: https://arxiv.org/abs/2407.16233

Logifold:集成机器学习的几何基础

原标题: Logifold: A Geometrical Foundation of Ensemble Machine Learning

作者: Inkee Jung, Siu-Cheong Lau

机构: 波士顿大学

摘要: 我们提出了一种从局部到全局的、基于测度论的方法来理解数据集。核心思想是构建一个logifold结构,并将具有受限域的网络模型解释为数据集的局部图表。特别是,这为集成机器学习提供了数学基础。我们的实验表明,logifolds可以用来识别模糊域,并在提高准确性方面优于取模型输出的平均值。此外,我们提供了一个logifold的理论示例,强调了在集成中限制分类器域的重要性。

论文链接: https://arxiv.org/abs/2407.16177

像素嵌入:具有可微查找表的完全量化卷积神经网络

原标题: Pixel Embedding: Fully Quantized Convolutional Neural Network with Differentiable Lookup Table

作者: Hiroyuki Tokunaga, Joel Nicholls, Daria Vazhenina, Atsunori Kanemura

机构: LeapMind公司, 丰田汽车旗下的Woven部门, 未提及其他学校或企业名称。

摘要: 通过将网络权重和激活量化为低比特宽度,我们可以获得友好硬件且高效能的网络。然而,现有的量化技术利用直通估计器和分段常数函数面临一个问题,即如何用低比特值表示原始高比特输入数据。为了完全量化深度神经网络,我们提出了像素嵌入,它通过使用查找表,将每个浮点值输入像素替换为一组量化值的向量。像素的查找表或低比特表示是可微分的,并可通过反向传播进行训练。将输入替换为向量类似于自然语言处理领域的词嵌入。在ImageNet和CIFAR-100上的实验表明,像素嵌入将由于将浮点数量化为第一层而引起的前5个错误差距减少到仅为1%,对于ImageNet数据集,将由于将第一层和最后一层量化而引起的前1个错误差距减少到略高于1%的CIFAR-100数据集。像素嵌入的实用性进一步通过推断时间测量加以证明,相比于浮点精度的第一层,速度提升了超过1.7倍。

论文链接: https://arxiv.org/abs/2407.16174

表示规模对隐私漏洞具有责任。

原标题: Representation Magnitude has a Liability to Privacy Vulnerability

作者: Xingli Fang, Jung-Eun Kim

机构: 北卡罗来纳州立大学 JEKimLab

摘要: 近年来,关于机器学习(ML)模型的隐私保护方法取得了实质性进展。然而,目前仍不清楚在哪些情况和条件下模型会变得容易泄露隐私,这导致了ML模型在保持性能和隐私方面面临挑战。在本文中,我们首先探讨了在常见训练框架下成员数据和非成员数据在模型表示中的差异。我们确定了表示幅度差异如何与隐私漏洞相关,并解决了这种相关性如何影响隐私漏洞的问题。基于观察结果,我们提出了Saturn Ring Classifier Module(SRCM),这是一个插件级别的模型解决方案,用于减轻成员隐私泄露。通过一个受限但有效的表示空间,我们的方法改善了模型的隐私漏洞问题,同时保持了泛化能力。这项工作的代码可以在这里找到:\url{this https URL}

论文链接: https://arxiv.org/abs/2407.16164

Github: https://github.com/JEKimLab/AIES2024_SRCM

TransFeat-TPP:一种可解释的深度协变量时间点过程

原标题: TransFeat-TPP: An Interpretable Deep Covariate Temporal Point Processes

作者: Zizhuo Meng, Boyu Li, Xuhui Fan, Zhidong Li, Yang Wang, Fang Chen, Feng Zhou

机构: 悉尼科技大学 澳大利亚 麦考瑞大学 中国人民大学 未来区块链与隐私计算高级创新中心 中国

摘要: 经典的时间点过程(TPP)通过考虑发生时间来构建强度函数。然而,发生时间可能不是唯一相关因素,其他上下文数据,称为协变量,也可能影响事件演变。将这些协变量纳入模型是有益的,同时区分它们对事件动态的相关性具有重要的实际意义。在这项工作中,我们提出了基于Transformer的协变量时间点过程(TransFeat-TPP)模型,以提高深度协变量-TPP的可解释性,同时保持强大的表达能力。TransFeat-TPP可以有效地建模事件和协变量之间的复杂关系,并通过辨别各种协变量的重要性提供增强的可解释性。对合成和真实数据集的实验结果表明,与现有的深度协变量-TPP相比,预测准确性得到了提高,并且特征重要性始终具有一致的可解释性。

论文链接: https://arxiv.org/abs/2407.16161

关于注意力层中排名的益处

原标题: On the Benefits of Rank in Attention Layers

作者: Noah Amsel, Gilad Yehudai, Joan Bruna

机构: 纽约大学 康朗数学科学研究所 数据科学中心 Flatiron研究所

摘要: 基于注意力机制在机器学习中被广泛使用,最主要是在Transformer中。然而,注意力矩阵的秩和头数等超参数在这种架构的所有实现中几乎以相同的方式进行缩放,但缺乏理论上的证明。在这项工作中,我们展示了注意力机制的秩和头数之间存在着显著的权衡。具体来说,我们提出了一个简单而自然的目标函数,可以使用单个全秩注意力头来表示任何上下文长度,但除非头数在嵌入维度上呈指数增长,否则无法用低秩注意力来逼近。此外,我们证明,对于短上下文长度,增加深度可以使目标可以用低秩注意力来逼近。对于长上下文,我们推测全秩注意力是必要的。最后,我们通过使用现成的Transformer进行实验,验证了我们的理论发现。

论文链接: https://arxiv.org/abs/2407.16153

使用FinBERT-LSTM预测股票价格:整合新闻情感分析

原标题: Predicting Stock Prices with FinBERT-LSTM: Integrating News Sentiment Analysis

作者: Wenjun Gu, Yihao Zhong, Shizun Li, Changsong Wei, Liting Dong, Zhuoyue Wang, Chao Yan

机构: 约翰霍普金斯大学 华盛顿大学 纽约大学 南卫理公会大学 加州大学伯克利分校 东北大学

摘要: 股市的上涨通常反映了经济繁荣的状态,而其下跌往往是经济衰退的指标。因此,长期以来,用于预测金融股市趋势的重要相关因素已被广泛讨论,人们对金融文本挖掘任务越来越感兴趣。股价固有的不稳定性使其对金融市场内波动非常敏感。在本文中,我们利用基于股价历史和金融、商业、技术新闻文章的深度学习网络来预测股价,这些文章介绍了市场信息。我们通过将加权新闻类别整合到预测模型中,展示了预测精度的提升。我们开发了一个名为FinBERT的预训练NLP模型,旨在识别金融文本中的情绪。随后,我们通过将复杂的长短期记忆(LSTM)架构纳入,构建了创新的FinBERT-LSTM模型。该模型利用与股市结构层次相关的新闻类别,即市场、行业和股票相关的新闻类别,结合前一周的股市股价情况进行预测。我们选择了NASDAQ-100指数股票数据,并在Benzinga新闻文章上训练了模型,并利用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和准确性作为评估和比较分析模型性能的关键指标。结果表明,FinBERT-LSTM表现最佳,其次是LSTM,DNN模型在有效性方面排名第三。

论文链接: https://arxiv.org/abs/2407.16150

通过多项选择题改进少样本图像分类

原标题: Improved Few-Shot Image Classification Through Multiple-Choice Questions

作者: Dipika Khullar, Emmett Goodman, Negin Sokhandan

摘要: 通过一个简单的多项选择语言提示,VQA模型可以作为零样本图像分类器运行,生成一个分类标签。与典型的图像编码器相比,VQA模型提供了一个优势:通过定制的语言提示,VQA生成的图像嵌入可以注入最相关的视觉信息。然而,对于大多数任务来说,零样本VQA性能不佳,要么是因为不熟悉的类别名称,要么是因为预训练数据和测试数据分布不同。我们提出了一种简单的方法,通过少量标记示例和一个多项选择问题来提升图像分类的VQA性能。这种少样本方法无需训练,并保持了VQA模型的动态和灵活优势。我们的方法不依赖于最终的语言输出,而是使用多项选择问题来提取特定提示的潜在表示,这些表示与相关的视觉信息相结合。这些表示被组合在一起创建一个最终的整体图像嵌入,通过参考从少量标记示例构建的潜在类原型进行解码。我们展示了这种方法在常见的少样本任务(包括MiniImageNet、Caltech-UCSD Birds和CIFAR-100)上优于纯视觉编码器和零样本VQA基线,取得了令人印象深刻的性能。最后,我们展示了我们的方法在具有许多不同视觉属性的环境中表现特别出色,比如面料、文章风格、质地和不同服装的视图,其他少样本方法在这些情况下很难应对,因为我们可以根据感兴趣的语义特征定制我们的图像表示。

论文链接: https://arxiv.org/abs/2407.16145

离线强化学习中扩散模型作为高效规划优化器

原标题: Diffusion Models as Optimizers for Efficient Planning in Offline RL

作者: Renming Huang, Yunqiang Pei, Guoqing Wang, Yangming Zhang, Yang Yang, Peng Wang, Hengtao Shen

机构: 电子科技大学 同济大学

摘要: 扩散模型通过将决策制定为顺序生成,在离线强化学习任务中表现出了强大的竞争力。然而,由于它们需要冗长的推理过程,这些方法的实用性受到了限制。本文通过将扩散模型的抽样过程分解为两个解耦的子过程来解决这一问题:1)生成可行轨迹,这是一个耗时的过程;2)优化轨迹。通过这种分解方法,我们能够部分分离效率和质量因素,从而使我们能够同时获得效率优势并确保质量保证。我们提出了轨迹扩散器,它利用更快的自回归模型来处理可行轨迹的生成,同时保留扩散模型的轨迹优化过程。这使我们能够实现更高效的规划而不牺牲能力。为了评估轨迹扩散器的有效性和效率,我们在D4RL基准上进行了实验。结果表明,我们的方法在推理速度方面比先前的序列建模方法快 3 \it 3 3- 10 × \it 10 \times 10×,同时在整体性能方面也表现优异。

论文链接: https://arxiv.org/abs/2407.16142

Github: https://github.com/RenMing-Huang/TrajectoryDiffuser

通过提示驱动的特征转换解决联邦学习中的特征分类器不匹配问题

原标题: Tackling Feature-Classifier Mismatch in Federated Learning via Prompt-Driven Feature Transformation

作者: Xinghao Wu, Jianwei Niu, Xuefeng Liu, Mingjia Shi, Guogang Zhu, Shaojie Tang

机构: 北京航空航天大学 西安电子科技大学 四川大学 布法罗大学

摘要: 在传统的联邦学习方法(如FedAvg)中,当面对数据异质性时,全局模型表现不佳。个性化联邦学习(PFL)使客户能够训练个性化模型,以更好地适应其本地数据分布。然而,令人惊讶的是,我们发现FedAvg中的特征提取器优于大多数PFL方法中的特征提取器。更有趣的是,通过对特征提取器提取的本地特征应用线性变换以与分类器对齐,FedAvg可以超越大多数PFL方法。这表明FedAvg性能不佳的主要原因在于本地提取的特征与分类器之间的不匹配。虽然当前的PFL方法在一定程度上缓解了这个问题,但它们的设计却牺牲了特征提取器的质量,从而限制了PFL的全部潜力。在本文中,我们提出了一个名为FedPFT的新的PFL框架,以解决不匹配问题同时增强特征提取器的质量。FedPFT在全局特征提取器和分类器之间集成了一个由个性化提示驱动的特征转换模块。在每一轮中,客户端首先训练提示以转换本地特征以匹配全局分类器,然后再训练模型参数。这种方法还可以使客户端的训练目标保持一致,减少数据异质性对模型协作的影响。此外,FedPFT的特征转换模块具有很高的可扩展性,允许使用不同的提示来定制本地特征以适应各种任务。利用这一点,我们引入了一个协作对比学习任务,以进一步改进特征提取器的质量。我们的实验证明,FedPFT的表现比最先进的方法提高了高达7.08%。

论文链接: https://arxiv.org/abs/2407.16139

扩散 Transformer 捕获空间 - 时间依赖关系:高斯过程数据的理论

原标题: Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data

作者: Hengyu Fu, Zehao Dou, Jiawei Guo, Mengdi Wang, Minshuo Chen

机构: 清华大学 哈佛大学

摘要: Diffusion Transformer,Sora 视频生成的骨干,成功扩展了扩散模型的容量,开创了高保真序列数据生成的新途径。与静态数据(如图像)不同,序列数据由时间索引的连续数据帧组成,展现出丰富的空间和时间依赖关系。这些依赖关系代表了潜在的动态模型,并且对验证生成的数据至关重要。在本文中,我们首次在桥接扩散 Transformer 以捕获时空依赖关系方面迈出了理论步伐。具体而言,我们建立了扩散 Transformer 的分数逼近和分布估计保证,用于学习具有不同衰减模式协方差函数的高斯过程数据。我们强调了空间-时间依赖关系是如何被捕获并影响学习效率的。我们的研究提出了一种新颖的 Transformer 近似理论,其中 Transformer 的作用是展开一个算法。我们通过数值实验支持我们的理论结果,提供了强有力的证据,即空间-时间依赖关系在注意力层内得到捕获,与我们的近似理论相一致。

论文链接: https://arxiv.org/abs/2407.16134

实现智能移动性的多模态时空数据融合和预测

原标题: Towards Effective Fusion and Forecasting of Multimodal Spatio-temporal Data for Smart Mobility

作者: Chenxing Wang

机构: 北京邮电大学

摘要: 随着基于位置的服务的快速发展,多模态时空(ST)数据,包括轨迹、交通方式、交通流量和社交签到等数据正在被用于基于深度学习的方法。这些基于深度学习的方法学习ST之间的相关性,以支持智能移动、智能城市和其他智能交通系统等领域的下游任务。尽管它们有效,但ST数据融合和预测方法在现实场景中面临着实际挑战。首先,对于ST数据不足的区域,预测性能较差,因此需要从异构区域转移元知识以增强稀疏表示。其次,在多交通方式场景中准确预测是非常困难的,因为类似交通方式的细粒度ST特征,因此需要区分和衡量ST之间的相关性,以减轻由纠缠的ST特征引起的影响。最后,在某些场景中由于隐私或技术问题,部分数据模态(例如交通方式)会丢失,因此需要有效地融合多模态稀疏ST特征并丰富ST表示。为了解决这些挑战,我们的研究旨在为智能移动场景中的多模态ST数据开发有效的融合和预测方法。在本文中,我们将介绍我们最近的研究,探讨各种实际应用中的挑战,并为未来工作建立这一领域的开放性挑战。

论文链接: https://arxiv.org/abs/2407.16123

专家意见的聚合,重新审视

原标题: Aggregation of expert advice, revisited

作者: Aryeh Kontorovich

机构: 本杰古利安大学计算机科学系

摘要: 我们重新审视了经典问题,即从条件独立的专家那里聚合二进制建议,也被称为朴素贝叶斯设置。我们感兴趣的量是最优决策规则的错误概率。在对称情况下(敏感性=特异性),已知最优错误概率的相当紧密的界限。在一般的非对称情况下,我们不知道该数量的任何非平凡估计。我们的贡献包括对一般情况下最优错误概率的尖锐上界和下界,这些界限恢复并加强了对称特殊情况中已知的最佳结果。由于这相当于估计两个产品分布之间的总变差距离,我们的结果也与这个重要且具有挑战性的问题有关。

论文链接: https://arxiv.org/abs/2407.16642

学习打桌球:系统和基线

原标题: Learning to Play Foosball: System and Baselines

作者: Janosch Moos, Cedric Derstroff, Niklas Schröder, Debora Clever

机构: IEEE国际机器人与自动化大会(ICRA 2024)

摘要: 这项工作将桌上足球作为一个多功能平台,用于推动科学研究的发展,特别是在机器人学习领域。我们提出了一个自动化桌上足球台及其相应的模拟对应物,通过桌上足球环境中的示例任务展示了各种挑战。我们使用简单的基准方法分享了初步发现。桌上足球构成了一个多功能学习环境,有潜力在各个人工智能和机器学习领域产生前沿研究,特别是在稳健学习方面,同时还将其适用性扩展到工业机器人技术和自动化设置。为了将我们的物理桌上足球台转变为一个研究友好型系统,我们增加了一个两自由度运动链,用于控制门将杆,作为一个初始设置,并打算尽快扩展到整个比赛。我们的实验表明,逼真的模拟对于掌握复杂的机器人任务至关重要,然而将这些成就转化到实际系统仍然具有挑战性,通常伴随着性能下降。这强调了在这个方向上进行研究的关键重要性。在这方面,我们将自动化桌上足球台作为一个宝贵的工具,具有许多理想的特性,可作为一个苛刻的学习环境,推动机器人技术和自动化研究的发展。

论文链接: https://arxiv.org/abs/2407.16606

在H&E切片中评估肿瘤边缘的淋巴细胞浸润

原标题: Lymphoid Infiltration Assessment of the Tumor Margins in H&E Slides

作者: Zhuxian Guo, Amine Marzouki, Jean-François Emile, Henning Müller, Camille Kurtz, Nicolas Loménie

机构: 巴黎大学城市分校(LIPADE),西部瑞士应用科学大学(HES-SO Valais),安布瓦兹医院(Ambroise-Paré Hospital)

摘要: 在实体肿瘤中,肿瘤边缘的淋巴细胞浸润是一个关键的预后标志,对指导免疫治疗决策起着至关重要的作用。目前的评估方法主要依赖免疫组织化学(IHC),在肿瘤边缘描绘方面存在挑战,并受到组织保存条件的影响。相比之下,我们提出了一种基于Hematoxylin和Eosin(H&E)染色的方法,该方法以在公共数据集上训练的先进淋巴细胞分割模型为基础,可精确检测CD3+和CD20+淋巴细胞。在我们的结肠癌研究中,我们证明了我们基于H&E的方法是传统IHC的一个引人注目的替代方案,在许多情况下取得了可比较的结果。我们进一步通过图灵测试验证了我们方法的有效性,该测试涉及病理学家对来自H&E和IHC玻片的匿名曲线进行盲目评估。这种方法邀请医学界考虑将图灵测试作为评估涉及专家人工评估的医学应用的标准,从而为增强癌症管理和免疫治疗规划开辟新途径。

论文链接: https://arxiv.org/abs/2407.16464

基于陆地表面模型的预测方法的进展:LSTM、梯度提升和前馈神经网络模型的比较研究作为预测状态仿真器

原标题: Advances in Land Surface Model-based Forecasting: A comparative study of LSTM, Gradient Boosting, and Feedforward Neural Network Models as prognostic state emulators

作者: Marieke Wesselkamp, Matthew Chantry, Ewan Pinnington, Margarita Choulga, Souhail Boussetta, Maria Kalweit, Joschka Boedecker, Carsten F. Dormann, Florian Pappenberger, Gianpaolo Balsamo

摘要: 对公众最有用的天气预测是接近地表的。对于接近地表天气预测最相关的过程也是那些最具交互性并表现出正反馈或在能量分配中起关键作用的过程。陆地表面模型(LSMs)考虑这些过程以及地表异质性,并预测水、碳和能量通量,并与大气模型耦合提供边界和初始条件。由于大气边界的数值参数化计算成本高昂,统计代理模型越来越多地用于加速实验研究的进展。我们评估了三种代理模型在加速实验研究中模拟陆地表面过程的效率,这些过程对于预测耦合大气模型中的水、碳和能量通量至关重要。具体而言,我们在物理信息多目标框架内比较了长短期记忆(LSTM)编码器-解码器网络、极限梯度提升和前馈神经网络的性能。该框架在大陆和全球尺度上模拟了ECMWF的集成预报系统(IFS)陆地表面方案ECLand的关键状态。我们的研究结果表明,尽管所有模型在预测期间平均表现出高准确性,但在经过精心调整时,LSTM网络在大陆长期预测方面表现出色,XGB在各项任务中得分始终很高,而MLP在实现时间和准确性之间提供了出色的平衡。与完整数值模型相比,代理模型实现的运行时间缩短显著,为在陆地表面进行数值实验提供了更快但可靠的替代方案。

论文链接: https://arxiv.org/abs/2407.16463

关于利用语音和音频基础模型进行狨猴叫声分析的实用性

原标题: On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis

作者: Eklavya Sarkar, Mathew Magimai.-Doss

机构: Idiap研究所 瑞士 艾迪亚普研究所
Ecole polytechnique f ´ed´erale de Lausanne 瑞士 洛桑联邦理工学院

摘要: 狨猴在其叫声中编码重要信息,并作为神经生物学家理解人类语音沟通进化起源的替代模型。传统上,使用基于信号处理的特征进行分析,最近的方法利用在人类语音上预训练的自监督模型进行特征提取,利用它们能够独立于声学领域学习信号的内在结构的能力。然而,这种基础模型在狨猴叫声分析中在多类分类、带宽和预训练领域方面的效用仍不清楚。本研究评估了从语音和一般音频领域派生的特征表示,在狨猴叫声类型和叫声者分类任务中,跨4、8和16 kHz的预训练带宽。结果显示,带宽更高的模型提高了性能,并且在语音或一般音频上的预训练产生了可比较的结果,改善了谱基线。

论文链接: https://arxiv.org/abs/2407.16417

基于数据驱动的核均值嵌入优化反馈定律

原标题: Data-Driven Optimal Feedback Laws via Kernel Mean Embeddings

作者: Petar Bevanda, Nicolas Hoischen, Stefan Sosnowski, Sandra Hirche, Boris Houska

机构: IEEE 维也纳工业大学

摘要: 这篇论文提出了一种完全数据驱动的方法,用于非线性控制仿射系统的最优控制,这些系统由随机扩散表示。重点放在非线性动力学和阶段成本函数均未知的情况下,仅提供控制惩罚函数和约束的场景上。利用再生核希尔伯特空间理论,我们引入了新颖的核均值嵌入(KMEs)来识别与受控扩散过程相关的马尔可夫转移算子。KME学习方法与现代凸算子理论的Hamilton-Jacobi-Bellman递归无缝集成。因此,与传统的动态规划方法不同,我们的方法利用“核技巧”来打破维度诅咒。我们通过数值示例展示了我们方法的有效性,突出了其解决大类非线性最优控制问题的能力。

论文链接: https://arxiv.org/abs/2407.16407

HI-EF:在人际互动中进行情绪预测的基准测试

原标题: Hi-EF: Benchmarking Emotion Forecasting in Human-interaction

作者: Haoran Wang, Xinji Mai, Zeng Tao, Yan Wang, Jiawen Yu, Ziheng Zhou, Xuan Tong, Shaoqi Yan, Qing Zhao, Shuyong Gao, Wenqiang Zhang

机构: 复旦大学

摘要: 情感预测是心理学中的一个研究方向,用于预测个体未来的情绪,通常受到诸如社会影响和时间距离等许多外部因素的限制。为了解决这个问题,我们将情感预测转化为一个深度学习问题,通过设计一个基于双方互动的情绪预测范式。我们提出了一项新颖的情绪预测(EF)任务,基于这样一个理论:个体的情绪很容易受到与另一个人互动期间传达的情绪或其他信息的影响。为了解决这个任务,我们开发了一个专门的数据集,人际互动情感预测(Hi-EF),其中包含3069个双方多层次上下文交互样本(MCIS),具有丰富的情感相关标签和三种形式。Hi-EF不仅展示了EF任务的可行性,还突显了其潜力。此外,我们提出了一种方法论,为EF任务建立了一个基础和参考基线模型,并提供了大量实验证明。该数据集和代码可在此 https URL 上获得。

论文链接: https://arxiv.org/abs/2407.16406

Github: https://github.com/Anonymize-Author/Hi-EF

基于强化学习的自适应场地未校正DRAM错误的缓解

原标题: Reinforcement Learning-based Adaptive Mitigation of Uncorrected DRAM Errors in the Field

作者: Isaac Boixaderas, Sergi Moré, Javier Bartolome, David Vicente, Petar Radojković, Paul M. Carpenter, Eduard Ayguadé

机构: 巴塞罗那超级计算中心 Universitat Politècnica de Catalunya

摘要: 以当前可靠性水平为基础,扩展到更大规模的系统需要成本效益高的方法来减轻硬件故障。硬件故障的主要原因之一是内存中的未纠正错误,这会终止当前作业并浪费自上次检查点以来的所有计算。本文提出了第一个用于触发未纠正错误减轻的自适应方法。它采用了一种考虑未纠正错误可能性及其当前潜在成本的预测方法。该方法基于强化学习,唯一的用户定义参数是减轻成本以及作业是否可以从减轻点重新启动。我们使用经典机器学习指标以及成本效益分析来评估我们的方法,该分析比较了减轻行动的成本与减轻部分错误带来的收益。在来自MareNostrum超级计算机的两年生产日志上,我们的方法将丢失的计算时间减少了54%,与无减轻相比,仅低于最佳Oracle方法6%。所有源代码均为开源。

论文链接: https://arxiv.org/abs/2407.16377

贝叶斯自回归在线变点检测与时变参数

原标题: Bayesian Autoregressive Online Change-Point Detection with Time-Varying Parameters

作者: Ioanna-Yvonni Tsaknaki, Fabrizio Lillo, Piero Mazzarisi

摘要: 现实世界系统中的变化点标志着系统动态的重大转变,可能是由外生或内生因素触发的。这些点定义了系统时间演变的制度,并且对于理解金融、经济、社会、环境和技术背景下的转变至关重要。在\cite{c:07}中引入的贝叶斯方法的基础上,我们设计了一种新的方法,用于在线检测单变量时间序列均值的变化点,非常适用于实时应用,并且能够处理数据在许多实证背景下展示的一般时间模式。首先,我们将时间序列描述为任意阶数的自回归过程。其次,数据的方差和相关性允许在每个制度内变化,由一个更新参数值的评分规则驱动,以更好地拟合观察结果。最后,通过当前制度长度的后验分布在概率框架中检测变化点。通过建模时间依赖性和时变参数,所提出的方法增强了估计精度和预测能力。使用各种数据集进行的实证验证表明了该方法在捕捉记忆和动态模式方面的有效性,为深入了解现实世界系统的非平稳动态提供了更深入的见解。

论文链接: https://arxiv.org/abs/2407.16376

在医学图像分割中导航不确定性

原标题: Navigating Uncertainty in Medical Image Segmentation

作者: Kilian Zepf, Jes Frellsen, Aasa Feragen

机构: 丹麦技术大学

摘要: 我们讨论了医学影像中不确定分割方法的选择和评估,并提出了两个案例研究:前列腺分割,说明对于最小的注释者变化,简单的确定性模型就足够了;肺部病变分割,突出了广义能量距离(GED)在模型选择中的局限性。我们的研究结果为准确选择和开发不确定分割模型提供了指导,这些模型整合了偶然性和认知性组件。这些指导旨在帮助研究人员和从业者更好地开发、选择和评估不确定分割方法,从而促进不确定分割在实践中的增强采用和有效应用。

论文链接: https://arxiv.org/abs/2407.16367

使用卷积神经网络对个别乐器音轨进行自动均衡化

原标题: Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks

作者: Florian Mockenhaupt, Joscha Simon Rieber, Shahan Nercessian

机构: Native Instruments 美国波士顿大学 德国朗根费尔德大学

摘要: 我们提出了一种新颖的方法,用于自动均衡单独的乐器音轨。我们的方法首先通过识别源录音中存在的乐器来选择其对应的理想频谱作为目标。接下来,计算录音与目标之间的频谱差异,然后使用均衡器匹配模型来预测参数均衡器的设置。为此,我们基于可微分的参数均衡器匹配神经网络,相对于先前建立的最先进技术,展示了改进。与过去的方法不同,我们展示了我们的系统如何在训练匹配模型期间自然地利用现实世界的音频数据,有效地以自动化方式生成适当的训练目标,反映推断时的条件。因此,我们说明了如何在这些示例上微调我们的匹配模型,显著改善了实际场景中的参数均衡器匹配性能,将平均绝对误差相对于仅依赖于随机参数抽样技术作为自监督学习策略的方法降低了24%。我们进行了听觉测试,并展示了我们提出的自动均衡解决方案如何主观地增强了常见乐器类型录音的音调特性。

论文链接: https://arxiv.org/abs/2407.16691

在持续全景分割中取得平衡

原标题: Strike a Balance in Continual Panoptic Segmentation

作者: Jinpeng Chen, Runmin Cong, Yuxuan Luo, Horace Ho Shing Ip, Sam Kwong

机构: 香港城市大学 山东大学 岭南大学

摘要: 这项研究探讨了不断发展的全景分割领域,突出了三个关键平衡点。首先,我们引入了过去类别回溯蒸馏技术,以平衡现有知识的稳定性和对新信息的适应性。该技术根据最终的标签分配结果重新跟踪与过去类别相关联的特征,执行知识蒸馏,针对先前模型中的这些特定特征,同时允许其他特征灵活适应新信息。此外,我们引入了一种按类比例的记忆策略,将重播样本集中的类分布与历史训练数据中的类分布对齐。这种策略在重播过程中保持了平衡的类表示,增强了有限容量的重播样本集在回忆先前类别时的效用。此外,我们意识到重播样本仅针对其原始步骤的类别进行了注释,因此我们设计了平衡的反误导损失,以抵消不完整注释的影响,而不会产生分类偏见。基于这些创新,我们提出了一种名为平衡不断全景分割(BalConpas)的新方法。我们在具有挑战性的ADE20K数据集上的评估显示,与现有最先进方法相比,其性能更优越。官方代码可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.16354

Github: https://github.com/jinpeng0528/BalConpas

一个利用大规模人类数据进行自主赛车仿真基准测试

原标题: A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data

作者: Adrian Remonda, Nicklas Hansen, Ayoub Raji, Nicola Musiu, Marko Bertogna, Eduardo Veas, Xiaolong Wang

摘要: 尽管国际奖金竞赛、按比例缩小的车辆和模拟环境等资源已经可用,但自主赛车研究和控制运行在极限操控范围内的跑车方面受到车辆获取和管理成本高昂,以及开源模拟器物理精度有限的限制。在本文中,我们提出了一个基于模拟器Assetto Corsa的赛车模拟平台,用于测试、验证和基准自主驾驶算法,包括强化学习(RL)和经典的模型预测控制(MPC),在现实和具有挑战性的场景中。我们的贡献包括开发这个模拟平台,针对赛车环境量身定制的几种最先进的算法,以及从人类驾驶员那里收集的全面数据集。此外,我们在离线RL设置中评估算法。所有必要的代码(包括环境和基准)、工作示例、数据集和视频都已公开发布,可在以下网址找到:\url{this https URL}。

论文链接: https://arxiv.org/abs/2407.16680

Github: https://assetto-corsa-gym.github.io

基于数据驱动的多阶段分布鲁棒线性优化与嵌套距离

原标题: Data-driven Multistage Distributionally Robust Linear Optimization with Nested Distance

作者: Rui Gao, Rohit Arora, Yizhe Huang

机构: 德克萨斯大学奥斯汀分校

摘要: 我们研究多阶段分布鲁棒线性优化,其中不确定性集被定义为以嵌套距离为中心的分布球形成的情景树。由于其固有的非凸性,由此产生的极小极大问题极为难以解决。在本文中,我们证明在温和条件下,给定策略的鲁棒风险评估可以用等价的递归形式表示。此外,假设阶段独立性,我们推导出等价的动态规划重构形式,以找到一个最优的鲁棒策略,该策略在未见样本路径上是时间一致且明确定义的。我们的重构调和了两个建模框架:多阶段静态形式(带有嵌套距离)和多阶段动态形式(带有一期Wasserstein距离)。此外,我们确定了可利用凸优化技术高效计算价值函数的可处理情况。

论文链接: https://arxiv.org/abs/2407.16346

从模仿到精炼–用于精确视觉装配的残差强化学习

原标题: From Imitation to Refinement – Residual RL for Precise Visual Assembly

作者: Lars Ankile, Anthony Simeonov, Idan Shenfeld, Marcel Torne, Pulkit Agrawal

机构: 麻省理工学院 哈佛大学 Improbable AI Lab

摘要: 行为克隆(BC)目前是学习现实世界视觉操作的主导范式。然而,在需要局部纠正行为(如多部件装配)的任务中,仅通过人类演示来学习稳健策略仍然具有挑战性。强化学习(RL)可以通过允许策略通过任务奖励监督和探索获得局部纠正行为来缓解这些限制。本文探讨了使用RL微调来改进精确操作任务中基于BC训练的策略。我们分析并克服了使用RL直接训练结合现代架构组件(如扩散模型和动作分块)的策略网络所面临的技术挑战。我们提出在冻结的BC训练扩散模型之上训练残差策略,使用标准策略梯度方法和稀疏奖励,这种方法被称为ResiP(用于精确操作的残差)。我们的实验结果表明,这种残差学习框架可以通过学习纠正动作显著提高高精度装配任务中的成功率,超越基础BC训练模型。我们还展示,通过将ResiP与师生蒸馏和视觉域随机化相结合,我们的方法可以直接从RGB图像中学习机器人装配的真实世界策略。在\url{this https URL}找到视频和代码。

论文链接: https://arxiv.org/abs/2407.16677

Github: https://residual-assembly.github.io

使用音频频谱变换器进行合成器声音匹配

原标题: Synthesizer Sound Matching Using Audio Spectrogram Transformers

作者: Fred Bruford, Frederik Blang, Shahan Nercessian

机构: Native Instruments 柏林 德国 伦敦 美国

摘要: 对于合成器声音匹配系统,自动设置合成器参数以模拟输入声音具有潜力使合成器编程过程对新手和经验丰富的音乐家来说更快更容易,同时也提供了与合成器互动的新方式。考虑到市场上合成器的种类繁多,以及其中许多合成器的复杂性,那些能够在对底层合成架构几乎没有知识或先前假设的情况下运行的通用声音匹配系统尤为可取。基于此,我们介绍了一种基于音频频谱 Transformer 的合成器声音匹配模型。我们通过在从流行的 Massive 合成器中随机生成的大型合成数据集上进行训练来展示该模型的可行性。我们展示了该模型可以重建从一组 16 个参数生成的样本的参数,突出了相对于多层感知器和卷积神经网络基准的改进保真度。我们还提供了音频示例,展示了模型在模拟声乐模仿、以及其他合成器和乐器声音方面的跨领域性能。

论文链接: https://arxiv.org/abs/2407.16643

深度学习用于胰腺分割:系统综述

原标题: Deep Learning for Pancreas Segmentation: a Systematic Review

作者: Andrea Moglia, Matteo Cavicchioli, Luca Mainardi, Pietro Cerveri

机构: 米兰理工大学 意大利 帕维亚大学

摘要: 胰腺分割在计算机断层扫描腹部体积中一直是一个传统上具有挑战性的问题,原因是胰腺体积小、形状和位置在患者间变异性大,并且由于胰腺与周围器官之间对比度低而导致边界模糊。在过去几年中,已经提出了许多用于胰腺分割的深度学习模型。我们基于系统评价和Meta分析的首选报告项目(PRISMA)声明,提出了一项全面系统的审查。文献检索是在PubMed、Web of Science、Scopus和IEEE Xplore上进行的,检索范围是2013年至2023年间发表在同行评议期刊上的原始研究。总共检索到了130项研究。我们首先概述了最常见的网络架构和公开可用数据集的技术背景。然后,报告了结合了表格形式的视觉展示和文本描述的研究分析。表格将研究分组,指定了应用、数据集大小、设计(模型架构、学习策略和损失函数)、结果和主要贡献。我们首先分析了关注实质分割的研究,采用由粗到细的方法、多器官分割、半监督学习和无监督学习,然后是关于泛化到其他数据集以及涉及设计新损失函数的研究。接着,我们分析了关于肿瘤、囊肿和炎症分割的研究,报告了多阶段方法、半监督学习、泛化到其他数据集以及设计新损失函数。最后,我们基于已发表的证据提供了关于该主题的批判性讨论,强调在临床转化之前需要解决的当前问题。

论文链接: https://arxiv.org/abs/2407.16313

EffiSegNet:通过基于预训练的EfficientNet网络和简化解码器进行胃肠息肉分割

原标题: EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder

作者: Ioannis A. Vezakis, Konstantinos Georgas, Dimitrios Fotiadis, George K. Matsopoulos

机构: 国立雅典理工大学 医学工程实验室 荷兰阿姆斯特丹TECREANDO B.V. 艾奥尼斯·A·韦扎基斯 伊万纳大学材料科学与工程系 希腊雅典国立技术大学电气与计算机工程学院 康斯坦丁诺斯·乔尔加斯 迪米特里奥斯·福提亚迪斯 伊安尼纳大学材料科学与工程系 希腊雅典国立技术大学电气与计算机工程学院 乔治·K·马特索普洛斯

摘要: 这项工作介绍了EffiSegNet,这是一种新颖的分割框架,利用预训练的卷积神经网络(CNN)分类器作为其骨干。与传统的具有对称U形的架构不同,EffiSegNet简化了解码器并利用全尺度特征融合来最小化计算成本和参数数量。我们在使用公开可用的Kvasir-SEG数据集进行胃肠息肉分割任务的模型进行了评估,取得了最先进的结果。具体来说,EffiSegNet-B4网络变体在F1分数方面达到了0.9552,平均Dice(mDice)0.9483,平均交集联合(mIoU)0.9056,精确度0.9679和召回率0.9429,具有预训练的骨干网络 - 据我们所知,这是文献中针对该数据集报告的最高分数。与从头开始进行的额外训练也表现出比以前的工作更出色的性能,实现了F1分数0.9286,mDice 0.9207,mIoU 0.8668,精确度0.9311和召回率0.9262。这些结果强调了图像分割网络中设计良好的编码器的重要性以及迁移学习方法的有效性。

论文链接: https://arxiv.org/abs/2407.16298

用于增强腹部创伤检测和评估的先进AI框架:将3D分割与2D CNN和RNN模型集成

原标题: Advanced AI Framework for Enhanced Detection and Assessment of Abdominal Trauma: Integrating 3D Segmentation with 2D CNN and RNN Models

作者: Liheng Jiang, Xuechun yang, Chang Yu, Zhizhong Wu, Yuting Wang

机构: 纽约大学 抖音公司 东北大学 谷歌公司 快速科技全球

摘要: 创伤是造成死亡和残疾的重要原因,特别是在四十岁以下的个体中。传统的创伤损伤诊断方法,如X射线、CT扫描和MRI,往往耗时且依赖医疗专业知识,这可能会延误关键的干预措施。本研究探讨了人工智能(AI)和机器学习(ML)在改善腹部创伤诊断速度和准确性方面的应用。我们开发了一种先进的基于AI的模型,结合了3D分割、2D卷积神经网络(CNN)和循环神经网络(RNN)以提高诊断性能。我们的模型处理腹部CT扫描,提供实时、精确的评估,从而改善临床决策和患者预后。全面的实验证明,我们的方法在严格的评估指标下明显优于传统的诊断方法。这项研究为自动创伤检测设立了新的基准,利用AI和ML的优势来彻底改变创伤护理。

论文链接: https://arxiv.org/abs/2407.16165

在图上使用Transformer的晶体,用于预测非传统晶体材料性质和基准测试。

原标题: Crystals with Transformers on Graphs, for Prediction of Unconventional Crystal Material Properties and the Benchmark

作者: Hongyi Wang, Ji Sun, Jinzhe Liang, Li Zhai, Zitian Tang, Zijian Li, Wei Zhai, Xusheng Wang, Weihao Gao, Sheng Gong, Bolong Huang, Hua Zhang

机构: 香港城市大学化学系 中国人民大学数学学院 香港科技大学数据科学与分析中心

摘要: 跨晶格的离子键合和有序的微观结构赋予晶体独特的对称性,并决定它们的宏观性质。特别是非传统晶体表现出非传统的晶格结构或具有奇特的物理性质,使它们成为引人注目的研究对象。因此,要准确预测晶体的物理和化学性质,考虑长程有序是至关重要的。虽然图神经网络在捕捉晶体中原子的局部环境方面表现出色,但由于其有限的深度,它们经常面临有效捕捉长程相互作用的挑战。在本文中,我们提出了CrysToGraph( Crys \textbf{Crys} Crystals with T \textbf{T} Transformers o \textbf{o} on Graph \textbf{Graph} Graphs),这是一种新颖的基于Transformer的几何图网络,专门设计用于非传统晶体系统,以及UnconvBench,一个全面的基准,用于评估模型在非传统晶体材料(如有缺陷的晶体、低维晶体和MOF)上的预测性能。CrysToGraph利用基于Transformer的图卷积块有效捕捉短程相互作用,同时利用基于图的Transformer块捕捉长程相互作用。CrysToGraph在多个任务中证明了其在建模非传统晶体材料方面的有效性,而且它在大部分现有方法上表现出色,在非传统晶体和传统晶体的基准测试中取得了新的最先进结果。

论文链接: https://arxiv.org/abs/2407.16131

强化学习配对交易:一种动态缩放方法

原标题: Reinforcement Learning Pair Trading: A Dynamic Scaling approach

作者: Hongshen Yang, Avinash Malik

机构: 奥克兰大学

摘要: 加密货币是一种基于密码学的数字资产,价格极其波动。每天在交易所交易的加密货币价值约为700亿美元。由于加密市场固有的波动性,交易加密货币是困难的。在这项工作中,我们想要测试一个假设:“人工智能技术能帮助算法交易加密货币吗?”。为了回答这个问题,我们将强化学习(RL)与配对交易相结合。配对交易是一种统计套利交易技术,利用统计相关资产之间的价格差异。我们训练强化学习者确定何时以及如何交易加密货币对。我们为强化学习开发了新的奖励塑造和观察/行动空间。我们对开发的强化学习者在以1分钟间隔分隔的BTC-GBP和BTC-EUR数据对上进行了实验(n = 263,520)。传统的非强化学习配对交易技术实现了年化利润率为8.33%,而提出的基于强化学习的配对交易技术实现了年化利润率从9.94%到31.53%不等,具体取决于强化学习者。我们的结果表明,当应用于诸如加密货币等波动市场时,强化学习可以显著优于手动和传统的配对交易技术。

论文链接: https://arxiv.org/abs/2407.16103

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值