2024年7月17日Arxiv机器学习相关论文

相当准确:在公平目标群检测中优化准确性平等

原标题: Fairly Accurate: Optimizing Accuracy Parity in Fair Target-Group Detection

作者: Soumyajit Gupta, Venelin Kovatchev, Maria De-Arteaga, Matthew Lease

机构: 德克萨斯大学奥斯汀分校 伯明翰大学

摘要: 在算法毒性检测管道中,识别哪些人口群体是帖子的主题非常重要,这是一项通常被称为“目标(群体)检测”的任务。虽然准确的检测显然很重要,但我们进一步提倡公平的目标:为可能成为目标的所有群体提供平等的保护。为此,我们采用“准确性平衡”(AP)——跨群体平衡的检测准确性——作为我们的公平目标。然而,为了使模型训练与我们的AP公平目标保持一致,我们需要一个等效的损失函数。此外,对于基于梯度的模型如神经网络,这个损失函数需要是可微的。由于目前没有针对AP的这种损失函数,我们提出了“群体准确性平衡”(GAP):第一个具有与AP一一映射的可微损失函数。我们通过实验证明,GAP解决了目标检测中对群体的不平等影响。此外,由于一个帖子通常在实践中会针对多个群体,我们还提供了GAP到更大的多群体设置的数学扩展,这在以往的工作中通常需要启发式方法。我们的研究结果表明,通过优化AP,GAP相对于其他常用的损失函数更好地减轻了偏见。

论文链接: https://arxiv.org/abs/2407.11933

使用XGBoost回归器和技术指标进行加密货币价格预测

原标题: Cryptocurrency Price Forecasting Using XGBoost Regressor and Technical Indicators

作者: Abdelatif Hafid, Maad Ebrahim, Ali Alfatemi, Mohamed Rahouti, Diogo Oliveira

机构: ESISA Analytica Higher School of Engineering in Applied Sciences GAIA Ericsson Computer and Information Science Fordham University College of IST Penn State University

摘要: 股市的快速增长吸引了许多投资者,因为它具有巨大利润的潜力。然而,准确预测股票价格是困难的,因为金融市场复杂且不断变化。对于加密货币市场来说尤其如此,该市场以极端波动性而闻名,这使得交易员和投资者难以做出明智和盈利的决策。本研究引入了一种机器学习方法来预测加密货币价格。具体而言,我们利用重要的技术指标,如指数移动平均线(EMA)和移动平均收敛差离(MACD),来训练和喂养 XGBoost 回归模型。我们通过对比特币加密货币的收盘价格进行分析来展示我们的方法。我们通过各种模拟评估模型的性能,展示了令人鼓舞的结果,表明该模型在帮助/指导加密货币交易员和投资者应对动态市场条件方面具有实用性。

论文链接: https://arxiv.org/abs/2407.11786

在Wasserstein空间中利用生成模型全局优化黑盒函数

原标题: Global Optimisation of Black-Box Functions with Generative Models in the Wasserstein Space

作者: Tigran Ramazyan, Mikhail Hushchyn, Denis Derkach

机构: 高等经济学院(HSE University)

摘要: 我们提出了一种新的不确定性估计器,用于使用深度生成替代模型对黑匣子模拟器进行无梯度优化。对于随机模拟器和更高维度的模拟器,优化这些模拟器尤其具有挑战性。为了解决这些问题,我们利用深度生成替代方法来对整个参数空间的黑匣子响应进行建模。然后,我们利用这一知识来基于Wasserstein距离估计提出的不确定性 - Wasserstein不确定性。这种方法应用于后验不可知的无梯度优化算法,该算法在整个参数空间上最小化后悔。进行了一系列测试,以证明我们的方法对于黑匣子函数的形状和黑匣子的随机响应比起最先进的方法(如使用深度高斯过程替代的高效全局优化)更具鲁棒性。

论文链接: https://arxiv.org/abs/2407.11917

定义“好”: 用于合成智能电表数据评估框架

原标题: Defining ‘Good’: Evaluation Framework for Synthetic Smart Meter Data

作者: Sheng Chai, Gus Chadney, Charlot Avery, Phil Grunewald, Pascal Van Hentenryck, Priya L. Donti

机构: 清华大学 剑桥大学

摘要: 获取细粒度需求数据对于实现零净排放转型至关重要;随着我们对可变可再生能源的依赖增加,它可以实现准确的用户画像和主动需求管理。然而,由于隐私问题,这些数据的公开发布通常是不可能的。优质的合成数据可以绕过这一问题。尽管在生成合成智能电表数据方面进行了大量研究,但在创建一致的评估框架方面仍然存在不足。在本文中,我们研究了其他行业常用的共同框架如何应用于合成智能电表数据,例如保真度、实用性和隐私性。我们还推荐具体的指标,以确保智能电表数据的定义性方面得以保留,并测试使用差分隐私来保护隐私的程度。我们表明,标准的隐私攻击方法如重建或成员推断攻击不足以评估智能电表数据集的隐私风险。我们提出了一种改进的方法,通过向训练数据注入不合理的异常值,然后直接对这些异常值进行隐私攻击。选择 ϵ \epsilon ϵ(隐私损失的度量)显著影响隐私风险,突出了在在保真度和隐私之间进行权衡时执行这些明确的隐私测试的必要性。

论文链接: https://arxiv.org/abs/2407.11785

GraphFM:用于多图预训练的可扩展框架

原标题: GraphFM: A Scalable Framework for Multi-Graph Pretraining

作者: Divyansha Lachi, Mehdi Azabou, Vinam Arora, Eva Dyer

机构: 乔治亚理工学院

摘要: 图神经网络通常在单独的数据集上进行训练,通常需要高度专门化的模型和广泛的超参数调整。这种特定于数据集的方法的出现是因为每个图数据集通常具有独特的节点特征和多样的连接结构,这使得构建一个通用模型变得困难。为了解决这些挑战,我们引入了一种可扩展的多图多任务预训练方法,专门针对来自不同领域的各种图数据集的节点分类任务。我们的方法,Graph Foundation Model(GraphFM),利用基于Perceiver的编码器,利用学习到的潜在 token 将领域特定特征压缩到一个共同的潜在空间中。这种方法增强了模型在不同图之间的泛化能力,并允许在不同数据之间进行扩展。我们通过在包含超过740万个节点和1.89亿条边的152个不同图数据集上训练模型来展示我们方法的有效性,建立了跨越许多领域(例如分子、引用和产品图)的多图预训练的首批扩展规律。我们的结果表明,在多样的真实和合成图上进行预训练可以提高模型的适应性和稳定性,同时与最先进的专家模型竞争。这项工作表明,多图预训练可以显著减少当前图训练范式所施加的负担,通过创建一个单一的通用模型,在各种数据集和任务上具有竞争力,为图神经网络领域开辟了新的能力。

论文链接: https://arxiv.org/abs/2407.11907

通过随机傅里叶神经网络实现无需全局优化的深度学习

原标题: Deep Learning without Global Optimization by Random Fourier Neural Networks

作者: Owen Davis, Gianluca Geraci, Mohammad Motamed

机构: 新墨西哥大学 圣地亚哥国家实验室

摘要: 我们引入了一种新的训练算法,适用于利用随机复指数激活函数的各种深度神经网络。我们的方法采用马尔可夫链蒙特卡洛采样过程来迭代地训练网络层,避免了全局和基于梯度的优化,同时保持误差控制。它始终达到了具有复指数激活函数的残差网络的理论逼近速率,该速率由网络复杂度确定。此外,它实现了多尺度和高频特征的高效学习,产生可解释的参数分布。尽管使用正弦基函数,但我们在逼近不连续目标函数时没有观察到吉布斯现象。

论文链接: https://arxiv.org/abs/2407.11894

无标签或特征泄漏的本地特征选择,用于可解释的机器学习预测

原标题: Local Feature Selection without Label or Feature Leakage for Interpretable Machine Learning Predictions

作者: Harrie Oosterhuis, Lijun Lyu, Avishek Anand

摘要: 在机器学习中,局部特征选择通过专注于每个预测中最相关的特征,提供了针对每个实例的解释,增强了复杂模型的可解释性。然而,这种方法往往会通过在选择中编码额外信息来产生误导性解释。在这项工作中,我们通过形式化标签和特征泄漏的概念,归因于误导性选择的问题。我们严格推导出了可以保证没有泄漏的必要和充分条件,并展示现有方法不符合这些条件。此外,我们提出了第一个被证明没有泄漏的局部特征选择方法SUWR。我们的实验结果表明,SUWR不太容易过拟合,并将最先进的预测性能与高特征选择稀疏性相结合。我们的通用且易于扩展的形式化方法为未来关于可靠解释性的工作提供了坚实的理论基础。

论文链接: https://arxiv.org/abs/2407.11778

ITI-IQA:用于异构单变量和多变量缺失数据插补质量评估的工具箱

原标题: ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment

作者: Pedro Pons-Suñer, Laura Arnal, J.Ramón Navarro-Cerdán, François Signol

机构: ITI, Universitat Politècnica de València

摘要: 在大多数处理真实数据的数据科学项目中,缺失数值是一个主要挑战。为了避免丢失宝贵信息,通常会使用填充方法来填补缺失值,从而保留原本会被丢弃的样本或变量。然而,如果填充过程控制不当,可能会生成虚假数值,引入不确定性和偏差到学习过程中。单变量和多变量填充技术的丰富性,以及数据可靠性和保留之间复杂的权衡,使得确定处理缺失值的最佳方法变得困难。在这项工作中,我们提出了ITI-IQA(填充质量评估),这是一组旨在评估各种填充方法可靠性的实用工具,选择适合任何特征或特征组的最佳填充器,并过滤不符合质量标准的特征。进行统计测试来评估每个经过测试的填充器的适用性,确保在填充阶段不会引入新的偏差。结果是一个可训练的过滤器和填充方法流水线,简化了处理缺失数据的过程,支持不同数据类型:连续型、离散型、二元型和分类型。该工具箱还包括一套诊断方法和图形工具,用于在处理缺失数据期间和之后检查测量和结果。

论文链接: https://arxiv.org/abs/2407.11767

学习不平衡数据分类的置信区间

原标题: Learning Confidence Bounds for Classification with Imbalanced Data

作者: Matt Clifford, Jonathan Erskine, Alexander Hepburn, Raúl Santos-Rodríguez, Dario Garcia-Garcia

机构: 布里斯托大学 美国热浪事件

摘要: 在分类任务中,类别不平衡构成了一个重要挑战,传统方法往往导致模型偏见和不可靠的预测。欠采样和过采样技术通常被用来解决这个问题,但它们都存在固有的局限性,源自它们简单的方法,比如信息丢失和额外的偏见。在本文中,我们提出了一个新颖的框架,利用学习理论和集中不等式来克服传统解决方案的缺点。我们专注于以类别为基础捕获的不确定性,通过置信区间直接嵌入到学习过程中。通过结合类别相关的估计,我们的方法可以有效地适应不同类别之间不平衡程度的变化,从而产生更健壮和可靠的分类结果。我们通过实验证明了我们的框架如何为处理分类任务中的不平衡数据提供了一个有前途的方向,为从业者提供了一个构建更准确和可信赖模型的宝贵工具。

论文链接: https://arxiv.org/abs/2407.11878

放松图变换器用于对抗性攻击

原标题: Relaxing Graph Transformers for Adversarial Attacks

作者: Philipp Foth, Lukas Gosch, Simon Geisler, Leo Schwinn, Stephan Günnemann

机构: 德累斯顿工业大学

摘要: 现有研究表明,图神经网络(GNNs)容易受到对抗性攻击的影响。尽管图Transformer(GTs)在几个基准测试中超越了消息传递GNNs,但它们的对抗鲁棒性特性尚未被探索。然而,由于它们的位置编码(PEs)和特殊的注意机制很难区分,攻击GTs具有挑战性。我们通过针对基于(1)随机游走PEs,(2)成对最短路径PEs和(3)谱PEs的三种代表性架构,提出了针对GTs的第一个自适应攻击。我们利用我们的攻击来评估对(a)节点分类的结构扰动的鲁棒性;以及(b)用于(虚假新闻)图分类的节点注入攻击。我们的评估显示它们可能极其脆弱,并强调了我们工作的重要性以及自适应攻击的必要性。

论文链接: https://arxiv.org/abs/2407.11764

简化过度平滑理论

原标题: Simplifying the Theory on Over-Smoothing

作者: Andreas Roth

机构: 多特蒙德工业大学

摘要: 图卷积因其在处理具有不规则几何结构数据时的高效能力而受到欢迎。然而,图卷积会导致过度平滑,即随着深度增加,表示变得更加相似。目前存在许多不同的定义和直觉,导致研究工作集中在不兼容的方向上。本文试图通过展示过度平滑仅仅是幂迭代的一个特例来调整这些方向。这极大地简化了关于过度平滑的现有理论,使其更易理解。基于这一理论,我们提出了一个全新的综合定义,将秩坍缩作为过度平滑的一种广义形式,并引入了秩一距离作为相应的度量。我们对14种常用方法进行了实证评估,结果显示比以前所知更多的模型存在这一问题。

论文链接: https://arxiv.org/abs/2407.11876

单层单梯度反学习

原标题: Single Layer Single Gradient Unlearning

作者: Zikui Cai, Yaoteng Tan, M. Salman Asif

机构: 加利福尼亚大学河滨分校

摘要: 机器去学习方法旨在修改预训练模型,以便消除某些训练样本的影响。除了有效的擦除外,低计算成本和通用效用的保留也是非常可取的。现有的去学习方法通常涉及对模型参数的迭代更新,这会带来高计算成本。在这项工作中,我们提出了一种高效的方法,只需要一次梯度计算,通过修改模型参数的单个层。具体而言,我们首先确定少量位于高遗忘重要性和低保留影响的帕累托前沿上的模型层作为关键层。然后,我们寻找一个合适的步长,在保持其他层冻结的同时,沿着单个关键层的梯度方向迈出一步。这种方法非常模块化,可以以可控的方式同时用于去学习多个概念。我们在包括CLIP、稳定扩散和VLMs在内的各种模型上展示了这种方法的有效性和效率,超越了其他最先进的方法。

论文链接: https://arxiv.org/abs/2407.11867

通过预定义的稀疏性增强分裂计算和早期退出应用

原标题: Enhancing Split Computing and Early Exit Applications through Predefined Sparsity

作者: Luigi Capogrosso, Enrico Fraccaroli, Giulio Petrozziello, Francesco Setti, Samarjit Chakraborty, Franco Fummi, Marco Cristani

机构: 维罗纳大学 北卡罗来纳大学教堂山分校

摘要: 在过去的十年中,深度神经网络(DNNs)在各种问题上取得了最先进的性能,涵盖了从目标分类和动作识别到智能建筑和医疗保健的广泛领域。使DNNs成为一种无处不在的技术的灵活性是有代价的:计算要求使它们无法部署在大多数资源受限的边缘设备上,这些设备今天可用于解决实时和现实世界的任务。本文介绍了一种新颖的方法来解决这一挑战,即将预定义稀疏性的概念与分裂计算(SC)和提前退出(EE)相结合。具体而言,SC旨在将DNN分割,其中一部分部署在边缘设备上,其余部分部署在远程服务器上。而EE允许系统在答案已经足够好时停止使用远程服务器,仅依赖于边缘设备的计算。特别是,如何将这种预定义稀疏性应用于SC和EE范式从未被研究过。本文研究了这个问题,并展示了预定义稀疏性如何显著减少了训练和推断阶段的计算、存储和能源负担,无论硬件平台如何。这使其成为增强SC和EE应用性能的宝贵方法。实验结果展示了存储和计算复杂性超过4倍的降低,而不影响性能。源代码可在此https URL找到。

论文链接: https://arxiv.org/abs/2407.11763

Github: https://github.com/intelligolabs/sparsity_sc_ee

什么使一个模因成为模因?识别模因以创建具有模因意识的数据集

原标题: What Makes a Meme a Meme? Identifying Memes for Memetics-Aware Dataset Creation

作者: Muzhaffar Hazman, Susan McKeever, Josephine Griffith

机构: 加尔韦大学 都柏林理工大学

摘要: 警告:本文包含可能会冒犯某些读者的模因。
多模态互联网模因现在已成为在线话语中普遍存在的一种形式。模因研究的一个方向是根据各种情感(如情绪和仇恨)对模因进行分类,这得到了手动编制的模因数据集的支持。理解模因的独特特征对于模因分类至关重要。与其他用户生成的内容不同,模因通过模因论传播,即模因被模仿并转化为用于创造新模因的符号的过程。实际上,存在着一个不断发展的视觉和语言符号库,支撑着模因文化并且对解释单个模因的含义至关重要。目前在静态数据集上训练监督学习模型的方法,没有考虑模因论,限制了对模因解释的深度和准确性。我们认为模因数据集必须包含真正的模因,即通过模因论定义的模因,这样才能构建有效的模因分类器。在这项工作中,我们开发了一种模因识别协议,通过识别其中的模因论来区分模因和非模因内容。我们将我们的协议应用于领先的7个模因分类数据集的随机抽样,并观察到超过一半(50.4%)的评估样本未发现任何模因论的迹象。我们的工作还提供了一个基于模因论的模因分类学,为更有效地解释模因和创建模因数据集提供了基础。

论文链接: https://arxiv.org/abs/2407.11861

在图上实现的具有弹性的去中心化学习的自我复制随机游走

原标题: Self-Duplicating Random Walks for Resilient Decentralized Learning on Graphs

作者: Maximilian Egger, Ghadir Ayache, Rawad Bitar, Antonia Wachter-Zeh, Salim El Rouayheb

机构: 慕尼黑工业大学 纽约Etsy公司 罗格斯大学

摘要: 考虑在图上执行某种计算任务的多个随机游走(RWs)的设置。例如,在通过随机游走进行分散式学习中,模型在每次迭代中根据所访问节点的本地数据进行更新,然后传递给随机选择的邻居。由于节点或链路故障,随机游走可能会失败。目标是保持所需数量的随机游走,以确保故障韧性。由于缺乏中央实体来跟踪哪些随机游走已经失败并用新的随机游走替换它们,通过复制存活的随机游走,实现这一目标具有挑战性。如果没有复制,随机游走的数量最终会降至零,导致系统的灾难性故障。我们提出了一种名为DECAFORK的分散式算法,即使在存在任意随机游走故障的情况下,也能在图中维持随机游走的数量在所需值附近。节点通过估计其返回时间分布来持续估计存活的随机游走数量,并在故障可能发生时复制随机游走。我们进行了大量数值模拟,展示了DECAFORK在快速检测和应对故障方面的性能。我们进一步提供了关于该算法性能的理论保证。

论文链接: https://arxiv.org/abs/2407.11762

许多体消息传递神经网络的理论表述

原标题: A Theoretical Formulation of Many-body Message Passing Neural Networks

作者: Jiatong Han

机构: 清华大学

摘要: 我们提出了一种多体消息传递神经网络(MPNN)框架,用于建模高阶节点交互(≥2个节点)。我们将高阶项建模为树状结构的图案,包括一个中心节点及其邻域,并在图案拉普拉斯上应用局部谱滤波器,通过全局边缘里奇曲率加权。我们证明了我们的公式对邻居节点排列是不变的,推导出其敏感性界限,并限制了学习图潜力的范围。我们对图能量进行回归分析,展示了它在更深和更宽的网络拓扑中的良好扩展性,并在具有异质性的合成图数据集上进行分类,并展示其一致高的狄利克雷能量增长。
我们在以下网址开源我们的代码。

论文链接: https://arxiv.org/abs/2407.11756

Github: https://github.com/JThh/Many-Body-MPNN

在奇偶性暗示正确学习中逼近相关变量的数量

原标题: Approximating the Number of Relevant Variables in a Parity Implies Proper Learning

作者: Nader H. Bshouty, George Haddad

机构: 以色列理工学院

摘要: 考虑一个模型,在这个模型中,我们可以通过随机均匀标记的示例访问奇偶函数,同时存在随机分类噪声。在这篇论文中,我们展示了近似奇偶函数中相关变量数量的困难程度与正确学习奇偶函数一样困难。
更具体地,设 γ : R + → R + \gamma:{\mathbb R}^+\to {\mathbb R}^+ γ:R+R+,其中 γ ( x ) ≥ x \gamma(x) \ge x γ(x)x,是任意严格增函数。在我们的第一个结果中,我们展示了从任何返回 γ \gamma γ-近似 D D D(即 γ − 1 ( d ( f ) ) ≤ D ≤ γ ( d ( f ) ) \gamma^{-1}(d(f)) \leq D \leq \gamma(d(f)) γ1(d(f))Dγ(d(f)))的多项式时间算法,对于任何奇偶函数 f f f的相关变量数量 d ( f ) d(f) d(f),我们可以在多项式时间内构建一个解决长期存在的多项式时间学习 k ( n ) k(n) k(n)-稀疏奇偶函数(具有 k ( n ) ≤ n k(n)\le n k(n)n个相关变量的奇偶函数)问题的算法,其中 k ( n ) = ω n ( 1 ) k(n) = \omega_n(1) k(n)=ωn(1)
在我们的第二个结果中,我们展示了从任何 T ( n ) T(n) T(n)时间算法,对于任何奇偶函数 f f f,返回 f f f的相关变量数量 d ( f ) d(f) d(f) γ \gamma γ-近似,我们可以在多项式时间内构建一个 p o l y ( Γ ( n ) ) T ( Γ ( n ) 2 ) poly(\Gamma(n))T(\Gamma(n)^2) poly(Γ(n))T(Γ(n)2)时间算法,该算法可以正确学习奇偶函数,其中 Γ ( x ) = γ ( γ ( x ) ) \Gamma(x)=\gamma(\gamma(x)) Γ(x)=γ(γ(x))
如果 T ( Γ ( n ) 2 ) = exp ⁡ ( o ( n / log ⁡ n ) ) T(\Gamma(n)^2)=\exp({o(n/\log n)}) T(Γ(n)2)=exp(o(n/logn)),这将解决另一个长期存在的问题,即在存在随机分类噪声的情况下,在时间 exp ⁡ ( o ( n / log ⁡ n ) ) \exp({o(n/\log n)}) exp(o(n/logn))内正确学习奇偶函数。

论文链接: https://arxiv.org/abs/2407.11832

为什么基于长模型的展开不是糟糕 Q 值估计的理由?

原标题: Why long model-based rollouts are no reason for bad Q-value estimates

作者: Philipp Wissmann, Daniel Hein, Steffen Udluft, Volker Tresp

机构: 路德维希-马克西米利安大学 慕尼黑 德国 西门子公司

摘要: 这篇论文探讨了在长模型展开的基础上使用基于模型的离线强化学习。虽然一些文献批评这种方法存在错误累积的问题,但许多实践者在实际应用中取得了成功。该论文旨在证明长展开并不一定导致指数增长的错误,并且实际上可以产生比无模型方法更好的 Q 值估计。这些发现有可能增强强化学习技术。

论文链接: https://arxiv.org/abs/2407.11751

ProSub:基于子空间的概率开放集半监督学习与外部分布检测

原标题: ProSub: Probabilistic Open-Set Semi-Supervised Learning with Subspace-Based Out-of-Distribution Detection

作者: Erik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand

机构: 瑞典斯堪尼亚飞机公司,查尔默斯理工大学

摘要: 在开放集半监督学习(OSSL)中,我们考虑可能包含未知类别的未标记数据集。现有的OSSL方法通常使用softmax置信度来对数据进行分类,判断其是否属于内部分布(ID)或外部分布(OOD)。此外,许多OSSL的研究依赖于用于ID/OOD分类的临时阈值,而没有考虑问题的统计信息。我们提出了一种基于特征空间中数据与ID子空间之间角度的ID/OOD分类新得分。此外,我们提出了一种估计给定ID或OOD数据的得分条件分布的方法,从而实现对数据属于ID或OOD的概率预测。这些组件被整合在一个名为\emph{ProSub}的OSSL框架中,实验证明在几个基准问题上达到了SOTA性能。我们的代码可以在以下网址找到。

论文链接: https://arxiv.org/abs/2407.11735

Github: https://github.com/walline/prosub

协调安全性和速度:人算协同方法以增强FDA的医疗器械审批政策

原标题: Harmonizing Safety and Speed: A Human-Algorithm Approach to Enhance the FDA’s Medical Device Clearance Policy

作者: Mohammad Zhalechian, Soroush Saghafian, Omar Robles

机构: 印第安纳大学凯利商学院 哈佛大学肯尼迪学院 新兴健康咨询公司

摘要: 美国食品药品监督管理局(FDA)的预先市场通知510(K)途径允许制造商通过证明其与另一种合法上市设备具有实质等同性来获得医疗器械的批准。然而,这一监管程序固有的模糊性导致了通过该途径获得批准的许多设备存在较高的召回率。这一趋势引起了人们对FDA当前方法有效性的重大关注,促使对510(K)监管框架进行重新评估。在本文中,我们开发了一种结合人工和算法的方法,以协助FDA改进其510(k)医疗器械清关流程,从而降低潜在召回风险和FDA所面临的工作量。我们首先开发了机器学习方法,根据提交时可用的信息来估计510(k)医疗器械的召回风险。然后,我们提出了一个基于数据驱动的清关政策,建议FDA委员会接受、拒绝或推迟进行深入评估。我们使用一个独特的大规模数据集进行了实证研究,该数据集包括来自65个国家的超过31,000种医疗器械和12,000家国家和国际制造商,这些数据是基于FDA和医疗保险和医疗服务中心(CMS)的数据来源汇编而成的。根据这些数据对我们提出的政策进行保守评估显示,召回率提高了38.9%,FDA的工作量减少了43.0%。我们的分析还表明,实施我们的政策可能导致每年节省高达24亿至27亿美元的显着成本,这突显了利用全面和数据驱动方法改进FDA当前510(K)医疗器械评估途径的价值。

论文链接: https://arxiv.org/abs/2407.11823

探索量化技术以提高 Transformer 语言模型的高效预训练

原标题: Exploring Quantization for Efficient Pre-Training of Transformer Language Models

作者: Kamran Chitsaz, Quentin Fournier, Gonçalo Mordido, Sarath Chandar

机构: 钱达尔研究实验室 蒙特利尔大学 魁北克人工智能研究所 加拿大CIFAR AI主席

摘要: Transformer 模型规模的增加导致它们的预训练计算需求增加。虽然在预训练和微调后证明量化是有效的,但在 Transformers 的预训练过程中应用量化在大规模语言建模中仍然很少被探索。本研究旨在探讨量化对 Transformers 的高效预训练的影响,重点放在线性层组件上。通过系统地将简单的线性量化应用于权重、激活、梯度和优化器状态,我们评估其对模型效率、稳定性和训练过程中性能的影响。通过提供一套有效的量化策略配方,用于在 Transformers 的预训练过程中应用,我们促进了从头开始实现高训练效率的同时保留语言建模能力。代码可在此网址找到。

论文链接: https://arxiv.org/abs/2407.11722

Github: https://github.com/chandar-lab/EfficientLLMs

DFDRNN:一种基于双特征的神经网络,用于药物再定位

原标题: DFDRNN: A dual-feature based neural network for drug repositioning

作者: Enqiang Zhu, Xiang Li, Chanjuan Liu, Nikhil R. Pal

机构: 广州大学 计算科学与技术学院 大连理工大学 计算机科学与技术学院 印度统计研究所 电子与通信科学单元

摘要: 药物再定位是一种经济高效的策略,用于发现现有药物在其原始批准范围之外的新适应症,扩大其适用性和用途,以解决疾病治疗中的挑战。近年来,基于深度学习的药物再定位技术受到了广泛关注。虽然大多数基于深度学习的研究方法侧重于通过从网络中提取邻居的特征信息来对药物和疾病进行编码,但它们往往忽视了药物和疾病特征之间的潜在关系,导致药物和疾病的编码不够精确。为了解决这个问题,我们设计了一个双特征药物再定位神经网络(DFDRNN)模型,以实现对药物和疾病的精确编码。DFDRNN使用两个特征来表示药物和疾病:相似性特征和关联特征。该模型结合了自注意机制,设计了两个双特征提取模块,用于实现对药物和疾病的精确编码:领域内双特征提取(IntraDDFE)模块和领域间双特征提取(InterDDFE)模块。IntraDDFE模块从单个领域(药物或疾病领域)提取特征,而InterDDFE模块从混合领域(药物和疾病领域)提取特征。特别是,InterDDFE通过改变特征,确保了对药物和疾病的精确编码。最后,设计了一个交叉双领域解码器,用于预测药物和疾病领域中的药物-疾病关联。与六种最先进的方法相比,DFDRNN在四个基准数据集上表现优异,平均AUROC为0.946,平均AUPR为0.597。

论文链接: https://arxiv.org/abs/2407.11812

大气状态的神经压缩

原标题: Neural Compression of Atmospheric States

作者: Piotr Mirowski, David Warde-Farley, Mihaela Rosca, Matthew Koichi Grimes, Yana Hasson, Hyunjik Kim, Mélanie Rey, Simon Osindero, Suman Ravuri, Shakir Mohamed

机构: 谷歌DeepMind

摘要: 从再分析中得出的大气状态占据了天气和气候模拟输出的相当大部分。许多利益相关者,如研究人员、政策制定者和保险商,利用这些数据更好地理解地球系统并指导政策决策。随着机器学习方法在天气预测中显示出有希望的结果,大气状态也受到了越来越多的关注。所有受众的一个关键问题是,这些高维状态的密集时间序列包含大量数据,除了最富裕的团体之外,其他人几乎无法访问和使用历史数据和未来预测。为解决这一问题,我们提出了一种利用神经网络文献中的方法压缩大气状态的方法,通过使用保持面积的HEALPix投影将球面数据调整为常规神经架构的处理。我们研究了两种用于构建神经压缩器的模型类别:神经图像压缩文献中的超先验模型和最近的矢量量化模型。我们展示了这两类模型都满足小平均误差、少量高误差重建像素、忠实再现飓风和热浪等极端事件、保持跨空间尺度的谱功率分布等要求。我们展示了超过1000倍的压缩比,压缩和解压速度约为每秒一个全球大气状态。

论文链接: https://arxiv.org/abs/2407.11666

利用多模态掩模自编码器进行全球大气数据同化

原标题: Global atmospheric data assimilation with multi-modal masked autoencoders

作者: Thomas J. Vandal, Kate Duffy, Daniel McDuff, Yoni Nachmany, Chris Hartshorn

机构: Zeus AI

摘要: 全球数据同化使得天气预报能够在各种尺度上进行,并为研究地球系统提供了宝贵的数据。然而,在运行系统中使用基于物理的算法所需的计算量限制了同化的观测数据的数量和多样性。在这里,我们提出了“EarthNet”,这是一个多模态基础模型,用于数据同化,它学习仅通过卫星观测来预测全球填补空缺的大气状态。EarthNet被训练为一个掩蔽自编码器,它摄入12小时的观测序列,并学会从其他传感器中填补缺失的数据。我们展示了EarthNet执行一种数据同化形式,生成了一个3D大气温度和湿度的全球0.16度再分析数据集,与运行系统相比,所需时间仅为一小部分。通过评估1小时预报背景状态与观测数据的对比,我们展示了所得到的再分析数据集再现了气候学。我们还展示了我们的3D湿度预测在中层对流层和低平流层(5到20公里高度)优于MERRA-2和ERA5再分析数据,我们的3D温度和湿度在几乎每个大气层次上与微波综合检测系统(MiRS)的观测数据在统计上是等效的。我们的结果表明,使用EarthNet进行高频数据同化和全球天气预报具有重要的潜力。

论文链接: https://arxiv.org/abs/2407.11696

CycleGAN的理论洞见:分析无配对数据生成中的近似和估计误差

原标题: Theoretical Insights into CycleGAN: Analyzing Approximation and Estimation Errors in Unpaired Data Generation

作者: Luwei Sun, Dongrui Shen, Han Feng

机构: SUN Luwei SHEN Dongrui FENG Han

摘要: 在这篇论文中,我们专注于分析无配对数据生成模型的过度风险,称为CycleGAN。与传统的GAN不同,CycleGAN不仅在两个不配对的分布之间转换数据,还确保映射是一致的,这是CycleGAN独有的循环一致性项所鼓励的。模型结构的不断复杂化和CycleGAN中循环一致性项的添加为误差分析带来了新挑战。通过考虑模型架构和训练过程的影响,风险被分解为两个项:逼近误差和估计误差。这两个误差项分别进行了分析,并通过考虑它们之间的权衡最终结合起来。每个组成部分都经过了严格的分析;逼近误差通过构建最优传输映射的逼近值进行分析,估计误差通过使用Rademacher复杂度建立上界进行分析。我们的分析不仅隔离了这些误差,还探讨了它们之间的权衡,从而提供了CycleGAN的架构和训练程序如何影响其性能的理论见解。

论文链接: https://arxiv.org/abs/2407.11678

在Wasserstein空间中的数据集词典学习用于联邦领域自适应

原标题: Dataset Dictionary Learning in a Wasserstein Space for Federated Domain Adaptation

作者: Eduardo Fernandes Montesuma, Fabiola Espinoza Castellon, Fred Ngolè Mboula, Aurélien Mayoue, Antoine Souloumiac, Cédric Gouy-Pailler

机构: CEA List Université Paris-Saclay

摘要: 多源域自适应(MSDA)是一个具有挑战性的场景,其中多个相关和异构的源数据集必须适应到一个未标记的目标数据集。传统的MSDA方法经常忽视数据持有者可能存在的隐私顾虑,从而阻碍了直接数据共享。作为回应,去中心化MSDA已经成为一种有前途的策略,可以实现适应而不集中客户数据。我们的工作提出了一种新颖的方法,去中心化数据集字典学习,以解决这一挑战。我们的方法利用Wasserstein重心来建模多个客户端之间的分布偏移,实现有效的适应同时保护数据隐私。具体来说,我们的算法将每个客户端的潜在分布表达为公共原子的Wasserstein重心,通过私有的重心坐标进行加权。我们的方法确保了在整个适应过程中重心坐标保持未公开。在五个视觉域自适应基准测试中进行的大量实验表明,我们的策略优于现有的去中心化MSDA技术。此外,我们的方法在保持相对韧性的同时,对客户端并行性表现出增强的稳健性,与传统的去中心化MSDA方法相比具有相对的弹性。

论文链接: https://arxiv.org/abs/2407.11647

动态维度包装(DDW)算法:一种在动态多维空间中进行高效跨维度搜索的新方法

原标题: Dynamic Dimension Wrapping (DDW) Algorithm: A Novel Approach for Efficient Cross-Dimensional Search in Dynamic Multidimensional Spaces

作者: Dongnan Jin, Yali Liu, Qiuzhi Song, Xunju Ma, Yue Liu, Dehao Wu

机构: 北京理工大学 高级技术研究所 济南

摘要: 在现实世界中,随着优化问题复杂性的持续增加,迫切需要研究更高效的优化方法。当前的优化算法擅长解决具有固定维度数量的问题。然而,在搜索动态多维空间时,它们的效率并不理想。针对跨维度搜索挑战,本研究提出了一种新的优化算法 - 动态维度包裹(DDW)算法。首先,通过利用动态时间规整(DTW)算法和欧氏距离,建立了不同时间序列在不同维度之间的映射关系,从而创建适用于动态多维空间的适应性函数。此外,DDW引入了一种新颖、更高效的跨维度搜索机制,用于动态多维空间。最后,通过在动态多维空间搜索中与31种优化算法进行比较测试,结果表明DDW表现出优秀的搜索效率,并提供最接近实际最优解的搜索结果。

论文链接: https://arxiv.org/abs/2407.11626

战略Littlestone维度:在线战略分类的改进界限

原标题: Strategic Littlestone Dimension: Improved Bounds on Online Strategic Classification

作者: Saba Ahmadi, Kunhe Yang, Hanrui Zhang

机构: 芝加哥丰田技术学院 加州大学伯克利分校 香港中文大学

摘要: 我们研究在线二元分类问题,在这种设置中,战略性智能体可以修改其可观察特征以获得积极分类。我们通过特征空间上的有向图对可行操纵集进行建模,并假设学习者只观察到被操纵的特征而不是原始特征。我们引入了战略Littlestone维度,这是一个新的组合度量,捕捉了假设类和操纵图的联合复杂性。我们证明了它表征了在可实现设置中确定性学习算法的实例最优错误界。我们还通过一个精细的从不可知到可实现的规约,在不观察到智能体原始特征这一额外挑战的情况下,在不可知设置中实现了改进的后悔。最后,我们放宽了学习者知道操纵图的假设,而是假设他们的知识由一组图表达。我们推导了在可实现设置中的后悔界,其中所有智能体都根据图家族中的同一图进行操纵,以及在不可知设置中,操纵图是由对抗选择的,并且不是由家族中的单个图一致建模的。

论文链接: https://arxiv.org/abs/2407.11619

超级聚合:使用超网络对图边进行聚合

原标题: HyperAggregation: Aggregating over Graph Edges with Hypernetworks

作者: Nicolas Lell, Ansgar Scherp

机构: 乌尔姆大学

摘要: HyperAggregation 是一种基于超网络的图神经网络聚合函数。它使用超网络动态生成当前邻域大小的权重,然后用这些权重来聚合该邻域。使用生成的权重进行聚合类似于 MLP-Mixer 通道混合,可以处理大小可变的顶点邻域。我们在两个模型中展示了 HyperAggregation,GraphHyperMixer 是基于 MLP-Mixer 的模型,而 GraphHyperConv 则源自 GCN,但具有基于超网络的聚合函数。我们在各种基准数据集上进行实验,包括顶点分类、图分类和图回归任务。结果表明,HyperAggregation 可以有效地用于同质和异质数据集,无论是归纳式还是传导式设置。GraphHyperConv 的性能优于 GraphHyperMixer,在传导式设置中表现尤为出色。在异质数据集 Roman-Empire 上,它达到了新的最先进水平。在图级任务上,我们的模型与大小相似的模型表现一致。消融研究调查了针对各种超参数选择的鲁棒性。HyperAggregation 的实现以及重现所有实验所需的代码可在此 URL 下找到。

论文链接: https://arxiv.org/abs/2407.11596

Github: https://github.com/Foisunt/HyperAggregation

量子最大熵推断和哈密顿学习

原标题: Quantum Maximum Entropy Inference and Hamiltonian Learning

作者: Minbo Gao, Zhengfeng Ji, Fuchao Wei

机构: 中国科学院软件研究所 中国科学院大学 清华大学

摘要: 在学习理论和优化中,最大熵推理和图模型的学习是至关重要的任务。这项工作将这些问题的算法(包括广义迭代缩放(GIS)和梯度下降(GD))扩展到了量子领域。虽然这种泛化,即量子迭代缩放(QIS),是直接的,但关键挑战在于量子问题实例的非交换性质,使得收敛速度分析比经典情况显著更具挑战性。我们的主要技术贡献集中在对这些算法的每次迭代的雅可比矩阵的谱半径建立下界和上界的严格分析上。此外,我们探索拟牛顿方法来增强QIS和GD的性能。具体来说,我们建议分别为QIS和GD使用Anderson混合和L-BFGS方法。这些拟牛顿技术表现出显著的效率提升,导致性能方面的数量级改进。作为一个应用,我们的算法提供了一个可行的方法来设计汉密尔顿学习算法。

论文链接: https://arxiv.org/abs/2407.11473

使用多点反馈进行安全的在线凸优化

原标题: Safe Online Convex Optimization with Multi-Point Feedback

作者: Spencer Hutchinson, Mahnoosh Alizadeh

机构: 加州大学圣巴巴拉分校

摘要: 受现实世界应用中常见的严格安全要求的启发,我们研究了一种安全的在线凸优化设置,在这种设置中,玩家需要同时实现次线性遗憾和零约束违规,同时只使用零阶信息。具体来说,我们考虑了一个多点反馈设置,玩家在每一轮中选择 d + 1 d + 1 d+1 个点(其中 d d d 是问题的维度),然后接收到每个点处约束函数和成本函数的值。为了解决这个问题,我们提出了一种算法,利用前向差分梯度估计以及乐观和悲观的行动集,以在约束函数光滑且强凸的假设下实现 O ( d T ) \mathcal{O}(d \sqrt{T}) O(dT ) 遗憾和零约束违规。然后,我们进行了数值研究,以调查未知约束和零阶反馈对经验性能的影响。

论文链接: https://arxiv.org/abs/2407.11471

增强不完整城市移动数据的停车位置检测

原标题: Enhancing stop location detection for incomplete urban mobility datasets

作者: Margherita Bertè, Rashid Ibrahimli, Lars Koopmans, Pablo Valgañón, Nicola Zomer, Davide Colombi

机构: IMT高级研究学院 卢卡,意大利 卡洛斯三世大学数学系 马德里,西班牙 Caja Blanca Datos SL公司 马德里,西班牙 阿姆斯特丹大学理论生态学系 阿姆斯特丹,荷兰 萨拉戈萨大学凝聚态物理系 萨拉戈萨,西班牙 帕多瓦大学物理与天文学系 帕多瓦,意大利 Cuebiq公司 米兰,意大利

摘要: 在人类移动性研究中,停留位置检测对城市规划、交通网络设计、流行病建模和社会经济隔离分析等多个领域产生影响。然而,由于传统的密度聚类算法通常难以处理嘈杂或不完整的GPS数据集,因此停留位置检测仍然是一项具有挑战性的任务。本研究调查了将分类算法应用于增强基于密度的方法以进行停留位置识别。我们的方法结合了多个特征,包括个体在不同时间尺度上的常规行为以及个体GPS点的本地特征。数据集包括之前被序列导向、依赖密度的算法标记为停留位置的隐私保护和匿名化GPS点。我们通过从选择的停留位置中去除点密度来模拟数据缺失,以评估在稀疏数据条件下的性能。该模型将轨迹中的个体GPS点分类为潜在的停留位置或非停留位置。鉴于数据集的高度不平衡性,我们在性能评估中优先考虑召回率而不是精确度。结果表明,该方法即使在存在时空间间隙的情况下也能检测到大多数停留位置,并且被分类为误报的点通常对应于设备的重复位置,通常靠近先前的停留位置。尽管这项研究有助于移动性分析技术,但仍然存在重大挑战。缺乏地面真实数据限制了对算法准确性的明确结论。需要进一步研究来验证该方法在不同数据集上的有效性,并纳入集体行为输入。

论文链接: https://arxiv.org/abs/2407.11579

强化电网可靠性和促进韧性市场的联合学习预测

原标题: Federated Learning Forecasting for Strengthening Grid Reliability and Enabling Markets for Resilience

作者: Lucas Pereira, Vineet Jagadeesan Nair, Bruno Dias, Hugo Morais, Anuradha Annaswamy

机构: ITI/LARSyS, IST, 葡萄牙 MIT, 美国 UFJF, 巴西 INESC-ID, IST, 葡萄牙

摘要: 我们提出了一种全面的方法,以提高未来充满分布式能源资源的电网的可靠性和韧性。我们的分布式方案将基于联邦学习的攻击检测与基于本地电力市场的攻击缓解方法相结合。我们通过将该方案应用于一个充满太阳能光伏的现实配电网来验证该方案。模拟结果表明,这种方法是可行的,并且可以成功缓解网络对网络物理攻击的影响。

论文链接: https://arxiv.org/abs/2407.11571

一种离散视角下稀疏概率布尔网络构建的方法

原标题: A Discrete Perspective Towards the Construction of Sparse Probabilistic Boolean Networks

作者: Christopher H. Fok, Chi-Wing Wong, Wai-Ki Ching

摘要: 布尔网络(BN)及其扩展概率布尔网络(PBN)是用于研究基因调控网络的流行数学模型。BN和PBN也被应用于建模制造系统、金融风险和医疗服务系统。在本文中,我们提出了一种新颖的贪婪入口移除(GER)算法用于构建稀疏PBN。我们推导了现有算法和GER算法的理论上界。此外,我们是第一个研究构建稀疏PBN的下界问题,并推导了一系列相关的理论结果。在基于合成和实际数据的数值实验中,GER在大多数被测试的转换概率矩阵上提供了最佳性能,是最先进的稀疏PBN构建算法之一,并输出了可能的最稀疏分解。

论文链接: https://arxiv.org/abs/2407.11543

在小型 Transformer 中理解计数:注意力和前馈层之间的相互作用

原标题: Understanding Counting in Small Transformers: The Interplay between Attention and Feed-Forward Layers

作者: Freya Behrens, Luca Biggio, Lenka Zdeborová

机构: 瑞士洛桑联邦理工学院(Ecole polytechnique f´ ed´ erale de Lausanne, EPFL)

摘要: 我们对在直方图任务上训练的简单Transformer模型进行了全面分析,该任务的目标是计算来自固定字母表的输入序列中每个项目的出现次数。尽管这个任务表面上很简单,但它展示了丰富的现象学,使我们能够表征不同的架构组件如何促成不同的算法解决方案的出现。特别是,我们展示了实现解决方案的两种质量不同的机制的存在,即关系型计数和库存型计数。模型可以实现哪种解决方案取决于注意机制、激活函数、记忆容量的精确选择以及序列开始标记的存在,这并不是微不足道的。通过对计数任务中学习到的模型进行内省,我们发现了两种机制的形成证据。从更广泛的视角来看,我们的分析提供了一个框架,以理解Transformer模型的不同架构组件之间的相互作用如何塑造多样的算法解决方案和近似。

论文链接: https://arxiv.org/abs/2407.11542

扩散模型的分解潜在空间的等距表示学习

原标题: Isometric Representation Learning for Disentangled Latent Space of Diffusion Models

作者: Jaehoon Hahm, Junho Lee, Sunghyun Kim, Joonseok Lee

摘要: 扩散模型的潜在空间在生成建模领域取得了巨大成功和潜力,但大多数情况下仍然未被探索。事实上,现有扩散模型的潜在空间是纠缠在一起的,存在着从潜在空间到图像空间的扭曲映射。为了解决这个问题,我们提出了等距扩散(Isometric Diffusion),为扩散模型配备了几何正则化器,引导模型学习训练数据流形的几何上合理的潜在空间。这种方法使得扩散模型能够学习到更具解缠性的潜在空间,从而实现更平滑的插值、更准确的反演,并直接在潜在空间中更精确地控制属性。我们进行了大量实验证明了我们方法的有效性,包括图像插值、图像反演和线性编辑。

论文链接: https://arxiv.org/abs/2407.11451

不是另一种填充方法:基于Transformer的模型用于表格数据中的缺失数值

原标题: Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

作者: Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

摘要: 在训练和测试人工智能模型时,处理表格数据集中的缺失值是一个重要挑战,通常可以通过插补技术来解决。在这里,我们介绍了一种名为“Not Another Imputation Method”(NAIM)的新型基于Transformer的模型,专门设计用于解决这个问题,而无需传统的插补技术。NAIM采用特征特定的嵌入和掩码自注意机制,有效地从可用数据中学习,从而避免了需要插补缺失值的必要性。此外,引入了一种新颖的正则化技术,以增强模型从不完整数据中的泛化能力。我们在5个公开可用的表格数据集上对NAIM进行了广泛评估,展示了其在必要时与6种最先进的机器学习模型和4种深度学习模型配对的3种不同插补技术时的卓越表现。结果突显了NAIM在提高预测性能和在存在缺失数据时的韧性方面的有效性。为了促进进一步研究和在处理缺失数据时不使用传统插补方法的实际应用,我们已经在这个网址上提供了NAIM的代码。

论文链接: https://arxiv.org/abs/2407.11540

Github: https://github.com/cosbidev/NAIM

半监督生成模型用于疾病轨迹:以系统性硬化为例进行案例研究

原标题: Semi-Supervised Generative Models for Disease Trajectories: A Case Study on Systemic Sclerosis

作者: Cécile Trottet, Manuel Schürch, Ahmed Allam, Imon Barua, Liubov Petelytska, Oliver Distler, Anna-Maria Hoffmann-Vold, Michael Krauthammer, the EUSTAR collaborators

机构: 苏黎世大学 瑞士 奥斯陆大学医院 挪威 苏黎世大学医院 瑞士 波戈莫列茨国立医科大学 乌克兰

摘要: 我们提出了一种使用潜在时间过程的深度生成方法,用于对复杂疾病轨迹进行建模和整体分析,特别关注全身性硬皮病(SSc)。我们旨在学习潜在时间表示,解释观察到的患者疾病轨迹的生成过程,以一种可解释且全面的方式。为了增强这些潜在时间过程的可解释性,我们开发了一种半监督方法,用于利用已建立的医学知识来解开潜在空间。通过将生成方法与SSc不同特征的医学定义相结合,我们促进了对疾病新方面的发现。我们展示了学习到的时间潜在过程可以用于进一步的数据分析和临床假设检验,包括寻找相似患者和将SSc患者轨迹聚类成新的亚型。此外,我们的方法实现了个性化在线监测和多变量时间序列的预测,并对不确定性进行量化。

论文链接: https://arxiv.org/abs/2407.11427

在交通流量预测中考虑工作区干扰

原标题: Accounting for Work Zone Disruptions in Traffic Flow Forecasting

作者: Yuanjie Lu, Amarda Shehu, David Lattanzi

摘要: 交通速度预测是智能交通系统管理中的重要任务。目前大部分计算研究的目标是最小化预测速度与实际速度之间的差异,但除速度先验之外的信息模态很大程度上未被考虑。尤其是,虽然基于图神经网络方法在速度预测方面取得了最先进的性能,但这些方法并未融合有关道路维护工作区及其对预测交通流量的影响的信息;然而,施工工作区的影响对道路管理机构具有重要意义,因为它们会转化为对当地经济和公共福祉的影响。在本文中,我们基于卷积图神经网络架构构建了一个新颖的“用于道路工作区的图卷积网络”模型,该模型包括一种新颖的数据融合机制和一种新的异构图聚合方法,以适应交通状态之间的时空依赖关系中的工作区信息。该模型在捕获弗吉尼亚州的工作区内交通流量的两个数据集上进行了评估。广泛的比较评估和消融研究表明,所提出的模型能够捕获交通走廊中复杂且非线性的时空关系,在预测工作区事件期间的交通流量时优于基线模型。

论文链接: https://arxiv.org/abs/2407.11407

利用多光谱无人机和高光谱EnMAP数据在物种级别上对热带草原灌木植被进行映射

原标题: Mapping savannah woody vegetation at the species level with multispecral drone and hyperspectral EnMAP data

作者: Christina Karakizi, Akpona Okujeni, Eleni Sofikiti, Vasileios Tsironis, Athina Psalta, Konstantinos Karantzalos, Patrick Hostert, Elias Symeonakis

机构: 曼彻斯特都会大学 国立雅典理工大学 洪堡大学 维尔林根大学

摘要: 研究针对南非热带草原中的树木物种水平的准确分数覆盖(FWC)进行了研究,使用EnMAP高光谱数据。野外注释与高分辨率多光谱无人机数据相结合,生成包括三种树木物种在内的土地覆盖地图。然后,使用高分辨率标记地图生成每种树木物种类别的FWC样本,分辨率为EnMAP的30米。对干季EnMAP图像进行FWC映射测试了四种机器学习回归算法。还通过将干季和雨季的Sentinel-2数据的光谱-时间度量作为额外的回归特征,评估了多时相信息的贡献。结果表明,我们的方法适用于准确映射树木物种水平的FWC。通过结合EnMAP和Sentinel-2实验获得的最高准确率突显了它们在物种水平植被映射中的协同潜力。

论文链接: https://arxiv.org/abs/2407.11404

Vibravox:使用体感音频传感器捕获的法语语音数据集

原标题: Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

作者: Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

机构: IEEE/ACM、法国语音、语言和语言处理交易、2024、Vibravox、Julien Hauret、Malo Olivier、Thomas Joubaud、Christophe Langrenne、Sarah Poirée、Véronique Zimpfer、Eric Bavu

摘要: Vibravox是一个符合《通用数据保护条例》(GDPR)的数据集,包含使用五种不同的体导音频传感器录制的音频记录:两个耳机麦克风、两个骨传导振动拾音器和一个喉麦。该数据集还包括来自空中麦克风的音频数据作为参考。Vibravox语料库包含188名参与者在高阶Ambisonics 3D空间化器施加的不同声学条件下录制的38小时语音样本和生理声音。语音记录条件和语言转录的注释也包含在语料库中。我们进行了一系列实验,涵盖了各种与语音相关的任务,包括语音识别、语音增强和说话人验证。这些实验使用最先进的模型进行,以评估和比较它们在Vibravox数据集提供的不同音频传感器捕获的信号上的性能,旨在更好地了解它们的各自特性。

论文链接: https://arxiv.org/abs/2407.11828

图结构提示学习:一种改善图神经网络性能的新方法论

原标题: Graph Structure Prompt Learning: A Novel Methodology to Improve Performance of Graph Neural Networks

作者: Zhenhua Huang, Kunhao Li, Shaojie Wang, Zhaohong Jia, Wentao Zhu, Sharad Mehrotra

机构: 安徽大学 亚马逊研究 加州大学欧文分校

摘要: 图神经网络(GNNs)被广泛应用于图数据建模。然而,现有的GNNs通常是以任务驱动的方式进行训练,无法充分捕捉图结构的固有特性,导致节点和图表示不够优化。为了解决这一局限性,我们提出了一种新颖的图结构Prompt学习方法(GPL),以增强GNNs的训练,灵感来自自然语言处理中的提示机制。GPL采用任务无关的图结构损失来鼓励GNNs学习固有的图特征,同时解决下游任务,产生更高质量的节点和图表示。在对十一个真实世界数据集进行的大量实验中,经过GPL训练后,GNNs在节点分类、图分类和边预测任务上显著优于其原始性能(分别高达10.28%、16.5%和24.15%)。通过允许GNNs在GPL中捕捉图的固有结构提示,它们可以缓解过度平滑的问题并实现新的最先进性能,为GNN研究引入了一种新颖且有效的方向,具有潜在的在各个领域应用的可能性。

论文链接: https://arxiv.org/abs/2407.11361

可扩展且可靠的边缘联邦学习技术

原标题: Scalable and Reliable Over-the-Air Federated Edge Learning

作者: Maximilian Egger, Christoph Hofmeister, Cem Kaya, Rawad Bitar, Antonia Wachter-Zeh

机构: 慕尼黑工业大学

摘要: 联邦边缘学习(FEEL)已经成为大规模优化的核心范式。然而,FEEL 仍然受到通信瓶颈的困扰,因为需要将来自客户端的高维模型更新传输给联邦者。空中计算(AirComp)利用多址信道的可加性特性,通过在信道上聚合客户端的更新来节省通信资源。虽然模拟未编码传输可以从许多客户端的同时传输而获得增加的信噪比(SNR)的好处,但是对于小的 SNR,潜在的错误可能严重影响学习过程。为了缓解这个问题,最近提出了用于 FEEL 中的 AirComp 的信道编码方法。然而,随着客户端数量的增加,它们的纠错能力会下降。我们提出了一种基于数字格的代码构造,其纠错能力在客户端数量上保持恒定,并与嵌套格码进行比较,后者以其在点对点 AWGN 信道中的最佳速率和功率效率而闻名。

论文链接: https://arxiv.org/abs/2407.11807

数字孪生车辆边缘计算网络:任务卸载和资源分配

原标题: Digital Twin Vehicular Edge Computing Network: Task Offloading and Resource Allocation

作者: Yu Xie, Qiong Wu, Pingyi Fan

机构: 江南大学 清华大学

摘要: 随着对物联网车辆上多种应用需求的增加。要求车辆实时执行多个计算任务。然而,由于车辆本身的计算能力不足,将任务卸载到车辆边缘计算(VEC)服务器并为任务分配计算资源成为一个挑战。本文建立了一个多任务数字孪生(DT)VEC网络。通过使用DT为每辆车的多个任务开发卸载策略和资源分配策略,构建了一个优化问题。为了解决这个问题,我们提出了一个关于任务卸载和资源分配的多智能体强化学习方法。大量实验证明,与其他基准算法相比,我们的方法是有效的。

论文链接: https://arxiv.org/abs/2407.11310

在分布式物联网边缘检测全局异常情况,采用设备间通信

原标题: Detection of Global Anomalies on Distributed IoT Edges with Device-to-Device Communication

作者: Hideya Ochiai, Riku Nishihata, Eisuke Tomiyama, Yuwei Sun, Hiroshi Esaki

机构: 东京大学

摘要: 异常检测在物联网应用中是一项重要功能,用于发现由异常事件引起的异常值。异常检测有时需要进行高频数据采样,这应该在边缘设备而不是云端进行。在本文中,我们考虑了在单个远程站点安装多个物联网设备的情况,并且它们通过设备间通信协作检测观测中的异常。为此,我们提出了一种用于训练分布式异常检测器的完全分布式协作方案,使用无线自组织联邦学习,即“WAFL-Autoencoder”。我们引入了全局异常的概念,即对于目标领域中的所有设备而言,该样本不仅对本地设备是罕见的,而且对所有设备都是罕见的。我们还提出了一种用于全局异常检测的分布式阈值查找算法。通过我们基于标准基准的评估,我们已经确认我们的方案可以完美地跨设备训练异常检测器。我们还确认,设备在协作中找到了全局异常检测的阈值,同时在极少数情况下实现了低误报率和高真阳率。

论文链接: https://arxiv.org/abs/2407.11308

OAM-TCD:全球多样化的高分辨率树木覆盖地图数据集

原标题: OAM-TCD: A globally diverse dataset of high-resolution tree cover maps

作者: Josh Veitch-Michaelis, Andrew Cottam, Daniella Schweizer, Eben N. Broadbent, David Dao, Ce Zhang, Angelica Almeyda Zambrano, Simeon Max

机构: 苏黎世联邦理工学院 莱茵森林与景观研究所 佛罗里达大学 芝加哥大学

摘要: 准确量化树木覆盖是生态系统监测和评估恢复场地进展的重要指标。最近的研究表明,基于深度学习的分割算法能够利用高分辨率航空和卫星影像在国家和大陆范围内准确绘制树木。在高(理想情况下为亚米级)分辨率下进行绘图是必要的,以便识别单独的树木,然而很少有包含实例级别注释的开放获取数据集,而且现有的数据集规模较小或地理上不够多样化。我们提出了一个新颖的开放获取数据集,用于在高分辨率航空影像中进行个体树冠勾画(TCD),数据源自OpenAerialMap(OAM)。我们的数据集,OAM-TCD,包括5072张分辨率为10厘米/像素的2048x2048像素图像,涵盖了超过280,000个单独树木和56,000个树木群的人工标记实例掩模。通过从世界各地采样影像,我们能够更好地捕捉不同陆地生物群系中树木的多样性和形态,并覆盖城市和自然环境。利用我们的数据集,我们训练了参考实例和语义分割模型,与现有最先进模型相比表现出色。我们通过k折交叉验证和与现有数据集的比较来评估性能;此外,我们展示了在瑞士拍摄的独立航空影像上的引人注目结果,并与苏黎世市的市政树木清单和激光雷达获取的冠层地图进行比较。我们的数据集、模型和训练/基准代码均以宽松的开源许可证(主要为CC BY 4.0和Apache 2.0)公开发布。

论文链接: https://arxiv.org/abs/2407.11743

使用CFGen生成多模态和多属性的单细胞计数

原标题: Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen

作者: Alessandro Palma, Till Richter, Hanyi Zhang, Manuel Lubetzki, Alexander Tong, Andrea Dittadi, Fabian Theis

机构: 哈尔姆霍兹慕尼黑、慕尼黑工业大学、蒙特利尔大学、Mila、图宾根智能系统研究所

摘要: 单细胞 RNA 测序数据的生成建模在社区驱动任务中展现了无可估量的潜力,如轨迹推断、批次效应消除和基因表达生成。然而,大多数最近的深度模型生成从噪声中合成单细胞的合成数据,是在经过预处理的连续基因表达近似上操作,忽略了单细胞数据固有的离散和过度分散的特性,这限制了下游应用并阻碍了强大噪声模型的整合。此外,基于深度学习的合成单细胞生成的关键方面仍未得到充分探讨,如可控的多模态和多标签生成及其在提升下游任务性能中的作用。本文提出了一种基于流的条件生成模型 Cell Flow for Generation (CFGen),用于多模态单细胞计数,明确考虑了数据的离散性质。我们的结果表明,在考虑诸如在多个属性上进行条件设置和通过数据增强提升罕见细胞类型分类等新颖生成任务时,可以改善对关键生物数据特征的恢复。通过在多样的生物数据集和设置上展示 CFGen,我们提供了其对计算生物学和深度生成模型领域价值的证据。

论文链接: https://arxiv.org/abs/2407.11734

磁图到磁图:太阳演化的生成预测

原标题: Magnetogram-to-Magnetogram: Generative Forecasting of Solar Evolution

作者: Francesco Pio Ramunno, Hyun-Jin Jeong, Stefan Hackstein, André Csillaghy, Svyatoslav Voloshynovskiy, Manolis K. Georgoulis

机构: 应用科学北西瑞士大学

摘要: 研究太阳磁场对于理解太阳内部的物理过程以及它们对行星间环境的影响至关重要。我们引入了一种新颖的方法,使用去噪扩散概率模型(DDPMs)进行图像到图像的转换,以预测太阳的视线磁图的演变。我们的方法结合了用于图像质量的“计算机科学度量标准”和用于物理准确性的“物理度量标准”来评估模型性能。结果表明,DDPMs 在保持结构完整性、太阳磁场的动态范围、磁通量以及其他物理特征(如活跃区域的大小)方面是有效的,超越了传统的持续模型,即使在耀斑情况下也是如此。我们的目标是利用深度学习不仅用于可视化,还作为望远镜的一种综合和交互工具,增强我们对太阳耀斑等意外物理事件的理解。未来的研究将旨在整合更多多样化的太阳数据,以提高我们生成模型的准确性和适用性。

论文链接: https://arxiv.org/abs/2407.11659

激动人心的行动:探索学习肌肉骨骼人形机器人步行的高效探索

原标题: Exciting Action: Investigating Efficient Exploration for Learning Musculoskeletal Humanoid Locomotion

作者: Henri-Jacques Geiß, Firas Al-Hafez, Andre Seyfarth, Jan Peters, Davide Tateo

机构: 德累斯顿工业大学 辛普森大学

摘要: 学习肌肉骨骼系统的运动控制器具有挑战性,因为存在过度驱动和高维动作空间。虽然许多强化学习方法试图解决这个问题,但由于工程有效奖励函数的复杂性,它们通常难以学习类似人类步态。在本文中,我们证明对抗模仿学习可以通过分析关键问题并利用当前文献和新技术提供解决方案来解决这个问题。我们通过在一个模拟的具有16个自由度和92个肌腱单位的人形模型上学习行走和奔跑步态来验证我们的方法,仅通过少量演示就实现了看起来自然的步态。

论文链接: https://arxiv.org/abs/2407.11658

通过优化最大均值差异的集成传输滤波器

原标题: Ensemble Transport Filter via Optimized Maximum Mean Discrepancy

作者: Dengfei Zeng, Lijian Jiang

机构: 清华大学 哈尔滨工业大学

摘要: 在这篇论文中,我们提出了一种新的基于集成的滤波方法,通过重构粒子滤波的分析步骤,通过传输映射直接将先验粒子传输到后验粒子。传输映射是通过最大均值差异损失函数描述的优化问题构建的,该函数匹配了近似后验和参考后验的期望信息。所提出的方法继承了粒子滤波对后验分布的准确估计。为了提高最大均值差异的鲁棒性,使用方差惩罚项来引导优化。它优先考虑最小化近似后验和参考后验的高信息统计期望之间的差异。惩罚项显著增强了所提出方法的鲁棒性,并导致对后验的更好逼近。通过一些数值例子来说明所提出方法相对于集成卡尔曼滤波的优势。

论文链接: https://arxiv.org/abs/2407.11518

RIMformer:一种用于FMCW雷达干扰抑制的端到端Transformer

原标题: RIMformer: An End-to-End Transformer for FMCW Radar Interference Mitigation

作者: Ziang Zhang, Guangzhi Chen, Youlong Weng, Shunchuan Yang, Zhiyu Jia, Jingxuan Chen

机构: 清华大学 哈尔滨工业大学

摘要: 频率调制连续波(FMCW)雷达在遥感领域中发挥着关键作用。FMCW雷达部署的增加程度增加了相互干扰,削弱了雷达的检测能力,威胁到系统的可靠性和安全性。本文提出了一种新颖的FMCW雷达干扰抑制(RIM)方法,称为RIMformer,采用端到端基于Transformer的结构。在RIMformer中,提出了双重多头自注意力机制,用于捕捉中频(IF)信号的不同距离元素之间的相关性。此外,集成了改进的卷积块,以利用卷积的力量提取局部特征。该架构旨在以端到端的方式处理时域IF信号,从而避免额外的手动数据处理步骤。改进的解码器结构确保网络的并行化,以提高其计算效率。进行了模拟和测量实验,验证了所提方法的准确性和有效性。结果表明,所提出的RIMformer能够有效地减轻干扰并恢复目标信号。

论文链接: https://arxiv.org/abs/2407.11459

基因组语言模型:机遇与挑战

原标题: Genomic Language Models: Opportunities and Challenges

作者: Gonzalo Benegas, Chengzhong Ye, Carlos Albors, Jianan Canal Li, Yun S. Song

机构: 加州大学伯克利分校 统计学系 计算机科学系 计算生物学中心

摘要: 大语言模型(LLMs)正在广泛的科学领域产生深远影响,特别是在生物医学科学领域。正如自然语言处理的目标是理解单词序列一样,生物学的一个主要目标是理解生物序列。基因组语言模型(gLMs)是在DNA序列上训练的LLMs,有潜力显著推动我们对基因组的理解,以及DNA元素在各种尺度上如何相互作用以产生复杂功能。在这篇评论中,我们通过突出gLMs的关键应用,包括适应性预测、序列设计和迁移学习,展示了这一潜力。然而,尽管最近取得了显著进展,但开发有效和高效的gLMs仍然面临许多挑战,特别是对于具有庞大、复杂基因组的物种。我们讨论了开发和评估gLMs的主要考虑因素。

论文链接: https://arxiv.org/abs/2407.11435

通过展开的神经网络进行联合数据修复和图学习

原标题: Joint Data Inpainting and Graph Learning via Unrolled Neural Networks

作者: Subbareddy Batreddy, Pushkal Mishra, Yaswanth Kakarla, Aditya Siripuram

机构: 印度理工学院海得拉巴分校

摘要: 在给定时间变化图信号的部分测量的情况下,我们提出了一种算法,可以同时估计潜在的图拓扑结构和缺失的测量值。所提出的算法通过训练一个可解释的神经网络来运行,该神经网络是从展开框架设计而来的。所提出的技术既可以用作图学习,也可以用作图信号重建算法。这项工作通过允许潜在图未知来增强图信号重建方面的先前工作;同时,通过将学习到的图量身定制到信号重建任务中,也在图学习方面建立在先前工作的基础上。

论文链接: https://arxiv.org/abs/2407.11429

NAMER:用于手写数学表达识别的非自回归建模

原标题: NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition

作者: Chenyu Liu, Jia Pan, Jinshui Hu, Baocai Yin, Bing Yin, Mingjun Chen, Cong Liu, Jun Du, Qingfeng Liu

机构: 中国科学技术大学 科大 讯飞研究

摘要: 最近,手写数学表达式识别(HMER)在模式识别领域引起了相当大的关注,因为它在文档理解中具有多种应用。目前的方法通常将HMER作为图像到序列生成任务来处理,在自回归(AR)编码器-解码器框架内。然而,这些方法存在几个缺点:1)缺乏整体语言上下文,限制了除当前解码步骤外的信息利用;2)在AR解码过程中出现错误累积;3)解码速度慢。为了解决这些问题,本文首次尝试构建一种新颖的面向底层的非自回归建模方法用于HMER,称为NAMER。NAMER包括视觉感知分词器(VAT)和并行图解码器(PGD)。首先,VAT对可见符号和局部关系进行粗粒度的分词。随后,PGD对所有标记进行细化,并在并行中建立连接性,利用全面的视觉和语言上下文。对CROHME 2014/2016/2019和HME100K数据集的实验表明,NAMER不仅在ExpRate上优于当前最先进的方法(SOTA)1.93%/2.35%/1.49%/0.62%,而且在解码时间和整体FPS方面实现了显著的加速,分别快了13.7倍和6.7倍,证明了NAMER的有效性和效率。

论文链接: https://arxiv.org/abs/2407.11380

学习增强的最大独立集

原标题: Learning-augmented Maximum Independent Set

作者: Vladimir Braverman, Prathamesh Dharangutte, Vihan Shah, Chen Wang

机构: 翻译后的结果为:
犹他州立大学 谷歌研究 扬州大学 水牛城大学 德克萨斯农工大学

摘要: 我们在学习增强算法框架内研究了一般图上的最大独立集(MIS)问题。已知MIS问题是NP难题,且在任意 δ > 0 \delta>0 δ>0的情况下,近似到 n 1 − δ n^{1-\delta} n1δ倍也是NP难题。我们展示了在通过来自机器学习模型的预测获得的预言者的存在下,我们可以突破这一障碍,该模型以概率 1 / 2 + ε 1/2+\varepsilon 1/2+ε回答固定MIS的顶点成员查询。在我们考虑的第一种设置中,可以对每个顶点查询一次预言者,以了解顶点是否属于固定MIS,并且预言者以概率 1 / 2 + ε 1/2 + \varepsilon 1/2+ε返回正确答案。在这种设置下,我们展示了一个算法,在 O ( m ) O(m) O(m)时间内获得了一个 O ~ ( Δ / ε ) \tilde{O}(\sqrt{\Delta}/\varepsilon) O~(Δ /ε)的近似解,其中 Δ \Delta Δ是图的最大度。在第二种设置中,允许对一个顶点进行多次预言者查询,每次查询的正确概率为 1 / 2 + ε 1/2 + \varepsilon 1/2+ε。对于这种设置,我们展示了一个 O ( 1 ) O(1) O(1)的近似算法,使用 O ( n / ε 2 ) O(n/\varepsilon^2) O(n/ε2)总查询和 O ~ ( m ) \tilde{O}(m) O~(m)运行时间。

论文链接: https://arxiv.org/abs/2407.11364

预条件化梯度下降找到了具有尖锐泛化能力的超参数化神经网络,用于非参数回归。

原标题: Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression

作者: Yingzhen Yang

机构: 亚利桑那州立大学

摘要: 本文考虑通过梯度下降(GD)或其变体训练的过度参数化两层神经网络进行非参数回归。我们展示,如果神经网络使用新颖的预条件梯度下降(PGD)进行训练,并且目标函数具有在深度学习文献中广泛研究的谱偏差,那么训练后的网络将呈现出特别尖锐的泛化界限,具有KaTeX parse error: Undefined control sequence: \cO at position 1: \̲c̲O̲({1}/{n^{4\alph…的极小最优速率,这比当前标准速率KaTeX parse error: Undefined control sequence: \cO at position 1: \̲c̲O̲({1}/{n^{2\alph…更尖锐,其中 2 α = d / ( d − 1 ) 2\alpha = d/(d-1) 2α=d/(d1),当数据在KaTeX parse error: Undefined control sequence: \RR at position 1: \̲R̲R̲^d中均匀分布且 n n n为训练数据的大小时。当目标函数没有谱偏差时,我们证明了使用常规GD与早停训练的神经网络仍然具有极小最优速率,在这种情况下,我们的结果不需要分布假设,与当前已知结果相反。我们的结果建立在两个重要的技术贡献之上。首先,通过PGD或GD在训练过程中建立了对NTK的一致收敛性,这样我们就可以在GD或PGD的任何步骤中将神经网络函数很好地分解为RKHS中的一个函数和一个具有小 L ∞ L^{\infty} L-范数的误差函数。其次,局部Rademacher复杂性被用来严格限制由GD或PGD获得的所有可能的神经网络函数组成的函数类的Rademacher复杂性。我们的结果还表明,PGD可以是避免NTK通常的线性区域并获得更尖锐泛化界限的另一种方式,因为PGD在训练过程中引入了一个与常规GD训练的网络架构引起的常规NTK不同的具有较低核复杂性的不同核。

论文链接: https://arxiv.org/abs/2407.11353

引领群体:深度神经网络指挥新兴行为

原标题: Navigating the swarm: Deep neural networks command emergent behaviours

作者: Dongjo Kim, Jeongsu Lee, Ho-Young Kim

机构: 首尔国立大学 高丽大学 首尔国立大学高级机器与设计研究所

摘要: 在复杂系统中相互作用的个体经常会产生表现出协调全局结构的一致运动。这种现象在自然界中随处可见,从细胞迁移、细菌群、动物和昆虫群体,甚至人类社会都有。导致集体行为出现的主要机制已被广泛确定,包括基于平均或相对速度的局部对齐、基于距离的潜在排斥-吸引相互作用、局部和非局部相互作用之间的相互作用,以及基于认知的不均匀相互作用。然而,如何调整这些机制以调节新兴行为仍然是一个难题。在这里,我们展示了通过微调智能体之间的相互作用规则,可以在期望的时刻生成协调的集体结构和预期的全局模式。我们的策略采用深度神经网络,遵循动力学定律,来找到指挥期望集体结构的相互作用规则。将相互作用规则分解为距离和对齐力,通过多项式级数表达,有助于训练神经网络提出期望的相互作用模型。提供的示例包括改变涡旋群体中的平均半径和大小,从随机到有序状态的过渡时机,以及在集体运动的典型模式之间持续变化。这种策略甚至可以用来叠加集体模式,产生迄今未曾探索但非常实用的混合集体模式,如保护性安全编队。我们的发现揭示了创造和控制集体运动的创新策略,为机器人群体操作、活性物质组织以及揭示生物系统中模糊相互作用规则的新应用铺平了道路。

论文链接: https://arxiv.org/abs/2407.11330

上下文引导扩散用于分子和蛋白设计中的分布外问题

原标题: Context-Guided Diffusion for Out-of-Distribution Molecular and Protein Design

作者: Leo Klarner, Tim G. J. Rudner, Garrett M. Morris, Charlotte M. Deane, Yee Whye Teh

机构: 清华大学 剑桥大学 DeepMind

摘要: 生成模型有潜力加速新型分子治疗和材料发现中的关键步骤。扩散模型最近作为一种强大方法出现,擅长无条件样本生成,并且在数据驱动指导下,在其训练领域内进行有条件生成。然而,可靠地从训练数据之外的高价值区域进行采样仍然是一个挑战,当前方法主要集中在修改扩散过程本身。在本文中,我们开发了上下文引导扩散(CGD),这是一种简单的即插即用方法,利用未标记数据和平滑约束来改善引导扩散模型的超出分布泛化。我们证明了这种方法在各种设置下都带来了显著的性能提升,包括连续、离散和图结构扩散过程,在药物发现、材料科学和蛋白设计等领域具有应用。

论文链接: https://arxiv.org/abs/2407.11942

贝叶斯因果森林用于纵向数据:评估高中数学成绩增长中兼职工作的影响

原标题: Bayesian Causal Forests for Longitudinal Data: Assessing the Impact of Part-Time Work on Growth in High School Mathematics Achievement

作者: Nathan McJames, Ann O’Shea, Andrew Parnell

机构: 梅努斯大学 汉密尔顿研究所 数学与统计系

摘要: 在教育领域,建模学生成绩增长是一个重要挑战。了解诸如兼职工作等干预措施或经历如何影响这种增长也很重要。传统方法如差异法对长期数据进行因果效应估计是有效的。与此同时,贝叶斯非参数方法最近在从单个时间点的观察性研究中估计因果效应方面变得流行起来。然而,目前仍然缺乏能够结合这两种方法优势灵活估计长期数据中异质因果效应的方法。受国家教育统计中心(NCES)最新的长期研究“高中纵向研究”两波数据的启发,该研究追踪了美国超过20,000名学生的代表性样本,我们的研究引入了贝叶斯因果森林的长期扩展。该模型允许灵活地识别数学能力的个体增长以及参与兼职工作的影响。模拟研究展示了所提出模型的预测性能和可靠的不确定性量化。结果显示了对大多数学生而言兼职工作的负面影响,但暗示了对那些最初对学校归属感较低的学生可能存在潜在好处。还明确指出了高、低学业成就学生之间成绩差距扩大的迹象。讨论了潜在的政策影响,以及未来研究的有前景领域。

论文链接: https://arxiv.org/abs/2407.11927

利用iCub机器人的自我中心数据学习人类伙伴的次要工具可负担性

原标题: Learning secondary tool affordances of human partners using iCub robot’s egocentric data

作者: Bosong Ding, Erhan Oztop, Giacomo Spigler, Murat Kirtay

机构: 清华大学 萨比奇大学

摘要: 物体,特别是工具,为可以对其进行操作的智能体提供了几种行动可能性,这些可能性通常与“赋能”一词相关联。工具通常是为特定目的而设计的,比如在锤子的情况下用来钉钉,我们称之为主要赋能。工具也可以用于超出其主要目的的用途,这种情况下我们可以将这种辅助用途与次要赋能相关联。以前关于赋能感知和学习的工作主要集中在主要赋能上。在这里,我们解决了一个较少探讨的问题,即学习人类合作伙伴的次要工具赋能。为此,我们利用 iCub 机器人通过三个摄像头观察人类合作伙伴使用四种不同工具对二十个物体执行动作。在我们的实验中,人类合作伙伴利用工具执行与其主要赋能不符的动作。例如,iCub 机器人观察到一个人类合作伙伴使用尺子推动、拉动和移动物体,而不是测量它们的长度。在这种情况下,我们通过拍摄每个动作执行前后物体的图像构建了一个数据集。然后,我们通过训练三个神经网络(ResNet-18、ResNet-50 和 ResNet-101)来模拟学习次要赋能,每个网络针对三个任务进行训练,使用显示物体“初始”和“最终”位置的原始图像作为输入:(1)预测用于移动物体的工具,(2)预测使用的工具,并附加一个编码执行的动作的附加分类输入,以及(3)同时预测使用的工具和执行的动作。我们的结果表明,深度学习架构使 iCub 机器人能够预测次要工具赋能,从而为涉及复杂赋能的人机协作物体操作铺平道路。

论文链接: https://arxiv.org/abs/2407.11922

量化全局自编码器:一种代表视觉数据的整体方法

原标题: Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data

作者: Tim Elsner, Paula Usinger, Victor Czech, Gregor Kobsik, Yanjiang He, Isaak Lim, Leif Kobbelt

机构: 亚琛工业大学

摘要: 在量化自编码器中,图像通常被分割成局部补丁,每个补丁由一个标记编码。这种表示在某种意义上是冗余的,因为每个区域花费的标记数量相同,而不考虑该区域中的视觉信息内容。自适应离散化方案(如四叉树)被应用于为不同大小的补丁分配标记,但这只是改变了标记的影响区域,尽管标记仍然是局部描述符。现代架构向自编码器添加了注意力机制,将一定程度的全局信息融入局部标记中。尽管有全局上下文,标记仍然与局部图像区域相关联。相比之下,我们的方法受到了谱分解的启发,将输入信号转换为全局频率的叠加。从数据驱动的角度来看,我们学习与我们的 VQ-VAE 设置中的码书条目相对应的自定义基础函数。此外,解码器以非线性方式组合这些基础函数,超越了简单的线性叠加谱分解。我们可以通过特征和通道之间的高效转置操作实现这种全局描述,并展示我们在压缩方面的性能。

论文链接: https://arxiv.org/abs/2407.11913

评估视觉模型的归因质量

原标题: Benchmarking the Attribution Quality of Vision Models

作者: Robin Hesse, Simone Schaub-Meyer, Stefan Roth

机构: 达姆斯塔特工业大学 德国 hessian.AI

摘要: 归因映射是解释计算机视觉模型功能的最常用工具之一。它们为输入特征分配重要性分数,指示每个特征对深度神经网络预测的相关性。虽然已经有很多研究提出了新的归因方法,但它们的适当评估仍然是一个困难的挑战。在这项工作中,我们提出了一种新颖的评估协议,克服了广泛使用的增量删除协议的两个基本限制,即域外问题和缺乏模型间比较。这使我们能够评估 23 种归因方法,以及流行视觉模型的八种不同设计选择如何影响它们的归因质量。我们发现,固有可解释模型胜过标准模型,并且原始归因值表现出比以往研究所知更高的归因质量。此外,我们展示了在改变网络设计时归因质量的一致变化,表明一些标准设计选择促进了归因质量。

论文链接: https://arxiv.org/abs/2407.11910

结合Wasserstein-1和Wasserstein-2 proximals:通过良态生成流实现鲁棒流形学习

原标题: Combining Wasserstein-1 and Wasserstein-2 proximals: robust manifold learning via well-posed generative flows

作者: Hyemin Gu, Markos A. Katsoulakis, Luc Rey-Bellet, Benjamin J. Zhang

机构: 马萨诸塞大学阿默斯特分校

摘要: 我们通过 Wasserstein 近端正则化 f f f-散度,制定了适用于学习支撑在低维流形上的分布的连续时间生成流的良好形式。Wasserstein-1 近端算子通过正则化 f f f-散度,使得奇异分布可以进行比较。与此同时,Wasserstein-2 近端算子通过添加最优输运成本,即动能惩罚,来正则化生成流的路径。通过均场博弈理论,我们展示了这两个近端的结合对于制定良好形式的生成流至关重要。生成流可以通过均场博弈的最优性条件进行分析,这是一个由反向哈密顿-雅可比(HJ)和正向连续偏微分方程(PDEs)组成的系统,其解决方案表征了最优生成流。对于学习支撑在低维流形上的分布,均场博弈理论表明,Wasserstein-1 近端,用于处理 HJ 终端条件,以及 Wasserstein-2 近端,用于处理 HJ 动态,两者对应的反向-正向 PDE 系统都是必要的,才能被良好定义,并具有可证明的线性流轨迹的唯一解。这意味着相应的生成流也是唯一的,因此即使是学习支撑在低维流形上的高维分布,也可以以稳健的方式学习。生成流是通过对连续时间流进行对抗训练来学习的,这避免了需要进行逆向模拟的需求。我们展示了我们的方法在生成高维图像方面的有效性,而无需借助自动编码器或专门的架构。

论文链接: https://arxiv.org/abs/2407.11901

基于核的异常检测的方差规范

原标题: Variance Norms for Kernelized Anomaly Detection

作者: Thomas Cass, Lukas Gonon, Nikita Zozoulenko

机构: 伦敦帝国学院 高级研究所 普林斯顿高级研究所

摘要: 我们提出了一种统一的马哈拉诺比斯类型异常检测理论,利用了卡梅隆-马丁理论中应用于非高斯测度的思想。这种方法通过所谓的概率测度的方差范数,导致了一种基础无关、数据驱动的异常距离概念,可以通过经验测度进行一致估计。我们的框架推广了经典的 R d \mathbb{R}^d Rd、函数型 ( L 2 [ 0 , 1 ] ) d (L^2[0,1])^d (L2[0,1])d和核化设置,包括非单射协方差算子的一般情况。我们证明方差范数仅取决于给定希尔伯特空间中的内积,因此核化马哈拉诺比斯距离可以通过在再生核希尔伯特空间中进行工作来自然恢复。
利用方差范数,我们引入了半监督异常检测的核化最近邻马哈拉诺比斯距离的概念。在对12个真实世界数据集进行的实证研究中,我们证明了核化最近邻马哈拉诺比斯距离在多变量时间序列异常检测方面优于传统的核化马哈拉诺比斯距离,使用了最先进的时间序列核函数,如签名、全局对齐和Volterra水库核。此外,我们通过在有限维高斯情况下发展集中不等式,为最近邻马哈拉诺比斯距离提供了初步的理论证明。

论文链接: https://arxiv.org/abs/2407.11873

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值