动态测度传输和神经偏微分方程求解器用于抽样
原标题: Dynamical Measure Transport and Neural PDE Solvers for Sampling
作者: Jingtong Sun, Julius Berner, Lorenz Richter, Marius Zeinhofer, Johannes Müller, Kamyar Azizzadenesheli, Anima Anandkumar
机构: 加州理工学院 洛伦茨·里希特 柏林祖塞研究所 dida Datenschmiede GmbH 马里乌斯·齐因霍夫 Simula研究实验室 弗莱堡大学医院 约翰内斯·穆勒 亚琛工业大学 卡米亚尔·阿齐扎德内谢利 NVIDIA 安妮玛·安德库马
摘要: 从概率密度中抽样的任务可以被看作是将一个可处理的密度函数传输到目标密度的过程,这被称为动态测度传输。在这项工作中,我们通过一个基于确定性或随机演化的原则统一框架来解决这个问题,这些演化由偏微分方程(PDEs)描述。这个框架融合了先前基于轨迹的抽样方法,比如扩散模型或薛定谔桥,而无需依赖时间逆转的概念。此外,它使我们能够提出新颖的数值方法来解决传输任务,从而从复杂的目标中抽样,而无需归一化常数或数据样本。我们利用物理信息神经网络(PINNs)来近似相应的PDE解,这意味着在概念和计算上都具有优势。特别是,PINNs允许进行无模拟和离散化的优化,并且可以被训练得非常高效,相比于其他方法,在抽样任务中具有显著更好的模式覆盖。此外,它们可以很容易地通过高斯-牛顿方法进行微调,以实现高精度的抽样。
论文链接: https://arxiv.org/abs/2407.07873
用于生物网络中带符号相互作用预测的深度图模型
原标题: A deep graph model for the signed interaction prediction in biological network
作者: Shuyi Jin, Mengji Zhang, Meijie Wang, Lun Yu
机构: 新加坡国立大学 上海复星医药集团有限公司 上海MetaNovas生物技术有限公司 Metanovas生物技术公司
摘要: 在制药研究中,药物再利用的策略加速了新疗法的开发,同时降低了研发成本。网络药理学为识别新药适应症奠定了理论基础,深度图模型已成为精准映射复杂生物网络的关键。我们的研究引入了一种利用图卷积网络和张量分解的先进图模型,有效预测带符号的化学基因相互作用。该模型表现出卓越的预测性能,特别擅长处理生物网络中的极性关系。我们的研究为药物发现和再利用开辟了新途径,特别是在理解药物作用机制方面。
论文链接: https://arxiv.org/abs/2407.07357
洞察:利用自回归Transformer技术实现模拟电路的通用神经模拟器
原标题: INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers
作者: Souradip Poddar, Youngmin Oh, Yao Lai, Hanqing Zhu, Bosun Hwang, David Z. Pan
机构: 德克萨斯大学奥斯汀分校 三星先进技术研究院
摘要: 模拟前端设计严重依赖于专业人员的专业知识和昂贵的试错模拟,这促使许多先前的研究致力于模拟设计自动化。然而,由于基于 CPU 的 SPICE 模拟耗时,对庞大且复杂的设计空间进行高效有效的探索仍受到限制,使得有效的设计自动化成为一项具有挑战性的工作。在本文中,我们介绍了 INSIGHT,这是一个由 GPU 驱动的、技术无关的、在模拟前端设计自动化环路中具有有效性的通用神经模拟器。INSIGHT 准确预测各种技术节点上模拟电路的性能指标,显著减少推理时间。值得注意的是,其自回归能力使得 INSIGHT 能够准确预测模拟成本高昂的关键瞬态规格,利用较便宜的性能指标信息。低成本和高保真度的特点使得 INSIGHT 成为模拟前端优化框架中标准模拟器的良好替代品。INSIGHT 兼容任何优化框架,通过复杂的离线学习和适应技术,促进了样本效率的增强设计空间探索。我们的实验表明,INSIGHT-M,一个基于模型的批量强化学习框架,利用 INSIGHT 进行模拟尺寸调整,实现了跨电路至少 50 倍的样本效率改进。据我们所知,这标志着自回归 Transformer 在模拟前端设计中的首次应用。
论文链接: https://arxiv.org/abs/2407.07346
OpenDiLoCo:一个用于全球分布式低通信训练的开源框架
原标题: OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training
作者: Sami Jaghouar, Jack Min Ong, Johannes Hagemann
摘要: OpenDiLoCo是一个开源实现和复制大语言模型的分布式低通信(DiLoCo)训练方法的项目。我们提供了DiLoCo实验的可复现实现,将其置于一个可扩展的、去中心化的训练框架中,使用Hivemind库。我们通过在两个大洲和三个国家训练一个模型来展示其有效性,同时保持90-95%的计算利用率。此外,我们进行了消融研究,重点关注算法的计算效率、工作者数量的可扩展性,并展示其梯度可以使用FP16进行全局归约而不会出现性能下降。此外,我们将OpenDiLoCo扩展到原始工作规模的3倍,展示了其对于数十亿参数模型的有效性。
论文链接: https://arxiv.org/abs/2407.07852
通过 Lambda 差异来减轻序贯决策过程中的部分可观测性
原标题: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
作者: Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris
机构: 加州大学伯克利分校 布朗大学 佐治亚理工学院 亚马逊 杜克大学
摘要: 强化学习算法通常依赖于这样一个假设,即环境动态和价值函数可以用马尔可夫状态表示来表达。然而,当状态信息只能部分观测时,智能体如何学习这样一个状态表示,以及如何检测它何时找到了这样一个表示呢?我们引入了一个可以实现这两个目标的度量标准,而无需访问或了解潜在的不可观测状态空间。我们的度量标准,即 λ \lambda λ-差异,是使用具有不同 λ \lambda λ值的TD( λ \lambda λ)计算的两个不同时间差分(TD)值估计之间的差异。由于TD( λ \lambda λ=0)做出了隐式的马尔可夫假设,而TD( λ \lambda λ=1)则没有,这些估计之间的差异是非马尔可夫状态表示的潜在指标。事实上,我们证明了对于所有马尔可夫决策过程, λ \lambda λ-差异恰好为零,对于广泛类别的部分可观测环境来说,它几乎总是非零的。我们还通过实验证明,一旦检测到,最小化 λ \lambda λ-差异可以帮助学习一个记忆函数,以减轻相应的部分可观测性。然后,我们训练了一个强化学习智能体,同时构建了两个具有不同 λ \lambda λ参数的循环价值网络,并将它们之间的差异最小化作为辅助损失。这种方法适用于具有挑战性的部分可观测领域,其中得到的智能体通常表现比仅具有单个价值网络的基准循环智能体表现显著更好(且从不表现更差)。
论文链接: https://arxiv.org/abs/2407.07333
通过Gromov-Monge间隙在几何保持中学习解耦表示
原标题: Disentangled Representation Learning through Geometry Preservation with the Gromov-Monge Gap
作者: Théo Uscidda, Luca Eyring, Karsten Roth, Fabian Theis, Zeynep Akata, Marco Cuturi
机构: CREST-ENSAE Helmholtz Munich Technical University of Munich MCML Tübingen AI Center Apple
摘要: 以无监督方式学习分解表示是机器学习中的一个基本挑战。解决这个问题可能会解锁其他问题,比如泛化、可解释性或公平性。虽然在一般情况下解决这个问题非常困难,但最近的研究表明,在额外的假设下,可以证明分解是可以实现的,这些假设可以利用几何约束,比如局部等距性。为了利用这些见解,我们提出了一个建立在二次最优输运上的分解表示学习的新视角。具体地,我们在Gromov-Monge设置中制定了这个问题,该设置寻求在不同空间上支持的分布之间的等距映射。我们提出了Gromov-Monge-Gap(GMG),这是一个正则化项,用于量化在不同空间上支持的两个分布之间的任意推送映射的几何保持性。我们展示了GMG正则化在四个标准基准上对分解的有效性。此外,我们表明几何保持甚至可以在没有标准重构目标的情况下促进无监督分解,使底层模型无需解码器,并承诺对无监督分解提供更具实用性和可扩展性的视角。
论文链接: https://arxiv.org/abs/2407.07829
CATP:具有竞争共生的上下文感知轨迹预测
原标题: CATP: Context-Aware Trajectory Prediction with Competition Symbiosis
作者: Jiang Wu, Dongyu Liu, Yuchen Lin, Yingcai Wu
机构: 浙江大学 加州大学戴维斯分校
摘要: 上下文信息对于准确的轨迹预测至关重要。例如,候鸟复杂的飞行行为取决于它们对环境线索(如风向和气压)的分析。然而,上下文信息的多样性和动态性使得AI模型难以理解其对轨迹的影响,从而难以准确预测。为了解决这个问题,我们提出了一个“管理者-工作者”框架,以释放上下文信息的全部潜力,并构建CATP模型,这是该框架的一种实现,用于上下文感知轨迹预测。该框架包括一个管理者模型、多个工作者模型和一个受自然界竞争共生启发的定制训练机制。以CATP为例,每个工作者需要竞争获取训练数据,并在预测特定移动模式方面取得优势。管理者学习工作者在不同情境下的表现,并选择在给定情境中最佳的工作者来预测轨迹,使得整个CATP能够以共生方式运作。我们进行了两项比较实验和一项消融研究,定量评估了提出的框架和CATP模型。结果显示,CATP能够胜过SOTA模型,并且该框架可以推广到不同的上下文感知任务中。
论文链接: https://arxiv.org/abs/2407.07328
使用卷积神经网络估计随机图的稳定数。
原标题: Estimating the stability number of a random graph using convolutional neural networks
作者: Randy Davila
机构: 瑞斯大学 人工智能关系研发部 洛杉矶 加利福尼亚 美国 莱斯大学 计算应用数学与运筹学系 休斯顿 德克萨斯 美国
摘要: 图组合优化问题具有广泛的适用性,并且计算起来非常困难;例如,考虑旅行推销员或设施选址问题。在本文中,我们探讨了在图像上使用卷积神经网络(CNNs)来预测随机图和网络的组合属性的基数的可行性。具体而言,我们使用随机图的修改邻接矩阵的图像表示作为CNN模型的训练样本,以预测随机图的稳定数;其中稳定数是不包含任何成对邻接的顶点的最大集合的基数。我们的方法展示了在组合优化问题中应用深度学习的潜力。
论文链接: https://arxiv.org/abs/2407.07827
稀有事件流:在时间重要性抽样中应用正规化流进行自动驾驶车辆验证
原标题: Flow to Rare Events: An Application of Normalizing Flow in Temporal Importance Sampling for Automated Vehicle Validation
作者: Yichun Ye, He Zhang, Ye Tian, Jian Sun
机构: 同济大学
摘要: 基于模拟测试的自动驾驶车辆(AV)验证需要进行无偏评估和高效率。一种有效的解决方案是增加对风险罕见事件的曝光,同时重新调整概率测度。然而,由于样本稀缺和连续场景变量的时间性,表征风险事件分布尤其具有挑战性。为了解决这个问题,我们设计了一种方法来表示、生成和重新调整风险罕见事件的分布。我们将连续变量的时间演变分解为基于条件概率的分布组件。通过引入风险指示函数,风险罕见事件的分布在自然驾驶分布中被理论上推导出来。通过正规化流,实际生成了这种有针对性的分布,从而实现了复杂分布的精确和可处理的概率评估。罕见事件分布随后被展示为有利的重要性采样分布。我们还提倡时间重要性采样技术。结合的方法,被命名为TrimFlow,被用来估计后车跟随场景的碰撞率作为试验性实践。结果显示,从罕见事件分布中采样背景车辆操纵可以将测试场景演变为危险状态。与根据其在自然驾驶环境中的曝光生成测试场景相比,TrimFlow减少了86.1%的测试。此外,TrimFlow方法并不局限于一种特定类型的功能场景。
论文链接: https://arxiv.org/abs/2407.07320
何时接受自动预测,何时听从人类判断?
原标题: When to Accept Automated Predictions and When to Defer to Human Judgment?
作者: Daniel Sikar, Artur Garcez, Tillman Weyde, Robin Bloomfield, Kaleem Peeroo
机构: 伦敦城市大学
摘要: 确保自动决策的可靠性和安全性至关重要。众所周知,在机器学习中,数据分布的转移可能导致不可靠的结果。本文提出了一种衡量在数据分布转移下预测可靠性的新方法。我们分析了经过训练的神经网络输出的变化,使用聚类来衡量输出与类别中心之间的距离。我们提出将这个距离作为一个度量标准,用于评估在数据分布转移下预测的置信度。我们将每个预测分配到一个簇中,其中心代表给定类别所有正确预测的平均 softmax 输出。然后,我们为一个类别定义一个安全阈值,即从一个错误预测到给定类别中心的最小距离。我们使用卷积神经网络和视觉 Transformer 分别在 MNIST 和 CIFAR-10 数据集上评估了这种方法。结果显示,我们的方法在这些数据集和网络模型上是一致的,并且表明所提出的度量标准可以提供一种有效的方式,用于确定何时自动预测是可接受的,何时应该在数据分布转移时推迟给人类操作员。
论文链接: https://arxiv.org/abs/2407.07821
ViTime:基于视觉智能的时间序列预测基础模型
原标题: ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting
作者: Luoxiao Yang, Yun Wang, Xinqi Fan, Israel Cohen, Yue Zhao, Zijun Zhang
机构: 西安理工大学 西北工业大学 曼彻斯特都会大学 以色列理工学院 香港城市大学
摘要: 大语言模型在自然语言处理(NLP)和计算机视觉(CV)领域的成功为构建时间序列预测(TSF)的基础模型开辟了新途径。传统的时间序列预测基础模型主要依赖于数值数据拟合。相比之下,人类大脑在处理视觉信息方面具有天赋,更倾向于通过观察可视化序列来预测未来趋势。从仿生学的角度来看,直接处理数值序列的模型可能不是实现通用人工智能(AGI)的最有效途径。本文提出了ViTime,一种基于视觉智能的时间序列预测基础模型。ViTime通过利用视觉数据处理范式克服了数值时间序列数据拟合的局限,并在训练过程中采用了一种名为实时时间序列(RealTS)的创新数据合成方法。对一组多样的以前未见的预测数据集进行的实验表明,ViTime实现了最先进的零样本性能,甚至在某些情况下超过了最佳的单独训练的监督模型。这些发现表明,视觉智能可以显著增强时间序列分析和预测,为该领域的更先进、更多功能的模型铺平道路。我们框架的代码可以在此网址上获得访问。
论文链接: https://arxiv.org/abs/2407.07311
Github: https://github.com/IkeYang/ViTime
误分类概率矩阵:某些类别比其他类别更容易被错误分类。
原标题: The Misclassification Likelihood Matrix: Some Classes Are More Likely To Be Misclassified Than Others
作者: Daniel Sikar, Artur Garcez, Robin Bloomfield, Tillman Weyde, Kaleem Peeroo, Naman Singh, Maeve Hutchinson, Mirela Reljan-Delaney
摘要: 这项研究介绍了误分类概率矩阵(MLM)作为一种新工具,用于量化神经网络在分布转移下预测可靠性。通过利用softmax输出和聚类技术来获取MLM,以测量经过训练的神经网络预测与类别中心之间的距离。通过分析这些距离,MLM提供了模型误分类倾向的全面视图,使决策者能够识别最常见和关键的错误来源。MLM允许对模型改进进行优先排序,并基于可接受的风险水平建立决策阈值。该方法在MNIST数据集上使用卷积神经网络(CNN)和扰动版本的数据集进行评估,以模拟分布转移。结果表明,MLM在评估预测可靠性方面的有效性,并突出了其在增强神经网络的可解释性和风险缓解能力方面的潜力。这项工作的影响不仅限于图像分类,在自动驾驶汽车等自主系统中具有持续的应用,以提高在复杂的现实环境中决策制定的安全性和可靠性。
论文链接: https://arxiv.org/abs/2407.07818
半稳态时间序列中的因果发现
原标题: Causal Discovery in Semi-Stationary Time Series
作者: Shanyun Gao, Raghavendra Addanki, Tong Yu, Ryan A. Rossi, Murat Kocaoglu
机构: 普渡大学 Adobe Research
摘要: 从观测时间序列中发现因果关系而不做平稳性假设是一个重要挑战。在实践中,这个挑战在许多领域都很常见,比如零售销售、交通系统和医学科学。在这里,我们考虑了一类非平稳时间序列的这个问题。这种类型时间序列的结构因果模型(SCM),称为半平稳时间序列,展示了有限数量的不同因果机制在时间上顺序和周期性地发生。这个模型具有相当大的实用性,因为它可以表示周期性,包括常见的季节性和昼夜变化等现象。我们提出了一种基于约束的非参数算法,用于在这种情况下发现因果关系。得到的算法,PCMCI Ω _{\Omega} Ω,可以捕捉因果机制中交替和重复的变化,然后通过条件独立(CI)检验识别潜在的因果图。我们展示了这个算法在离散时间序列上识别因果关系的准确性。我们通过对连续和离散模拟数据进行大量实验证实了该算法。我们还将我们的算法应用到一个真实的气候数据集中。
论文链接: https://arxiv.org/abs/2407.07291
因果发现驱动的时间序列变点检测
原标题: Causal Discovery-Driven Change Point Detection in Time Series
作者: Shanyun Gao, Raghavendra Addanki, Tong Yu, Ryan A. Rossi, Murat Kocaoglu
机构: 普渡大学 Adobe Research
摘要: 时间序列中的变点检测旨在识别时间序列概率分布发生变化的时间点。它被广泛应用于许多领域,如人类活动感知和医学科学。在多变量时间序列的背景下,这通常涉及检查高维数据的联合分布:如果任何一个变量发生变化,就假定整个时间序列已经发生变化。然而,在实际应用中,我们可能只对时间序列的某些组件感兴趣,在其他时间序列存在的情况下探索它们分布的突变。在这里,我们假设存在一个控制时间序列数据生成的潜在结构因果模型,通过提出一个两阶段非参数算法来解决这个问题,该算法首先通过基于约束的发现方法学习因果结构的部分。然后,该算法使用条件相对皮尔逊散度估计来识别变点。条件相对皮尔逊散度量化了时间序列中连续段之间的分布差异,而因果发现方法使得可以专注于因果机制,便于访问独立同分布(IID)样本。从理论上讲,传统变点检测方法中样本独立同分布的典型假设可以基于因果马尔可夫条件放宽。通过对合成和真实数据集的实验,我们验证了我们方法的正确性和实用性。
论文链接: https://arxiv.org/abs/2407.07290
深度状态空间模型学习动态理论探索
原标题: Towards a theory of learning dynamics in deep state space models
作者: Jakub Smékal, Jimmy T.H. Smith, Michael Kleinman, Dan Biderman, Scott W. Linderman
机构: 斯坦福大学 哥伦比亚大学 液体人工智能
摘要: 状态空间模型(SSMs)在许多长序列建模任务中表现出卓越的实证性能,但对这些模型的理论理解仍然不足。在这项工作中,我们研究了线性SSMs的学习动态,以了解数据中的协方差结构、潜在状态大小和初始化如何影响参数在梯度下降学习过程中的演变。我们表明,将焦点放在频域中的学习动态可以在温和的假设下提供分析解,并建立了一维SSMs与深度线性前馈网络动态之间的联系。最后,我们分析了潜在状态过度参数化如何影响收敛时间,并描述了将我们的结果扩展到具有非线性连接的深度SSMs研究的未来工作。这项工作是朝着深度状态空间模型学习动态理论迈出的一步。
论文链接: https://arxiv.org/abs/2407.07279
逆问题的自适应获取策略的强化学习
原标题: Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems
作者: Gianluigi Silvestri, Fabio Valerio Massoli, Tribhuvanesh Orekondy, Afshin Abdi, Arash Behboodi
摘要: 减轻获取高维信号的昂贵过程的一种有前途的方法是获取有限数量的低维度测量,并通过利用关于信号的结构先验来解决欠定的逆问题。在本文中,我们专注于自适应采集方案,以进一步节省测量数量。为此,我们提出了一种基于强化学习的方法,通过顺序收集测量来更好地恢复基础信号,从而获取更少的测量。我们的方法适用于具有连续动作空间的一般逆问题,并共同学习恢复算法。利用从理论分析中获得的见解,我们还提供了一种使用变分公式的方法的概率设计。我们在多个数据集上评估了我们的方法,并使用两种测量空间(高斯、Radon)。我们的结果证实了自适应策略在低采集视野设置中的好处。
论文链接: https://arxiv.org/abs/2407.07794
树的Ramsey定理和一个通用的“私有学习意味着在线学习”的定理
原标题: Ramsey Theorems for Trees and a General ‘Private Learning Implies Online Learning’ Theorem
作者: Simone Fioravanti, Steve Hanneke, Shay Moran, Hilla Schefler, Iska Tsubari
摘要: 这项工作继续研究差分隐私(DP)与在线学习之间的联系。Alon、Livni、Malliaris和Moran(2019)表明,对于二元概念类,给定类的DP可学习性意味着它具有有限的Littlestone维度(等价地,它是在线可学习的)。他们的证明依赖于Hodges(1997)的一个模型论结果,该结果表明,任何具有大Littlestone维度的二元概念类都包含一个大的阈值子类。在后续工作中,Jung、Kim和Tewari(2020)将这一证明扩展到具有有限标签数量的多类别PAC学习。不幸的是,Hodges的结果不适用
论文链接: https://arxiv.org/abs/2407.07765
Deep-Graph-Sprints:在连续时间动态图中加速表示学习
原标题: Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs
作者: Ahmad Naser Eddin, Jacopo Bono, David Aparício, Hugo Ferreira, Pedro Ribeiro, Pedro Bizarro
机构: Feedzai Departamento de Ciência de Computadores Faculdade de Ciências Universidade do Porto Portugal
摘要: 连续时间动态图(CTDGs)对于建模相互连接、不断演化的系统至关重要。传统的从这些图中提取知识的方法通常依赖于特征工程或深度学习。特征工程受制于手动制作特征的繁琐和耗时性质,而深度学习方法则受到高推理延迟的影响,使其在实时应用中不切实际。本文介绍了Deep-Graph-Sprints(DGS),这是一种新颖的深度学习架构,旨在对具有低延迟推理需求的CTDGs进行高效表示学习。我们使用五个不同的数据集将DGS与最先进的特征工程和图神经网络方法进行了基准测试。结果表明,与我们测试的其他深度学习方法相比,DGS在提高推理速度的同时实现了竞争性能。我们的方法有效地弥合了深度表示学习与CTDGs低延迟应用需求之间的差距。
论文链接: https://arxiv.org/abs/2407.07712
科学模拟中智能替代品主动学习的可行性研究
原标题: Feasibility Study on Active Learning of Smart Surrogates for Scientific Simulations
作者: Pradeep Bajracharya, Javier Quetzalcóatl Toledo-Marín, Geoffrey Fox, Shantenu Jha, Linwei Wang
机构: 罗切斯特理工学院 温哥华TRIUMF 大学 of Virginia 罗格斯大学
摘要: 高性能科学模拟对于理解复杂系统至关重要,尤其在探索广泛参数空间时会遇到计算挑战。近年来,人们对开发深度神经网络(DNNs)作为能加速模拟的替代模型表现出越来越大的兴趣。然而,目前用于训练这些DNN替代模型的方法依赖于大量模拟数据,这些数据是经过启发式选择并通过昂贵计算生成的,这是文献中尚未深入探讨的挑战。本文研究了将主动学习技术纳入DNN替代模型训练的潜力。这样可以智能和客观地选择训练模拟,减少生成大量模拟数据的需求,以及减少DNN替代模型性能对预定义训练模拟的依赖性。在构建扩散方程带源DNN替代模型的问题背景下,我们考察了基于多样性和不确定性策略选择训练模拟的有效性,考虑了两种不同的DNN架构。研究结果为开发支持通过主动学习策略引导的模拟数据实时生成的智能替代模型的高性能计算基础设施奠定了基础,从而潜在地提高科学模拟的效率。
论文链接: https://arxiv.org/abs/2407.07674
如何利用预测不确定性估计来减少在线持续学习中的灾难性遗忘
原标题: How to Leverage Predictive Uncertainty Estimates for Reducing Catastrophic Forgetting in Online Continual Learning
作者: Giuseppe Serra, Ben Werner, Florian Buettner
机构: 哥特大学法兰克福 分子医学部
摘要: 许多现实世界的应用需要机器学习模型能够处理非静态数据分布,并且能够在较长时间内自主学习,通常是在在线设置中。在这种情况下的主要挑战之一是所谓的灾难性遗忘(CF),即学习模型倾向于专注于最近的任务,同时在旧任务上经历预测性能下降。在在线设置中,最有效的解决方案之一是使用固定大小的内存缓冲区来存储旧样本,用于在训练新任务时进行重放。已经提出了许多方法来解决这个问题。然而,目前尚不清楚如何以最有效的方式利用用于内存管理的预测不确定性信息,以及关于如何填充内存的冲突策略。在对抗CF时,易于遗忘还是易于记忆的样本更有效?从预测不确定性提供样本在决策空间中位置的直觉出发,本文对不同不确定性估计和填充内存的策略进行了深入分析。该研究有助于更好地理解数据点应具有的特征,以减轻CF。然后,我们提出了一种通过负对数似然引起的广义方差来估计预测不确定性的替代方法。最后,我们证明了利用预测不确定性度量有助于在不同设置中减少CF。
论文链接: https://arxiv.org/abs/2407.07668
超球形原型学习几何的编码理论分析
原标题: A Coding-Theoretic Analysis of Hyperspherical Prototypical Learning Geometry
作者: Martin Lindström, Borja Rodríguez-Gálvez, Ragnar Thobaben, Mikael Skoglund
机构: 斯德哥尔摩大学 瑞典皇家理工学院
摘要: 超球形原型学习(HPL)是一种监督学习方法,用于在单位超球面上设计类原型的表示学习。这些原型使表示偏向于类别分离,具有尺度不变性和已知几何形状。先前的HPL方法存在以下缺点之一:(i)它们遵循不合理的优化过程;或者(ii)它们在理论上是合理的,但受限于只有一个可能的潜在维度。在本文中,我们解决了这两个缺点。为了解决(i),我们提出了一个合理的优化过程,我们展示其解是最优的。为了解决(ii),我们使用线性分块码在广泛的维度范围内构建互相分离的原型。此外,我们对最佳原型放置进行了全面描述,以可实现和逆向界限为基础,表明我们提出的方法是接近最优的。
论文链接: https://arxiv.org/abs/2407.07664
选择性 G-双谱及其反演:应用于 G-不变网络
原标题: The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks
作者: Simon Mataigne, Johan Mathe, Sophia Sanborn, Christopher Hillar, Nina Miolane
机构: ICTEAM UCLouvain Atmo Science Awecom, Inc. UC Santa Barbara
摘要: 在信号处理和深度学习中一个重要的问题是实现对于与任务无关的干扰因素的\textit{不变性}。由于许多这些因素可以描述为群 G G G 的作用(例如旋转、平移、缩放),我们希望方法能够是 G G G-不变的。 G G G-双谱提取了给定信号的每个特征,直到群作用为止:例如,图像中物体的形状,但不包括其方向。因此, G G G-双谱已被纳入深度神经网络架构作为 G G G-不变性的计算原语——类似于池化机制,但具有更高的选择性和鲁棒性。然而, G G G-双谱的计算成本( O ( ∣ G ∣ 2 ) \mathcal{O}(|G|^2) O(∣G∣2),其中 ∣ G ∣ |G| ∣G∣ 是群的大小)限制了其广泛应用。在这里,我们展示了 G G G-双谱计算包含可以减少为具有 O ( ∣ G ∣ ) \mathcal{O}(|G|) O(∣G∣) 复杂度的\textit{选择性 G G G-双谱}的冗余。我们证明了选择性 G G G-双谱的理想数学属性,并展示了它如何在神经网络中的整合提高了准确性和鲁棒性,同时与传统方法相比具有相当大的加速。
论文链接: https://arxiv.org/abs/2407.07655
五边形光子晶体镜面:通过神经拓扑优化实现增强加速的可扩展光帆
原标题: Pentagonal Photonic Crystal Mirrors: Scalable Lightsails with Enhanced Acceleration via Neural Topology Optimization
作者: L. Norder, S. Yin, M. J. de Jong, F. Stallone, H. Aydogmus, P. M. Sberna, M. A. Bessa, R. A. Norte
机构: 代尔夫特理工大学 美国布朗大学
摘要: 星际飞船突破计划旨在在20年内将一克微芯片探测器发送到半人马座,使用克级光帆通过基于激光辐射压力推进,达到接近光速五分之一的速度。这项任务需要挑战纳米技术的基本原理,需要在光学、材料科学和结构工程方面进行创新。与必须在每个维度上最小化的微芯片有效载荷不同,这种光帆需要具有米级尺寸的尺寸,纳米级厚度和数十亿个纳米级孔,以增强反射率并减轻质量。我们的研究采用神经拓扑优化,揭示了一种基于五边形晶格的光子晶体(PhC)反射器。优化设计缩短了加速时间,从而显著降低了发射成本。至关重要的是,这些设计还实现了光帆材料制造成本的数量级降低。我们制造了一个60 x 60 mm 2 ^2 2,厚度为200nm,单层反射器,上面穿孔超过十亿个纳米级特征;这是迄今为止最高纵横比的纳米光子元件。我们实现了每平方米近9000倍的成本降低。星际飞船的光帆将具有几项严格的要求,但最终将由建造规模来驱动成本。在这里,我们重点介绍了开发光帆材料中的挑战和可能的解决方案,展示了将纳米光子学扩展到成本效益的下一代太空探索的潜力。
论文链接: https://arxiv.org/abs/2407.07896
解释在图上用于节点相似性的图神经网络
原标题: Explaining Graph Neural Networks for Node Similarity on Graphs
作者: Daniel Daza, Cuong Xuan Chu, Trung-Kien Tran, Daria Stepanova, Michael Cochez, Paul Groth
机构: 自由大学阿姆斯特丹 大学阿姆斯特丹 博世人工智能中心
摘要: 相似性搜索是利用图数据中的信息的基本任务,例如引用网络或知识图谱等各种应用。虽然这一任务已经被广泛地从启发式方法、图嵌入和图神经网络(GNNs)等方面进行了研究,但为相似性提供解释却受到了较少关注。在这项工作中,我们关注的是关于图中可解释的相似性搜索,通过研究如何将基于GNN的计算节点相似性的方法与解释相结合。具体来说,我们评估了GNN中两种突出的解释方法的性能,基于互信息(MI)和基于梯度的解释(GB)的概念。我们讨论它们的适用性,并在不同流行的图基准上对它们的解释属性进行了实证验证。我们发现,与MI解释不同,基于梯度的解释具有三个可取之处。首先,它们是可操作的:根据它们选择输入会导致相似性分数发生可预测的变化。其次,它们是一致的:选择某些输入的影响与丢弃它们的影响几乎没有重叠。第三,它们可以被显著修剪,以获得保留对相似性分数影响的稀疏解释。
论文链接: https://arxiv.org/abs/2407.07639
悲观主义遇上风险:风险敏感的离线强化学习
原标题: Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning
作者: Dake Zhang, Boxiang Lyu, Shuang Qiu, Mladen Kolar, Tong Zhang
机构: 清华大学 北京大学 达特茅斯学院
摘要: 我们研究风险敏感的强化学习(RL),这是一个关键领域,因为它能够增强在需要管理不确定性并最小化潜在不利结果的场景中的决策能力。特别是,我们的工作侧重于将熵风险度量应用于RL问题。虽然现有文献主要研究在线设置,但在如何仅使用预先收集的数据集有效地推导基于这种风险度量的接近最优策略方面仍存在很大差距。我们专注于线性马尔可夫决策过程(MDP)设置,这是一个备受推崇的理论框架,但尚未从风险敏感的角度进行研究。作为回应,我们引入了两种经过证明的样本高效算法。我们首先提出了一种风险敏感的悲观值迭代算法,通过利用风险敏感性能度量的结构提供了严格的分析。为了进一步改善所获得的界限,我们提出了另一种利用方差信息和参考优势分解的悲观算法,有效改善了对空间维度 d d d和风险敏感因子的依赖性。据我们所知,我们获得了第一个经过证明的高效风险敏感离线RL算法。
论文链接: https://arxiv.org/abs/2407.07631
具有可证收敛性的概率学习率调度器
原标题: Probabilistic learning rate scheduler with provable convergence
作者: Dahlia Devapriya, Thulasi Tholeti, Janani Suresh, Sheetal Kalyani
摘要: 学习率调度器在实践中已经显示出加速学习算法收敛的巨大成功。然而,它们收敛到最小值的理论证明尚未完成。这一困难主要源于传统收敛分析要求学习率单调递减(或保持恒定),而调度器则选择在训练时期内经常增加和减少的学习率。在这项工作中,我们旨在通过提出一种概率学习率调度器(PLRS)来弥合这一差距,该调度器不符合单调递减条件,并具有可证明的收敛保证。除了提供详细的收敛证明外,我们还展示了实验结果,表明所提出的PLRS在各种数据集和架构上与其他最先进的学习率调度器竞争力相当。
论文链接: https://arxiv.org/abs/2407.07613
AdaptiGraph:面向机器人操作的材料自适应图神经动力学
原标题: AdaptiGraph: Material-Adaptive Graph-Based Neural Dynamics for Robotic Manipulation
作者: Kaifeng Zhang, Baoyu Li, Kris Hauser, Yunzhu Li
机构: 伊利诺伊大学厄巴纳-香槟分校 哥伦比亚大学
摘要: 预测模型是许多机器人系统中至关重要的组成部分。然而,为各种可变形物体构建准确的预测模型,特别是那些具有未知物理特性的物体,仍然是一个重大挑战。本文介绍了AdaptiGraph,这是一种基于学习的动力学建模方法,使机器人能够预测、适应和控制各种具有未知物理特性的具有挑战性的可变形材料。AdaptiGraph利用高度灵活的基于图的神经动力学(GBND)框架,将材料位表示为粒子,并利用图神经网络(GNN)来预测粒子运动。其关键创新是一个统一的物理特性条件的GBND模型,能够在无需重新训练的情况下预测具有不同物理特性的各种材料的运动。在在线部署过程中遇到新材料时,AdaptiGraph利用物理特性优化过程对模型进行少样本适应,增强其对观察到的相互作用数据的拟合。经过调整的模型可以精确模拟各种可变形材料的动态并预测其运动,例如绳索、颗粒介质、刚性箱子和布料,同时适应不同的物理特性,包括刚度、颗粒尺寸和压力中心。在涉及多种真实世界可变形物体的预测和操作任务中,我们的方法表现出比非物质条件和非自适应模型更高的预测准确性和任务熟练度。项目页面可在此网址找到。
论文链接: https://arxiv.org/abs/2407.07889
Github: https://robopil.github.io/adaptigraph/
物理信息几何算子支持工程设计的代理、降维和生成模型
原标题: Physics-Informed Geometric Operators to Support Surrogate, Dimension Reduction and Generative Models for Engineering Design
作者: Shahroz Khan, Zahid Masood, Muhammad Usama, Konstantinos Kostas, Panagiotis Kaklis, Wei (Wayne)Chen
摘要: 在这项工作中,我们提出了一组物理信息几何算子(GOs),用于丰富为训练替代/判别模型、降维和生成模型提供的几何数据,这些模型通常用于性能预测、降维和创建数据驱动的参数化。然而,由于这些模型的输入和输出流都包含低级形状表示,它们经常无法捕获对性能分析至关重要的形状特征。因此,所提出的GOs利用形状的微分和积分属性——通过傅里叶描述符、曲率积分、几何矩和它们的不变性来获取高级固有几何信息和物理信息,并将其融入用于训练的特征向量中,即使使用简单的模型架构或低级参数化描述。我们展示了,对于替代建模,除了引入物理概念,GOs还通过正则化减少过拟合,并增强对新的、未见设计的泛化能力。此外,通过大量实验,我们证明了对于降维和生成模型,整合所提出的GOs可以丰富训练数据,包含紧凑的全局和局部几何特征。这显著提升了生成的潜在空间的质量,从而促进了有效和多样化设计的生成。最后,我们还展示了GOs可以在很大程度上实现学习参数敏感性。因此,这些增强措施加快了形状优化器朝着最佳解的收敛速度。
论文链接: https://arxiv.org/abs/2407.07611
使用具有剪切和法向力传感的触觉皮肤进行手部翻译学习
原标题: Learning In-Hand Translation Using Tactile Skin With Shear and Normal Force Sensing
作者: Jessica Yin, Haozhi Qi, Jitendra Malik, James Pikul, Mark Yim, Tess Hellebrekers
机构: Meta FAIR University of Pennsylvania GRASP Lab UC Berkeley UW-Madison
摘要: 最近在强化学习(RL)和触觉传感方面取得的进展显著推动了灵巧操作的发展。然而,由于触觉模拟与现实世界之间存在差距,这些方法通常利用简化的触觉信号。我们引入了一种用于触觉皮肤的传感器模型,实现了三元剪切和二元法向力的零样本模拟到真实世界的转移。利用这一模型,我们开发了一个强化学习策略,利用滑动接触进行手中灵巧平移。我们进行了大量的真实世界实验,评估触觉传感如何促进策略对各种未见物体属性和机器人手朝向的适应。我们证明,我们的三轴触觉策略始终优于仅使用剪切力、仅使用法向力或仅使用本体感知的基准线。网站:此处的https网址。
论文链接: https://arxiv.org/abs/2407.07885
Github: https://jessicayin.github.io/tactile-skin-rl/
在治疗有需要的人群时学习治疗效果
原标题: Learning treatment effects while treating those in need
作者: Bryan Wilder, Pim Welle
机构: 卡内基梅隆大学 Allegheny County Department of Human Services
摘要: 许多社会项目试图将稀缺资源分配给最需要的人。事实上,公共服务越来越多地使用算法风险评估来实现这一目标。然而,针对最需要的受益者往往与试图评估整个项目的因果效应相冲突,因为最好的评估是通过随机分配来获得的。我们提出了一个框架,设计了随机分配规则,可以在针对高需个体和学习治疗效果之间实现最佳平衡,向决策者展示了两个目标之间的帕累托前沿。我们为政策学习问题提供了样本复杂性保证,并提供了一个计算效率高的策略来实施它。然后,我们将我们的框架应用到宾夕法尼亚州阿勒格尼县人力资源数据中。优化的政策可以大大减轻学习和定位之间的权衡。例如,通常可以在针对高需个体时获得最佳效用的90%,同时确保平均治疗效应的估计所需的样本量不到随机对照试验所需样本量的2倍。针对公共服务的机制通常侧重于尽可能准确地衡量需求。然而,我们的结果表明,如果公共服务中的算法系统将项目评估作为一个明确的目标与定位一起纳入,那么它们可能会产生最大的影响。
论文链接: https://arxiv.org/abs/2407.07596
数字孪生车辆边缘计算网络中的孪生维护和计算任务处理资源分配
原标题: Resource Allocation for Twin Maintenance and Computing Task Processing in Digital Twin Vehicular Edge Computing Network
作者: Yu Xie, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief
机构: 清华大学 哈工大IEEE
摘要: 作为一项有前景的技术,车载边缘计算(VEC)可以通过在车辆附近部署VEC服务器提供计算和缓存服务。然而,VEC网络仍然面临诸如车辆高度移动性等挑战。数字孪生(DT)是一种新兴技术,可以通过在物理世界中对对象进行数字建模来预测、估计和分析实时状态。通过将DT与VEC集成,可以在VEC服务器中创建虚拟车辆DT,以监控车辆的实时运行状态。然而,维护车辆DT模型需要VEC服务器持续关注,同时还需要为车辆提供计算服务。因此,有效的VEC服务器资源分配和调度至关重要。本研究侧重于具有单个VEC服务和多辆车辆的通用VEC网络,研究了孪生维护和网络内计算处理引起的两种延迟类型。通过使用满意度函数转换问题,我们提出了一个旨在最大化每辆车辆资源效用的优化问题,以确定最佳资源分配策略。鉴于问题的非凸性质,我们采用多智能体马尔可夫决策过程来重新制定问题。随后,我们提出了孪生维护和计算任务处理资源协同调度(MADRL-CSTC)算法,该算法利用多智能体深度强化学习。通过与替代算法的实验比较,它表明我们提出的方法在资源分配方面是有效的。
论文链接: https://arxiv.org/abs/2407.07575
医学影像的机器遗忘
原标题: Machine Unlearning for Medical Imaging
作者: Reza Nasirigerdeh, Nader Razmi, Julia A. Schnabel, Daniel Rueckert, Georgios Kaissis
机构: Helmholtz Munich 技术大学慕尼黑 德国 Independent Researcher 独立研究者 Ardebil 伊朗 Technical University of Munich 慕尼黑工业大学 德国 Imperial College London 伦敦帝国学院 英国 King’s College London 伦敦国王学院 英国
摘要: 机器遗忘是从预训练模型中移除特定训练样本集的影响的过程。它旨在实现“被遗忘的权利”,赋予个体(如患者)重新考虑其在包括医学影像模型在内的模型中的贡献的权利。在这项研究中,我们评估了医学影像领域不同遗忘算法的有效性(性能)和计算效率。我们的评估表明,考虑的遗忘算法在保留集(允许对模型产生影响的样本)和遗忘集(应该消除对模型的贡献的样本)上表现良好,并且不对男性或女性样本产生偏见。然而,它们会对模型的泛化能力产生不利影响,特别是对于更大的遗忘集大小。此外,它们可能对简单或困难的样本产生偏见,并需要额外的计算开销进行超参数调整。总之,机器遗忘在医学影像领域似乎很有前景,但现有的遗忘算法仍需要进一步改进,以使其对医学应用更加实用。
论文链接: https://arxiv.org/abs/2407.07539
MLRS-PDS:动态集成选择管道的元学习推荐
原标题: MLRS-PDS: A Meta-learning recommendation of dynamic ensemble selection pipelines
作者: Hesam Jalalian, Rafael M. O. Cruz
机构: École de Technologie Supérieure, Université du Québec, Montréal (QC), Canada
摘要: 动态选择(DS)在测试时为每个新实例从分类器池中选择基础分类器,已被证明在模式识别中非常有效。然而,分类器池中的不稳定性和冗余可能会妨碍动态集成选择中的计算效率和准确性。本文介绍了一种元学习推荐系统(MLRS),用于为个体数据集量身定制的DES方法推荐最佳池生成方案。该系统利用从数据集元特征构建的元模型来预测给定数据集的最适合的池生成方案和DES方法。通过涵盖288个数据集的广泛实验研究,我们证明了这种元学习推荐系统优于传统的固定池或DES方法选择策略,突出了元学习方法在优化DES方法选择中的功效。该项目的源代码、数据集和补充结果可以在该项目的GitHub存储库中找到:此处为https://github.com/。
论文链接: https://arxiv.org/abs/2407.07528
Github: https://github.com/Menelau/MLRS-PDS
CM-DQN:一种基于价值的深度强化学习模型,用于模拟确认偏见。
原标题: CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias
作者: Jiacheng Shen, Lihan Feng
机构: 纽约大学上海 分类
摘要: 在人类决策任务中,个体通过尝试和预测错误来学习。当个体学习任务时,有些人更受良好结果的影响,而其他人更重视不良结果。这种确认偏见可能导致不同的学习效果。在这项研究中,我们提出了一种新的深度强化学习算法CM-DQN,该算法应用了针对正面或负面预测错误的不同更新策略的思想,以模拟任务状态连续而行动离散时的人类决策过程。我们在“月球着陆器”环境中进行测试,包括确认性偏见、否认性偏见和无偏见,以观察学习效果。此外,我们将确认模型应用于多臂赌博问题(环境中状态和行动均为离散),该问题利用了与我们提出的算法相同的思想,作为对比实验,从算法角度模拟不同确认偏见对决策过程的影响。在两个实验中,确认性偏见表明了更好的学习效果。我们的代码可以在此 https URL 找到。
论文链接: https://arxiv.org/abs/2407.07454
Github: https://github.com/Patrickhshs/CM-DQN
SGM-PINN:对物理信息神经网络进行更快训练的采样图形模型
原标题: SGM-PINN: Sampling Graphical Models for Faster Training of Physics-Informed Neural Networks
作者: John Anticev, Ali Aghdaei, Wuxinlin Cheng, Zhuo Feng
机构: 史蒂文斯理工学院
摘要: SGM-PINN是一种基于图的重要性采样框架,旨在提高参数化问题上物理信息神经网络(PINNs)的训练效果。通过将图分解方案应用于从训练数据集构建的无向概率图模型(PGM),我们的方法生成编码训练样本之间条件依赖关系的节点簇。偏向于更重要的簇的采样允许更小的小批量和训练数据集,提高了训练速度和准确性。我们另外将一个高效的鲁棒性度量与残差损失融合在一起,以确定需要额外采样的区域。实验证明了所提出框架的优势,与先前最先进的采样方法相比,实现了3倍更快的收敛速度。
论文链接: https://arxiv.org/abs/2407.07358
在数据污染下的分裂一致性预测
原标题: Split Conformal Prediction under Data Contamination
作者: Jase Clarkson, Wenkai Xu, Mihai Cucuringu, Gesine Reinert
机构: 牛津大学 德国图宾根大学
摘要: 合规预测是一种非参数技术,用于在数据可交换的假设下从任意预测模型构建预测区间或集合。它很受欢迎,因为它在预测集的边际覆盖率上提供了理论保证,而分割合规预测变体与模型训练相比具有非常低的计算成本。我们研究了在数据污染设置中分割合规预测的鲁棒性,假设少量校准分数来自不同于主体的分布。我们量化了受损数据对构建集的覆盖率和效率在“干净”测试点上评估时的影响,并通过数值实验验证了我们的结果。此外,我们提出了一种在分类设置中称为污染鲁棒合规预测的调整,并使用合成和真实数据集验证了我们方法的有效性。
论文链接: https://arxiv.org/abs/2407.07700
两层神经网络的随机梯度下降
原标题: Stochastic Gradient Descent for Two-layer Neural Networks
作者: Dinghao Cao, Zheng-Chu Guo, Lei Shi
机构: 浙江大学,复旦大学
摘要: 本文对随机梯度下降(SGD)算法在应用于过参数化的两层神经网络时的收敛速度进行了全面研究。我们的方法将神经切向核(NTK)近似与在由NTK生成的再生核希尔伯特空间(RKHS)中的收敛分析相结合,旨在深入理解SGD在过参数化的两层神经网络中的收敛行为。我们的研究框架使我们能够探索核方法和优化过程之间复杂的相互作用,阐明神经网络的优化动态和收敛特性。在这项研究中,我们建立了过参数化的两层神经网络中SGD算法的最后迭代的尖锐收敛速度。此外,我们在放宽神经元数量约束方面取得了重大进展,将神经元数量的指数依赖关系从样本大小或迭代次数的多项式依赖关系降低。这一改进使神经网络的设计和扩展更加灵活,并将加深我们对使用SGD训练的神经网络模型的理论理解。
论文链接: https://arxiv.org/abs/2407.07670
MoVEInt:从演示中学习人机交互的变分专家混合模型
原标题: MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations
作者: Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki
机构: 清华大学 德国马普智能系统研究所
摘要: 共享动力学模型对于捕捉人机交互(HRI)中固有的复杂性和变异性非常重要。因此,学习这种共享动力学模型可以增强协调性和适应性,从而实现与人类伙伴成功的反应性互动。在这项工作中,我们提出了一种新颖的方法,通过专家混合的方式从演示中学习HRIs的共享潜在空间表示,以从人类观察中反应性地生成机器人动作。我们训练变分自动编码器(VAE)来学习机器人动作,通过使用捕获人类观察的多模态性的信息性潜在空间先验进行正则化,该先验通过混合密度网络(MDN)实现。我们展示了我们的公式如何源自高斯混合回归公式,通常用于学习HRI的方法,例如使用HMM/GMM来学习人类和机器人动作之间的联合分布。我们进一步加入了额外的正则化以防止“模式坍缩”,这是在使用VAE的潜在空间混合模型时常见的现象。我们发现,与先前基于HMM或循环方法学习共享潜在表示的方法相比,我们使用MDN先验从人类观察中为VAE生成更准确的机器人动作,这一点在涉及握手、拳击、挥手和交接等互动的各种HRI数据集上得到验证。在真实世界的人对机器人交接场景中的进一步实验显示了我们的方法在与四个不同人类互动伙伴生成成功互动方面的有效性。
论文链接: https://arxiv.org/abs/2407.07636
针对音频深度伪造检测的有针对性增强数据
原标题: Targeted Augmented Data for Audio Deepfake Detection
作者: Marcella Astrid, Enjie Ghorbel, Djamila Aouada
机构: 卢森堡大学 中部信任与安全交叉学科中心 (SnT)
突尼斯曼努巴大学 国家计算机科学学院 (ENSI) Cristal实验室
摘要: 高度逼真的音频深度伪造生成器的可用性凸显了设计强大的音频深度伪造检测器的必要性。现有的工作通常仅依赖于训练集中可用的真实和伪造数据,这可能导致过拟合,从而降低对未知操作的鲁棒性。为了增强音频深度伪造检测器的泛化能力,我们提出了一种新颖的增强方法,用于生成针对模型决策边界的音频伪造数据。受到对抗性攻击的启发,我们扰动原始真实数据以合成具有模糊预测概率的伪造数据。对两种知名架构进行的全面实验表明,所提出的增强方法有助于提高这些架构的泛化能力。
论文链接: https://arxiv.org/abs/2407.07598
简化无源领域自适应目标检测:有效的自训练策略和性能洞见
原标题: Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights
作者: Yan Hao, Florent Forest, Olga Fink
机构: EPFL 洛桑联邦理工学院
摘要: 这篇论文关注计算机视觉中目标检测的无源域自适应。由于获取每个新域的注释数据集的成本很高,这项任务具有挑战性和极大的实际意义。最近的研究提出了各种解决方案用于无源目标检测(SFOD),其中大多数是师生架构的变体,具有不同的特征对齐、正则化和伪标签选择策略。我们的工作研究了更简单的方法及其在几种适应场景中与更复杂的SFOD方法的性能对比。我们强调了检测器主干中批量归一化层的重要性,并表明仅适应批量统计是SFOD的一个强基线。我们提出了一个在无源设置下具有强弱数据增强的Mean Teacher的简单扩展,称为Source-Free Unbiased Teacher(SF-UT),并展示它实际上优于大多数先前的SFOD方法。此外,我们展示了一个更简单的策略,即在固定的伪标签集上进行训练,可以实现与更复杂的师生相互学习相似的性能,同时具有计算效率,并缓解了师生崩溃的主要问题。我们在包括(雾)Cityscapes、Sim10k和KITTI在内的基准驾驶数据集上进行了几项适应任务的实验,并在Cityscapes → \rightarrow →Foggy-Cityscapes上实现了显著的改进,AP50提高了4.7%,与SFOD的最新技术水平相比。源代码可在此https网址找到。
论文链接: https://arxiv.org/abs/2407.07586
Github: https://github.com/EPFL-IMOS/simple-SFOD
使用迁移学习进行有毒真菌细粒度分类识别
原标题: Fine-Grained Classification for Poisonous Fungi Identification with Transfer Learning
作者: Christopher Chiu, Maximilian Heil, Teresa Kim, Anthony Miyaguchi
机构: 乔治亚理工学院
摘要: FungiCLEF 2024致力于对真菌物种进行细粒度视觉分类(FGVC),重点是识别有毒物种。由于数据集的规模和类别不平衡,类间微妙变化以及样本内类别变异性显著,这项任务具有挑战性。在本文中,我们记录了我们通过在预先计算的图像嵌入上使用集成分类器头来解决这一挑战的方法。我们的团队(DS@GT)证明了最先进的自监督视觉模型可以作为强大的特征提取器,用于计算机视觉任务的下游应用,而无需在视觉骨干上进行特定于任务的微调。我们的方法在后续竞赛评估中在私人测试集上取得了最佳的Track 3得分(0.345)、准确率(78.4%)和宏F1(0.577)。我们的代码可以在此网址找到。
论文链接: https://arxiv.org/abs/2407.07492
Github: https://github.com/dsgt-kaggle-clef/fungiclef-2024
机器学习辅助设计毫米波无线收发器电路
原标题: Machine Learning Assisted Design of mmWave Wireless Transceiver Circuits
作者: Xuzhe Zhao
机构: 加利福尼亚大学欧文分校
摘要: 在第五代(5G)和即将到来的第六代(6G)通信中,提供高数据吞吐量和相对较低延迟的巨大需求,毫米波(mmWave)技术被视为实现所设想的性能和任务的关键组成部分。在这种背景下,毫米波集成电路(IC)在过去几十年中吸引了重要的研究兴趣,涵盖了从单个模块设计到复杂系统设计的范围。然而,涉及高度非线性特性和错综复杂权衡的设计模拟或射频电路设计过程变得复杂。制造技术的快速演进也导致设计过程中分配的时间越来越长,因为要求变得更加严格。在这篇论文中,首先通过详细的原理图和相关性能指标研究了28GHz收发器电路。在这种情况下,选择了包含异构单个模块的两个目标系统,并在发射机和接收机两侧进行了演示。随后,一些传统的和大规模机器学习(ML)方法被整合到所选系统的设计流程中,以根据所需规格预测电路参数,从而避免传统方法中常见的耗时迭代。最后,从电路设计和ML算法的角度讨论了一些潜在的研究方向。
论文链接: https://arxiv.org/abs/2407.07458
在机器学习中使用低差异点进行数据压缩:实验比较
原标题: Using Low-Discrepancy Points for Data Compression in Machine Learning: An Experimental Comparison
作者: Simone Göttlich, Jacob Heieck, Andreas Neuenkirch
摘要: 低差异点(也称为拟蒙特卡洛点)是在单位立方体中确定性和巧妙选择的点集,提供了均匀分布的近似。我们探讨了基于这种低差异点的两种方法,以减少大数据集以训练神经网络。第一种方法是Dick和Feischl [4]的方法,依赖于数字网格和平均过程。受我们实验结果的启发,我们构建了第二种方法,再次使用数字网格,但使用Voronoi聚类代替平均。这两种方法与[14]的超压缩方法进行了比较,这是K均值聚类算法的一种变体。比较是根据不同目标函数的压缩误差和神经网络训练的准确性来进行的。
论文链接: https://arxiv.org/abs/2407.07450
在不同外观上计算互信息
原标题: Mutual Information calculation on different appearances
作者: Jiecheng Liao, Junhao Lu, Jeff Ji, Jiacheng He
摘要: 互信息在图像对准和匹配中有许多应用,主要是因为它能够衡量两幅图像之间的统计依赖关系,即使这两幅图像来自不同的模态(例如 CT 和 MRI)。它不仅考虑图像的像素强度,还考虑像素之间的空间关系。在这个项目中,我们将互信息公式应用于图像匹配,其中图像 A 是移动对象,图像 B 是目标对象,并计算它们之间的互信息以评估图像之间的相似性。为了比较,我们还使用熵和信息增益方法来测试图像之间的依赖关系。我们还研究了不同环境对同一图像的互信息的影响,并使用实验和图表进行了演示。
论文链接: https://arxiv.org/abs/2407.07410
使用Swin Transformer和正规化流模型对成像切伦科夫探测器进行更深层次的重建
原标题: Deep(er) Reconstruction of Imaging Cherenkov Detectors with Swin Transformers and Normalizing Flow Models
作者: Cristiano Fanelli, James Giroux, Justin Stevens
机构: 威廉玛丽大学 数据科学系 物理系
摘要: 成像切伦科夫探测器在核物理和粒子物理实验中的粒子识别(PID)中至关重要。快速重建算法对于近实时对准、校准、数据质量控制和高效分析至关重要。在未来的电子离子对撞机(EIC)中,ePIC探测器将在强子方向上配备双环成像切伦科夫(双RICH)探测器,在桶部装有内部反射切伦科夫探测器(DIRC),在电子方向上配备近距离聚焦切伦科夫探测器。本文重点讨论DIRC探测器,该探测器呈现复杂的击中模式,也用于JLab的GlueX实验中对π介子和K介子的PID。我们提出了Deep(er)RICH,这是开创性DeepRICH工作的延伸,相比传统方法提供了改进和更快的PID,并首次实现了快速准确的模拟。这一进展解决了切伦科夫探测器模拟中涉及光子通过复杂光学元件的跟踪的主要瓶颈。我们的结果利用了视觉Transformer的进展,特别是分层Swin Transformer和正规化流。这些方法实现了直接从真实数据中学习和重建复杂拓扑结构。最后,我们讨论了这项工作的影响和未来拓展,这将为未来EIC等多个前沿实验的PID提供能力。
论文链接: https://arxiv.org/abs/2407.07376
使用半监督学习的数据驱动贝叶斯状态估计,利用对无模型过程进行压缩测量。
原标题: Data-driven Bayesian State Estimation with Compressed Measurement of Model-free Process using Semi-supervised Learning
作者: Anubhab Ghosh, Yonina C. Eldar, Saikat Chatterjee
机构: 瑞典皇家理工学院 以色列魏茨曼科学研究所
摘要: 研究课题是:利用压缩测量(BSCM)进行基于数据驱动的贝叶斯状态估计,用于无模型过程,比如用于(因果)跟踪应用。时间测量向量的维度低于待估计的时间状态向量的维度。因此,状态估计问题是一个欠定的逆问题。假设基础动态过程的状态空间模型(SSM)是未知的,因此我们使用术语“无模型过程”。在没有SSM的情况下,我们无法使用传统的基于模型的方法,如卡尔曼滤波器(KF)和粒子滤波器(PF),而是需要数据驱动的方法。我们首先实验证明,两种现有的基于无监督学习的数据驱动方法无法解决无模型过程的BSCM问题;它们是基于数据驱动的非线性状态估计(DANSE)方法和深度马尔可夫模型(DMM)方法。无监督学习使用仅由嘈杂测量组成的未标记数据。虽然DANSE提供了很好的预测性能来对时间序列的时间测量数据建模,但其无监督学习缺乏用于状态估计的正则化。然后,我们研究了半监督学习方法的使用,并开发了一种基于半监督学习的DANSE方法,称为SemiDANSE。在半监督学习中,我们使用有限数量的带标签数据以及大量未标记数据,这有助于在没有SSM的情况下为BSCM问题带来所需的正则化。带标签数据意味着成对的测量和状态数据。利用三个具有非线性SSM的混沌动态系统(或过程)作为基准,我们展示了数据驱动的SemiDANSE相对于三种基于SSM的方法提供了竞争性能 - 一种名为KalmanNet的混合方法,以及两种传统的基于模型的方法,称为扩展KF和无迹KF。
论文链接: https://arxiv.org/abs/2407.07368
通过蜂窝无线电接口协议对加密应用流量进行特征化
原标题: Characterizing Encrypted Application Traffic through Cellular Radio Interface Protocol
作者: Md Ruman Islam (1), Raja Hasnain Anwar (2), Spyridon Mastorakis (3), Muhammad Taqi Raza (2) ((1) University of Nebraska Omaha, (2) University of Massachusetts Amherst, (3) University of Notre Dame)
机构: 内布拉斯加大学奥马哈分校 马萨诸塞大学阿默斯特分校 圣母大学 马萨诸塞大学阿默斯特分校
摘要: 现代应用程序采用端到端加密,以防止数据被读取或秘密修改。5G技术提供了对这些应用程序的无处不在访问,而不会影响特定应用程序的性能和延迟目标。本文实证演示了5G无线通信成为精确推断用户应用程序的侧信道。关键思想在于观察随时间变化的5G物理层和MAC层交互,揭示应用程序的行为。MAC层接收应用程序的数据并请求网络分配无线资源块。网络根据应用程序的要求分配无线资源,如优先级、服务质量(QoS)需求、要传输的数据量和缓冲区大小。攻击者可以被动观察无线资源以对应用程序进行指纹识别。我们通过考虑四种不同类别的应用程序:在线购物、语音/视频会议、视频流媒体和OTT(Over-The-Top)媒体平台,实证演示了这种攻击。最后,我们还演示了攻击者可以在每个类别内实时区分各种类型的应用程序。
论文链接: https://arxiv.org/abs/2407.07361
走向基于文本的定量和可解释的组织病理学图像分析
原标题: Towards a text-based quantitative and explainable histopathology image analysis
作者: Anh Tien Nguyen, Trinh Thi Le Vuong, Jin Tae Kwak
机构: 韩国大学
摘要: 最近,在计算病理学领域出现了视觉-语言预训练模型。先前的研究通常侧重于通过对比预训练范式对齐图像-文本对。这些预训练模型已被应用于零样本学习或迁移学习方式下的病理图像分类。在此,我们假设预训练的视觉-语言模型可以通过简单的图像到文本检索用于定量组织病理学图像分析。为此,我们提出了一种基于文本的定量和可解释的组织病理学图像分析方法,我们称之为TQx。给定一组组织病理学图像,我们采用预训练的视觉-语言模型来检索感兴趣的词汇池。然后利用检索到的词汇来量化组织病理学图像,并生成可理解的特征嵌入,因为这些特征直接映射到文本描述。为了评估所提出的方法,利用四个组织病理学图像数据集的基于文本的嵌入来执行聚类和分类任务。结果表明,TQx能够对组织病理学图像进行定量和分析,与计算病理学中流行的视觉模型相媲美。
论文链接: https://arxiv.org/abs/2407.07360
在具有正向强化的顺序多智能体选择中的长期公平性
原标题: Long-Term Fairness in Sequential Multi-Agent Selection with Positive Reinforcement
作者: Bhagyashree Puranik, Ozgur Guldogan, Upamanyu Madhow, Ramtin Pedarsani
机构: 加利福尼亚大学圣巴巴拉分校
摘要: 尽管关于公平决策的快速增长的文献大部分集中在一次性决策的度量标准上,但最近的研究提出了设计顺序决策以积极影响长期社会公平的有趣可能性。在诸如大学招生或招聘等选拔过程中,略微偏向来自少数群体的申请者被假设为提供积极反馈,从而增加未来选拔轮次中少数群体申请者的数量,从而长期增强公平性。在本文中,我们检验了这一假设及其在多个代理人从共同的申请者池中进行选择的情境中的后果。我们提出了多代理人公平贪婪策略,平衡了贪婪的分数最大化和公平性。根据这一策略,我们证明了当人口群体中各组之间的分数分布相同时,资源池和录取将收敛到代理人设定的长期公平目标。我们通过合成和改编的真实数据集提供了非相同分数分布下存在均衡的经验证据。然后,我们对更复杂的申请者池演变模型发出了警示,根据这些模型,代理人的不协调行为可能导致负面强化,从而导致少数群体申请者的比例减少。我们的结果表明,尽管正面强化是长期公平的一种有前途的机制,但政策必须经过谨慎设计,以便对演变模型的变化具有鲁棒性,还有许多问题需要算法设计者、社会科学家和政策制定者进一步探讨。
论文链接: https://arxiv.org/abs/2407.07350
朝向完整因果解释与专家知识
原标题: Towards Complete Causal Explanation with Expert Knowledge
作者: Aparajithan Venkateswaran, Emilija Perkovic
机构: 华盛顿大学
摘要: 我们研究了限制包含特定边标记的最大祖先图(MAGs)的马尔可夫等价类问题,我们称之为专家知识。形成马尔可夫等价类的MAGs可以通过基本祖先图唯一表示。我们致力于学习包含所提出的专家知识的基本祖先图的限制。我们的贡献有几个方面。首先,我们证明了整个马尔可夫等价类的某些性质,包括Ali等人(2009)的一个猜想。其次,我们提出了三条可靠的图定向规则,其中两条是对先前已知规则的概括,用于向基本图添加专家知识。我们还展示了Zhang(2008)的一些定向规则在限制包含专家知识的马尔可夫等价类时是不需要的。我们提供了一个包含这些专家知识的算法,并展示了我们的算法在某些设置中是完备的,即在这些设置中,我们的算法的输出是一个受限制的基本祖先图。我们猜想这个算法在一般情况下也是完备的。在我们指定的设置之外,我们提供了一个检查图是否为受限制基本图的算法,并讨论了其运行时间。这项工作可以看作是Meek(1995)的一般化。
论文链接: https://arxiv.org/abs/2407.07338
在混合量子计算和高性能计算环境中分析机器学习性能
原标题: Analyzing Machine Learning Performance in a Hybrid Quantum Computing and HPC Environment
作者: Samuel T. Bieberich, Michael A. Sandoval
机构: 德克萨斯农工大学 美国国家计算科学中心奥克岭国家实验室
摘要: 我们探讨了在高性能计算(HPC)环境中使用经典和量子计算相结合的“混合”量子机器学习(QML)工作流中整合量子模拟器的潜在好处。在这里,我们使用了两个奥克岭国家实验室领导计算设施的HPC系统,Andes(一种商品类型的Linux集群)和Frontier(一台HPE Cray EX超级计算机),以及来自PennyLane和IBMQ的量子计算模拟器来评估一个混合QML程序–采用“自下而上”的方法。在Frontier上使用1个GPU,与使用Frontier的CPU和本地非HPC系统相比,我们发现速度提升了约56%和约77%。通过在较大数据集上使用多个线程进行性能分析,Frontier的GPU分别比Andes和Frontier的CPU快约92%和约48%。更令人印象深刻的是,与使用相同的模拟器和线程数的本地非HPC系统相比,这是运行时间提升了约226%。我们希望这一概念验证能激励未来进行更多深入的混合QC/HPC扩展研究。
论文链接: https://arxiv.org/abs/2407.07294