2024年7月10日Arxiv机器学习相关论文

仅微调线性层是一种简单而有效的任务算术方法。

原标题: Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic

作者: Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen

机构: 华东师范大学 宾夕法尼亚大学

摘要: 任务算术最近已经成为一种成本效益高且可扩展的方法,通过在权重空间直接编辑预训练模型,方法是通过添加不同任务的微调权重。通过权重解缠示例表明,性能进一步提高了线性属性。然而,传统的线性化方法(例如,NTK线性化)不仅会使时间和训练成本翻倍,而且在单任务性能上也存在缺点。我们提出了一种简单而有效的高效方法,只微调线性层,从而同时提高了权重解缠和效率。具体来说,我们的研究表明,只微调注意力模块中的线性层会使整个模型处于线性状态,从而显著提高权重解缠。为了进一步了解我们的方法如何改善任务算术的解缠,我们通过区分表示模型和特定任务模型的作用,对任务算术进行了全面研究。特别是,我们发现表示模型在改善权重解缠方面发挥着重要作用,而分类头等特定任务模型可能会降低权重解缠性能。总的来说,我们的工作揭示了任务算术的基本机制的新见解,并提供了一种更可靠和有效的编辑预训练模型的方法。

论文链接: https://arxiv.org/pdf/2407.07089

稳定的近端点方法用于联邦优化

原标题: Stabilized Proximal-Point Methods for Federated Optimization

作者: Xiaowen Jiang, Anton Rodomanov, Sebastian U. Stich

机构: 萨尔兰大学 CISPA

摘要: 在开发高效的优化算法中,考虑通信约束至关重要——这是现代联邦学习环境中的一个重要挑战。在非加速算法中,最为人熟知的通信复杂度是由DANE实现的,它是一种分布式近端点算法,可以在每次迭代中解决本地子问题,并且可以利用个体函数之间的二阶相似性。然而,为了实现这种通信效率,解决本地子问题的精度要求略低于最优。受混合投影-近端点方法的启发,在这项工作中,我们i) 提出了一种新颖的分布式算法S-DANE。与DANE相比,该方法在近端步骤中采用了更稳定的近端中心,并且匹配了其确定性通信复杂度。此外,子问题的精度条件更加温和,从而提高了本地计算效率。此外,它支持部分客户端参与和任意随机本地求解器,使其在实践中更具吸引力。我们进一步ii) 加速了S-DANE,并展示所得算法在所有现有的分布式凸优化方法中实现了已知的最佳通信复杂度,同时具有与S-DANE相同的改进的本地计算效率。

论文链接: https://arxiv.org/pdf/2407.07084

学习优化是否能够使强化学习变得更加容易?

原标题: Can Learned Optimization Make Reinforcement Learning Less Difficult?

作者: Alexander David Goldie, Chris Lu, Matthew Thomas Jackson, Shimon Whiteson, Jakob Nicolaus Foerster

机构: 牛津大学 FLAIR WhiRL

摘要: 虽然强化学习(RL)在现实世界的决策制定中具有巨大潜力,但它面临许多独特困难,通常需要特别考虑。特别是:它具有高度非静态性;受到高度可塑性损失的影响;并且需要探索以防止过早收敛到局部最优解并最大化回报。在本文中,我们考虑学习优化是否可以帮助克服这些问题。我们的方法,Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN),元学习了一个更新规则,其输入特征和输出结构受先前针对这些困难提出的解决方案的启发。我们展示了我们的参数化足够灵活,可以在不同的学习环境中进行元学习,包括利用随机性进行探索的能力。我们的实验表明,当在单个和少量环境上进行元训练时,OPEN优于或等于传统使用的优化器。此外,OPEN在一系列环境和一系列智能体架构中展现出强大的泛化能力。

论文链接: https://arxiv.org/pdf/2407.07082

可解释的超维计算用于在增材制造监测中平衡隐私和透明度

原标题: Explainable Hyperdimensional Computing for Balancing Privacy and Transparency in Additive Manufacturing Monitoring

作者: Fardin Jalil Piran, Prathyush P. Poduval, Hamza Errahmouni Barkam, Mohsen Imani, Farhad Imani

机构: 康涅狄格大学 加州大学欧文分校

摘要: 通过与学习模型结合,原位传感技术为解决增材制造(AM)过程中持续存在的缺陷问题提供了独特机会。然而,这种整合引入了重要的数据隐私问题,如数据泄露、传感器数据泄霑和模型反演攻击,揭示了有关零件设计、材料组成和机器参数的关键细节。差分隐私(DP)模型在数学保证下向数据注入噪声,通过模糊传感数据的痕迹,提供了数据效用和隐私之间微妙平衡。然而,向学习模型引入噪声,通常作为黑匣子运行,使得预测特定噪声水平如何影响模型准确性变得复杂。本研究介绍了差分隐私-高维计算(DP-HD)框架,利用向量符号范式的可解释性,预测原位监测准确性的噪声影响,保护敏感数据的同时保持运行效率。针对增材制造的实际高速熔池数据,用于检测悬挑异常,实验结果表明,DP-HD实现了卓越的运行效率、预测准确性和强大的隐私保护,优于最先进的机器学习(ML)模型。例如,在实现相同隐私保护水平(隐私预算设定为1)时,我们的模型达到了94.43%的准确率,超过了传统模型如ResNet50(52.30%)、GoogLeNet(23.85%)、AlexNet(55.78%)、DenseNet201(69.13%)和EfficientNet B2(40.81%)的表现。值得注意的是,DP-HD在设计用于增强隐私的大量噪声添加下保持高性能,而当前模型在高隐私约束下会遭受显著的准确性下降。

论文链接: https://arxiv.org/pdf/2407.07066

贝叶斯联邦学习与哈密尔顿蒙特卡洛:算法与理论

原标题: Bayesian Federated Learning with Hamiltonian Monte Carlo: Algorithm and Theory

作者: Jiajun Liang, Qian Zhang, Wei Deng, Qifan Song, Guang Lin

机构:

摘要: 这项工作介绍了一种新颖高效的贝叶斯联邦学习算法,即联邦平均随机哈密尔顿蒙特卡洛(FA-HMC),用于参数估计和不确定性量化。我们在强凸性和Hessian平滑性假设下,建立了FA-HMC在非独立同分布数据集上的严格收敛保证。我们的分析探讨了参数空间维度、梯度噪声和动量、以及通信频率(中心节点与本地节点之间)对FA-HMC的收敛和通信成本的影响。此外,我们通过展示即使对于连续FA-HMC过程,收敛速度也无法提高来证明我们分析的严密性。此外,大量的实证研究表明,FA-HMC优于现有的联邦平均 Langevin 蒙特卡洛(FA-LD)算法。

论文链接: https://arxiv.org/pdf/2407.06935

一个几乎线性网络的泛化界限

原标题: A Generalization Bound for Nearly-Linear Networks

作者: Eugene Golikov

机构: École Polytechnique Fédérale de Lausanne

摘要: 我们将非线性网络视为线性网络的扰动。基于这种方法,我们提出了新颖的泛化界限,对于接近线性的网络而言,这些界限变得非平凡。与先前提出非平凡泛化界限的研究相比,我们的界限具有先验性质:不需要进行实际训练即可评估界限。据我们所知,这是神经网络的第一个具有这种特性的非平凡泛化界限。

论文链接: https://arxiv.org/pdf/2407.06765

针对重复ReLU的完整二次约束集合

原标题: A Complete Set of Quadratic Constraints For Repeated ReLU

作者: Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler

机构: 伊利诺伊大学 德克萨斯大学 麻省理工学院

摘要: 这篇论文推导出了针对重复ReLU的一组完整的二次约束(QCs)。这组完整的QCs由 2 n v 2^{n_v} 2nv个矩阵共正条件描述,其中 n v n_v nv是重复ReLU的维度。我们还展示了在我们的完整集合中只有两个函数满足所有QCs:重复ReLU和重复的“翻转”ReLU。因此,我们的完整QCs集合在二次形式固有的符号不变性上尽可能紧密地限制了重复ReLU。我们推导了一组类似的递增QCs用于重复ReLU,这可能比标准的LipSDP方法为ReLU网络提供更少保守的Lipschitz界限。最后,我们演示了使用完整QCs集合来评估具有ReLU激活函数的循环神经网络的稳定性和性能。稳定性/性能条件将Lyapunov/耗散理论与重复ReLU的QCs相结合。给出了一个数值实现,并通过一个简单的例子进行了演示。

论文链接: https://arxiv.org/pdf/2407.06888

在强化学习中周期激活函数的频率和泛化能力

原标题: Frequency and Generalisation of Periodic Activation Functions in Reinforcement Learning

作者: Augustine N. Mavor-Parker, Matthew J. Sargent, Caswell Barry, Lewis Griffin, Clare Lyle

机构: 伦敦大学学院 中文:伦敦大学学院 谷歌Deepmind

摘要: 周期激活函数,通常被称为学习的傅立叶特征,已被广泛证明可以提高各种深度强化学习算法的样本效率和稳定性。关于这些改进的来源,可能存在不相容的假设。其中之一是周期激活函数学习低频表示,从而避免对引导目标的过度拟合。另一个假设是周期激活函数学习高频表示,这种表示更具表现力,使网络能够快速拟合复杂的值函数。我们通过实证分析这些主张,发现周期表示始终收敛到高频,而不受其初始化频率的影响。我们还发现,虽然周期激活函数提高了样本效率,但在添加观测噪声的状态上表现出更差的泛化能力,特别是与使用ReLU激活函数的等效网络相比。最后,我们展示了权重衰减正则化能够部分抵消周期激活函数的过拟合,提供了能够快速学习并具有泛化能力的值函数。

论文链接: https://arxiv.org/pdf/2407.06756

在非对抗攻击下评估知识图嵌入方法的性能

原标题: Performance Evaluation of Knowledge Graph Embedding Approaches under Non-adversarial Attacks

作者: Sourabh Kapoor, Arnab Sharma, Michael Röder, Caglar Demir, Axel-Cyrille Ngonga Ngomo

机构: 帕德博恩大学 派德博恩大学

摘要: 知识图谱嵌入(KGE)将离散的知识图谱(KG)转换为连续的向量空间,促进其在各种基于AI的应用中的使用,如语义搜索、问答或推荐系统。虽然KGE方法在这些应用中很有效,但大多数现有方法都假定给定KG中的所有信息都是正确的。这使得攻击者能够影响这些方法的输出,例如通过扰乱输入。因此,必须解决这些KGE方法的鲁棒性问题。最近的工作集中在对抗性攻击上。然而,对这些方法的所有攻击面上的非对抗性攻击尚未得到彻底检查。我们通过评估对5个数据集上5种最先进的KGE算法的性能进行非对抗性攻击的影响来弥补这一空白,攻击面包括图形、参数和标签扰动。我们的评估结果表明,标签扰动对KGE性能有很强的影响,其次是参数扰动,影响适中,而图形扰动影响较小。

论文链接: https://arxiv.org/pdf/2407.06855

TeVAE:一种用于变量状态多变量时间序列数据中离散在线异常检测的变分自编码器方法

原标题: TeVAE: A Variational Autoencoder Approach for Discrete Online Anomaly Detection in Variable-state Multivariate Time-series Data

作者: Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova

机构: 梅赛德斯-奔驰股份有限公司 莱顿大学

摘要: 随着对汽车测试领域中记录数据的关注增加,手动评估达到极限,自动在线异常检测的需求日益增长。这些现实世界的数据在许多方面都很复杂,需要对被测试对象的行为进行建模。为了解决这个问题,我们提出了一种可以在未标记数据上训练时最小化误报的时间变分自动编码器(TeVAE)来检测异常。我们的方法还避免了旁路现象,并引入了一种将单个窗口重新映射到连续时间序列的新方法。此外,我们提出了评估检测延迟和根本原因能力的指标,并展示了在真实工业数据集上进行实验的结果。当正确配置时,TeVAE 仅在 6% 的时间错误地标记异常,并检测到 65% 的异常。它还有潜力在较小的训练和验证子集上表现良好,但需要更复杂的阈值估计方法。

论文链接: https://arxiv.org/pdf/2407.06849

ED-VAE:变分自动编码器中 ELBO 的熵分解

原标题: ED-VAE: Entropy Decomposition of ELBO in Variational Autoencoders

作者: Fotios Lygerakis, Elmar Rueckert

机构:

摘要: 传统的变分自动编码器(VAEs)受到证据下界(ELBO)公式的限制,特别是在利用简单、非解析或未知先验分布时。这些限制阻碍了VAE生成高质量样本并提供清晰可解释的潜在表示能力。这项工作引入了熵分解变分自动编码器(ED-VAE),这是ELBO的一种新的重新表述,明确包含熵和交叉熵组件。这种重新表述显著增强了模型的灵活性,允许集成复杂和非标准的先验。通过更详细地控制潜在空间的编码和正则化,ED-VAE不仅提高了可解释性,还有效捕捉了潜在变量与观察数据之间的复杂相互作用,从而提高了生成性能。

论文链接: https://arxiv.org/pdf/2407.06797

利用正样本-未标记学习来提高基于图像的推荐系统的可解释性

原标题: Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability

作者: Álvaro Fernández-Campa-González, Jorge Paz-Ruza, Amparo Alonso-Betanzos, Bertha Guijarro-Berdiñas

机构: LIDIA Group CITIC Universidade da Coruña

摘要: 在基于视觉的推荐系统(RS)解释性方面,利用用户上传的商品图片作为高效、可信的解释选项是一种有前景的选择。然而,目前遵循这一范式的模型假设对于任何用户,其他用户上传的所有图片都可以视为负面训练样本(即不良解释图片),这是一个不经意间的天真标注假设,与该方法的基本理念相矛盾。本文提出了一种新的解释器训练流程,通过利用正-未标记(PU)学习技术来训练基于图像的解释器,使用经过新颖的用户个性化、两步、基于相似度的PU学习算法选择的可靠负面样本子集进行改进。计算实验表明,这种基于PU的方法在六个流行的真实世界数据集中优于现有的非PU方法,证明了通过最大化训练数据质量而非增加模型复杂度可以实现对基于视觉的RS解释性的改进。

论文链接: https://arxiv.org/pdf/2407.06740

MDP几何、归一化和无价值解算器

原标题: MDP Geometry, Normalization and Value Free Solvers

作者: Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis

机构: 波士顿大学 纪念斯隆凯特琳癌症中心

摘要: 马尔可夫决策过程(MDP)是用于顺序决策问题的常见数学模型。在本文中,我们提出了一种新的MDP几何解释,这对分析主要MDP算法的动态很有用。基于这种解释,我们证明MDP可以被分成等价类,这些等价类具有无法区分的算法动态。相关的标准化程序允许设计一类新的解决MDP问题的算法,这些算法可以找到最优策略而无需计算策略值。

论文链接: https://arxiv.org/pdf/2407.06712

时间卷积衍生的多层河流计算

原标题: Temporal Convolution Derived Multi-Layered Reservoir Computing

作者: Johannes Viehweg, Dominik Walther, Prof. Dr.-Ing. Patrick Mäder

机构: 伊尔梅瑙大学 珍娜企业

摘要: 时间序列的预测是一个具有挑战性的任务,在分析金融数据、预测流动力学或理解生物过程等各种应用中都很相关。特别是依赖于长时间历史的混沌时间序列提出了一个异常困难的问题。虽然机器学习已经被证明是预测这种时间序列的一种有前途的方法,但是当使用深度递归神经网络时,它要求长时间的训练和大量的训练数据。另一种方法是使用储层计算方法,但是这种方法存在高度的不确定性,通常需要大量的随机初始化和广泛的超参数调整。在本文中,我们专注于储层计算方法,并提出了一种将输入数据映射到储层状态空间的新方法。此外,我们将这种方法结合到两种新颖的网络架构中,增加了神经网络的并行性、深度和预测能力,同时减少了对随机性的依赖。为了评估,我们近似了一组来自 Mackey-Glass 方程的时间序列,其中包含非混沌和混沌行为,并将我们的方法与回声状态网络和门控递归单元在预测能力方面进行了比较。对于混沌时间序列,与回声状态网络和门控递归单元相比,我们观察到错误率降低了高达 85.45% 和 87.90%。此外,对于非混沌时间序列,与现有方法相比,我们还观察到高达 99.99% 的巨大改进。

论文链接: https://arxiv.org/pdf/2407.06771

Top-K对排序:弥合多标签分类中基于排序的度量之间的差距

原标题: Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification

作者: Zitai Wang, Qianqian Xu, Zhiyong Yang, Peisong Wen, Yuan He, Xiaochun Cao, Qingming Huang

机构: 中国科学院信息工程研究所 中国科学院大学 腾讯科技 中国科学院软件研究所 阿里巴巴集团 中山大学深圳校区 中国科学院大学

摘要: 多标签排名,为每个实例返回多个排名靠前的标签,在视觉任务中有广泛的应用。由于其复杂的设置,先前的研究提出了各种度量来评估模型性能。然而,无论是理论分析还是经验观察都表明,模型在不同度量上的表现可能不一致。为了弥合这一差距,本文提出了一种名为Top-K Pairwise Ranking(TKPR)的新度量,并一系列分析表明TKPR与现有的基于排名的度量是兼容的。基于此,我们进一步建立了一个针对TKPR的经验代理风险最小化框架。一方面,所提出的框架享有凸代理损失,并得到Fisher一致性的理论支持。另一方面,我们基于一种名为数据相关收缩的新技术,为所提出的框架建立了一个尖锐的泛化界限。最后,对基准数据集的实证结果验证了所提出框架的有效性。

论文链接: https://arxiv.org/pdf/2407.06709

Sinkhorn算法和线性规划求解器用于最优部分输运问题

原标题: Sinkhorn algorithms and linear programming solvers for optimal partial transport problems

作者: Yikun Bai

机构:

摘要: 在这份笔记中,我们通过将质量破坏/创建项修改为基于函数的项,推广了经典的最优部分输运(OPT)问题,引入了我们所称之为“广义最优部分输运”问题。然后我们讨论了这些问题的对偶形式以及相关的Sinkhorn求解器。最后,我们探讨了这些新的OPT问题与经典最优输运(OT)问题之间的关系,并介绍了专为这些广义场景量身定制的线性规划求解器。

论文链接: https://arxiv.org/pdf/2407.06481

神经网络回归的持续学习认证

原标题: Certified Continual Learning for Neural Network Regression

作者: Long H. Pham, Jun Sun

机构: 新加坡管理大学

摘要: 一方面,近年来在神经网络验证方面取得了相当大的进展,这使得认证神经网络成为可能。另一方面,实际中的神经网络经常会随着时间重新训练以适应新的数据分布或解决不同的任务(即持续学习)。一旦重新训练,神经网络的验证正确性很可能会被破坏,特别是在存在所谓的灾难性遗忘现象的情况下。在这项工作中,我们提出了一种称为认证持续学习的方法,通过尽可能保留已验证网络的建立正确性属性,改进了现有的持续学习方法。我们的方法经过多个神经网络和两种不同的持续学习方法进行评估。结果表明,我们的方法高效,并且训练模型保持其认证正确性,并且通常保持高效用性。

论文链接: https://arxiv.org/pdf/2407.06697

分层平均奖励线性可解马尔可夫决策过程

原标题: Hierarchical Average-Reward Linearly-solvable Markov Decision Processes

作者: Guillermo Infante, Anders Jonsson, Vicenç Gómez

机构: 巴塞罗那龙帕姆普大学 Universitat Pompeu Fabra

摘要: 我们提出了一种新颖的层次强化学习方法,用于解决线性可解马尔可夫决策过程(LMDPs)在无限时间步平均奖励设置下的问题。与先前的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制性限制。我们的方法依赖于对状态空间的划分,创建更容易解决的较小子任务,并利用这些划分之间的等价性来更有效地学习。然后,我们利用低级任务的组合性来精确表示高级任务的值函数。实验证明,我们的方法可以比单层平均奖励强化学习表现出更高的性能,提升了一个或多个数量级。

论文链接: https://arxiv.org/pdf/2407.06690

基于 Transformer 和统计特征嵌入的制造传感器数据集预测模型

原标题: A Predictive Model Based on Transformer with Statistical Feature Embedding in Manufacturing Sensor Dataset

作者: Gyeong Taek Lee, Oh-Ran Kwon

摘要: 在制造过程中,从设备收集的传感器数据对于构建预测模型以管理流程和提高生产率至关重要。然而,在实际应用中,收集足够的数据来构建健壮的模型是具有挑战性的。本研究提出了一种基于Transformer的新型预测模型,利用统计特征嵌入和窗口位置编码。统计特征提供了传感器数据的有效表示,而嵌入使Transformer能够学习时间和传感器相关信息。窗口位置编码从特征嵌入中捕获精确的时间细节。该模型的性能在故障检测和虚拟计量两个问题上进行了评估,显示出与基线模型相比更优异的结果。这种改进归因于参数的有效利用,这对于传感器数据通常具有有限样本量的情况特别有益。结果支持该模型在各种制造行业中的适用性,展示了其增强流程管理和产量的潜力。

论文链接: https://arxiv.org/pdf/2407.06682

变分学习 ISTA

原标题: Variational Learning ISTA

作者: Fabio Valerio Massoli, Christos Louizos, Arash Behboodi

机构: 高通人工智能研究所

摘要: 压缩感知结合了凸优化技术的能力和对信号空间施加稀疏性先验的方法来解决欠定方程组。对于许多问题,稀疏化字典并不直接给出,也不能假定其存在。此外,感知矩阵在不同场景下可能会发生变化。解决这些问题需要解决稀疏表示学习问题,即字典学习,考虑到学习的字典的认知不确定性,并最终在不同感知矩阵条件下共同学习稀疏表示和重构。我们通过提出LISTA架构的一种变体来解决这两个问题。首先,我们引入了增强字典学习ISTA(A-DLISTA),它包含一个增强模块,以适应当前的测量设置参数。然后,我们提出通过变分方法学习字典分布,称为变分学习ISTA(VLISTA)。VLISTA利用A-DLISTA作为似然模型,并在展开的基于LISTA的恢复算法中近似计算字典的后验分布。因此,VLISTA提供了一种概率方法,可以共同学习具有不同感知矩阵的字典分布和重构算法。我们为我们的架构提供了理论和实验支持,并展示我们的模型学习了校准的不确定性。

论文链接: https://arxiv.org/pdf/2407.06646

多实例验证

原标题: Multiple Instance Verification

作者: Xin Xu, Eibe Frank, Geoffrey Holmes

机构: 新西兰怀卡托大学

摘要: 我们探讨了多实例验证,这是一个问题设置,其中一个查询实例需要与一个包含异构、未知相关性的目标实例袋进行验证。我们发现,简单地调整基于注意力的多实例学习(MIL)方法和标准验证方法(如连体神经网络)并不适用于这种情况:直接结合最先进的MIL方法和连体网络表现出与简单基线模型相当甚至有时明显更差。我们推测这可能是由于目标实例袋的表示未能包含查询实例而导致的,因此我们引入了一种名为“交叉注意力池化”(CAP)的新池化方法。在CAP框架下,我们提出了两种新的注意力函数,以解决在目标实例袋中区分高度相似实例的挑战。通过对三个不同验证任务的实证研究,我们证明CAP在分类准确性和提供给出分类解释的质量方面,都比最先进的MIL方法和基线模型的调整效果好得多。消融研究证实了新的注意力函数识别关键实例的卓越能力。

论文链接: https://arxiv.org/pdf/2407.06544

DriftGAN:使用历史数据进行无监督的重复漂移检测

原标题: DriftGAN: Using historical data for Unsupervised Recurring Drift Detection

作者: Christofer Fellicious, Sahib Julka, Lorenz Wendlinger, Michael Granitzer

机构: Passau大学,德国

摘要: 在现实世界的应用中,输入数据分布很少会在一段时间内保持静态,这种现象被称为概念漂移。这种概念漂移会降低模型的预测性能,因此我们需要方法来克服这些问题。初始步骤是识别概念漂移,并采用训练方法来恢复模型的性能。大多数概念漂移检测方法都是用于检测概念漂移并发出重新训练模型的信号。然而,在现实情况下,可能会出现一段时间内反复发生的概念漂移。在本文中,我们提出了一种基于生成对抗网络(GAN)的无监督方法,用于检测概念漂移并确定过去是否发生了特定的概念漂移。我们的方法减少了模型为应对反复漂移所需的时间和数据。我们的关键结果表明,我们提出的模型在大多数数据集上可以胜过当前最先进的模型。我们还在天体物理学领域的一个真实用例上测试了我们的方法,在检测弓形冲击和磁层交叉方面取得了比该领域现有方法更好的结果。

论文链接: https://arxiv.org/pdf/2407.06543

使用GNN-CL模型进行高级金融欺诈检测

原标题: Advanced Financial Fraud Detection Using GNN-CL Model

作者: Yu Cheng, Junjie Guo, Shiqing Long, You Wu, Mengfang Sun, Rong Zhang

机构: 哥伦比亚大学 罗格斯大学 威廉与玛丽学院 史蒂文斯理工学院 加州大学戴维斯分校

摘要: 本文提出的创新性GNN-CL模型在金融欺诈检测领域取得了突破,通过协同结合图神经网络(GNN)、卷积神经网络(CNN)和长短期记忆(LSTM)网络的优势。这种融合实现了对复杂交易模式的多方面分析,提高了检测准确性,并增强了对复杂欺诈活动的抵抗力。本文的一个关键创新之处在于使用多层感知器(MLPs)来估计节点相似性,有效地过滤可能导致误报的邻域噪声。这种智能净化机制确保只考虑最相关的信息,从而提高模型对网络结构的理解。由于关键信号的稀释,特征削弱经常困扰基于图的模型。为了进一步解决特征削弱的挑战,GNN-CL采用了强化学习策略。通过动态调整分配给中心节点的权重,它加强了这些具有影响力的实体的重要性,以保留即使在信息较少的数据中也能保留欺诈的重要线索。对Yelp数据集的实验评估表明,与现有方法相比,GNN-CL表现出卓越的性能。

论文链接: https://arxiv.org/pdf/2407.06529

基于图神经网络和深度强化学习的V2X通信资源分配

原标题: Graph Neural Networks and Deep Reinforcement Learning Based Resource Allocation for V2X Communications

作者: Maoxin Ji, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief

机构: 清华大学 哈工大 华为技术公司

摘要: 在快速发展的物联网汽车(IoV)技术领域,由于其在覆盖范围、延迟和吞吐量方面的卓越性能,蜂窝车联网(C-V2X)通信引起了广泛关注。C-V2X内的资源分配对于确保安全信息传输并满足车辆间(V2V)通信中超低延迟和高可靠性的严格要求至关重要。本文提出了一种将图神经网络(GNN)与深度强化学习(DRL)相结合以解决这一挑战的方法。通过构建一个以通信链路为节点的动态图,并采用图采样和聚合(GraphSAGE)模型以适应图结构变化,该模型旨在确保V2V通信的高成功率,同时最小化对车辆基础设施(V2I)链路的干扰,从而确保成功传输V2V链路信息,并保持V2I链路的高传输速率。所提出的方法保留了GNN的全局特征学习能力,并支持分布式网络部署,使车辆能够根据局部观察从图网络中提取包括结构信息在内的低维特征,并做出独立的资源分配决策。模拟结果表明,引入GNN虽然会略微增加计算负载,但有效提升了智能体的决策质量,表现出优于其他方法的优越性。这项研究不仅为V2V和V2I通信提供了一种在理论上高效的资源分配策略,还为实际IoV环境中的资源管理开辟了新的技术路径。

论文链接: https://arxiv.org/pdf/2407.06518

基于偏好的强化学习用于高效探索

原标题: Preference-Guided Reinforcement Learning for Efficient Exploration

作者: Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, Xuyang Chen, Lin Zhao

机构: 清华大学 北京航空航天大学

摘要: 在这篇论文中,我们研究了基于偏好的强化学习(PbRL),使强化学习(RL)智能体能够从人类反馈中学习。当定义精细的奖励函数不可行时,这一方法尤为有价值。然而,在具有长时间跨度和稀疏奖励的难探索任务中,这种方法效率低且不切实际。为了解决这个问题,我们引入了LOPE:Learning Online with trajectory Preference guidancE,这是一个端到端的基于偏好引导的强化学习框架,可以增强在难探索任务中的探索效率。我们的直觉是,LOPE通过将人类反馈视为指导直接调整在线探索的焦点,避免从偏好中学习单独的奖励模型。具体而言,LOPE包括一个两步序贯策略优化过程,包括基于信任区域的策略改进和偏好引导步骤。我们将偏好引导重新构造为一个新颖的基于轨迹的状态边际匹配问题,最小化首选轨迹和学习策略之间的最大均值差距距离。此外,我们提供了一个理论分析来表征性能改进的界限,并评估了LOPE的有效性。在各种具有挑战性的难探索环境中进行评估时,LOPE在收敛速度和整体性能方面优于几种最先进的方法。本研究中使用的代码可在\url{this https URL}上找到。

论文链接: https://arxiv.org/pdf/2407.06503

Github: https://github.com/buaawgj/LOPE

这是我们的损失:对于非凸损失的隐藏状态 DP-SGD,隐私放大效应不存在

原标题: It’s Our Loss: No Privacy Amplification for Hidden State DP-SGD With Non-Convex Loss

作者: Meenatchi Sundaram Muthu Selva Annamalai

机构: 伦敦大学学院

摘要: 差分隐私随机梯度下降(DP-SGD)是一种流行的迭代算法,用于训练机器学习模型,同时正式保证用户的隐私。然而,DP-SGD的隐私分析做出了一个不切实际的假设,即算法的所有中间迭代(也称为内部状态)都被公开,而实际上,只有最终训练好的模型,即算法的最终迭代结果被公开。在这种隐藏状态设置下,先前的研究提供了更紧密的分析,尽管只有在损失函数受限时,例如强凸平滑或线性时。另一方面,从隐藏状态DP-SGD中经验观察到的隐私泄漏,即使在使用非凸损失函数时,也表明实际上理论隐私分析与实践中实现的隐私保证之间存在差距。因此,关于DP-SGD的隐私放大在通用损失函数的隐藏状态设置中是否可能仍然是一个悬而未决的问题。

不幸的是,这项工作否定了前述研究问题。通过精心构建DP-SGD的损失函数,我们展示了对于特定损失函数,仅DP-SGD的最终迭代结果泄漏的信息量与所有迭代序列的信息量相同。此外,我们通过评估DP-SGD的最终迭代结果与我们的损失函数中的隐私泄漏来实证验证这一结果,并展示这与DP确切保证的理论上限相匹配。因此,我们展示了当前对于通用损失函数的DP-SGD的隐私分析对于非凸损失函数是紧密的,并得出结论,对于所有(可能是非凸的)损失函数,DP-SGD的隐私放大在通用情况下是不可能的。

论文链接: https://arxiv.org/pdf/2407.06496

在模型和大脑之间相似性分数的可微优化

原标题: Differentiable Optimization of Similarity Scores Between Models and Brains

作者: Nathan Cloos, Moufan Li, Markus Siegel, Scott L. Brincat, Earl K. Miller, Guangyu Robert Yang, Christopher J. Cueva

机构: 麻省理工学院 纽约大学 HIH图宾根

摘要: 什么指标应该指导更真实的大脑模型的发展?一个提议是使用诸如线性回归、中心核对齐(CKA)和角度Procrustes距离等方法来量化模型和大脑之间的相似性。为了更好地了解这些相似性度量的局限性,我们分析了记录在五个非人灵长类动物实验中的神经活动,并优化合成数据集以使其更类似于这些神经记录。这些合成数据集在未能编码任务相关变量的情况下,可以有多相似于神经活动?我们发现,一些度量方法如线性回归和CKA,与角度Procrustes有所不同,并且即使任务相关变量无法从合成数据集中线性解码,也会产生较高的相似性分数。最初被优化以最大化相似性分数的合成数据集最初学习目标数据集的第一个主成分,但是角度Procrustes比线性回归和CKA等方法更早地捕获了更高方差的维度。我们在理论和模拟中展示了当不同主成分受到干扰时这些分数如何变化。最后,我们联合优化多个相似性分数以找到它们的允许范围,并且表明高角度Procrustes相似性,例如,意味着高CKA分数,但反之则不然。

论文链接: https://arxiv.org/pdf/2407.07059

多细胞折叠:在多细胞生命中的几何学习

原标题: Multicell-Fold: geometric learning in folding multicellular life

作者: Haiqian Yang, Anh Q. Nguyen, Dapeng Bi, Markus J. Buehler, Ming Guo

机构: 麻省理工学院 Massachusetts Institute of Technology

摘要: 在发育过程中,例如胚胎发生过程中,一群细胞如何折叠成特定结构,是生物学中的一个核心问题,它定义了生物体如何形成。建立组织水平形态学在很大程度上取决于每个单个细胞决定如何相对于其相邻细胞定位。尽管其重要性,理解和预测在这种复杂过程中每个细胞在活体组织中随时间的行为仍然是一个重大挑战。为了解决这个问题,我们提出了一个几何深度学习模型,可以准确预测多细胞折叠和胚胎发生,精确捕捉细胞之间高度复杂的空间相互作用。我们证明多细胞数据可以通过统一的图数据结构表示为粒状和类似泡沫状的物理图像,考虑到细胞相互作用和细胞连接网络。我们成功地利用我们的模型实现了两个重要任务,可解释的四维形态序列对齐,并预测局部细胞重排在单细胞分辨率之前发生。此外,通过激活图和消融研究,我们证明细胞几何形态和细胞连接网络共同调节局部细胞重排,这对胚胎形态发生至关重要。这种方法提供了一种研究形态发生的新范式,突出了统一的数据结构,并利用几何深度学习的力量准确建模发育过程中细胞的机制和行为。它为创建各种发育过程(如胚胎发生)的统一动态形态图谱提供了一条途径。

论文链接: https://arxiv.org/pdf/2407.07055

基于区块链的垂直联邦学习差分隐私方法

原标题: A Differentially Private Blockchain-Based Approach for Vertical Federated Learning

作者: Linh Tran, Sanjay Chari, Md. Saikat Islam Khan, Aaron Zachariah, Stacy Patterson, Oshani Seneviratne

机构: 伦斯勒理工学院

摘要: 我们提出了差分隐私区块链垂直联邦学习(DP-BBVFL)算法,为去中心化应用提供了可验证性和隐私保障。DP-BBVFL 使用智能合约透明地聚合来自客户端的特征表示,即嵌入。我们应用本地差分隐私为存储在区块链上的嵌入提供隐私保护,从而保护原始数据。我们提供了差分隐私与区块链相结合的垂直联邦学习的首个原型应用。我们对医疗数据的实验表明,DP-BBVFL 在训练时间上存在一定的折衷,但实现了高准确性,这是由于链上聚合。差分隐私和区块链技术在DP-BBVFL中的创新融合可能开启一个新时代,推动跨多个去中心化应用领域的协作和可信机器学习应用。

论文链接: https://arxiv.org/pdf/2407.07054

高度属性动态图中的变点检测

原标题: Changepoint Detection in Highly-Attributed Dynamic Graphs

作者: Emiliano Penaloza, Nathaniel Stevens

摘要: 在动态网络中检测异常行为始终是一个持续的挑战。当这些网络的基础拓扑受到个体高维节点属性的影响时,这一问题会进一步恶化。我们通过跟踪网络的模块化作为其社区结构的代理来解决这个问题。我们利用图神经网络(GNNs)来估计每个快照的模块化程度。GNNs可以考虑网络结构和高维节点属性,为估计网络统计数据提供了全面的方法。我们通过模拟验证了我们的方法,证明了它能够通过分析模块化的变化来检测高属性网络中的变化。此外,我们发现我们的方法能够检测到#Iran Twitter回复网络中的真实事件,其中每个节点具有高维文本属性。

论文链接: https://arxiv.org/pdf/2407.06998

为移动用户设计的能效公平的STAR-RIS

原标题: Energy Efficient Fair STAR-RIS for Mobile Users

作者: Ashok S. Kumar, Nancy Nayak, Sheetal Kalyani, Himal A. Suraweera

摘要: 在这项工作中,我们提出了一种方法,用于改善移动用户的同时传输和反射可重构智能表面(STAR-RIS)的能效和公平性,确保在保持可靠通信的同时降低功耗。为了实现这一目标,我们引入了一个称为次表面分配变量的新参数,该变量确定为每个用户分配的STAR-RIS元素数量。然后,我们通过同时优化STAR-RIS的相位移位和次表面分配变量来制定一个新颖的优化问题。我们利用深度强化学习(DRL)技术来解决这个优化问题。DRL模型预测STAR-RIS的相位移位,并有效地将STAR-RIS的元素分配给用户。此外,我们在DRL模型中加入了一个惩罚项,以促进智能地在不使用时关闭STAR-RIS元素,以增强能效。通过大量实验证明,所提出的方法可以以高度公平且几乎相等的数据速率方式在传输和反射空间中以节能的方式为所有用户实现高效率。

论文链接: https://arxiv.org/pdf/2407.06868

Poisson学习收敛速率到带有测量数据的Poisson方程

原标题: Convergence rates for Poisson learning to a Poisson equation with measure data

作者: Leon Bungert, Jeff Calder, Max Mihailescu, Kodjo Houssou, Amber Yuan

摘要: 在这篇论文中,我们证明了基于图的半监督学习算法——泊松学习(Poisson Learning)的离散到连续收敛速率。该算法基于求解以标记点处的Dirac delta的线性组合为源项的图泊松方程,对应的连续方程是在欧几里得域 Ω ⊂ R d \Omega \subset \mathbb{R}^d ΩRd上带有测度数据的泊松方程。这些方程的奇异性具有挑战性,需要采用多个不同部分的方法:(1)我们证明了当将泊松方程的测度数据与(近似)支撑在球上的径向函数卷积时的定量误差估计。(2)我们使用定量变分技术证明了对于带宽 ε > 0 \varepsilon>0 ε>0的有界源项,在随机几何图上的离散到连续收敛速率。(3)我们展示了如何通过图热核对图泊松方程进行正则化,并研究了随机几何图上热核的精细渐近行为。将这三个支柱结合起来,我们得到了 L 1 L^1 L1收敛速率,对于一般数据分布,这些速率按照 O ( ε 1 d + 2 ) O(\varepsilon^{\frac{1}{d+2}}) O(εd+21)(考虑对数因子)的比例增长,对于均匀分布数据,速率为 O ( ε 2 − σ d + 4 ) O(\varepsilon^{\frac{2-\sigma}{d+4}}) O(εd+42σ),其中 σ > 0 \sigma>0 σ>0。如果 ε ≫ ( log ⁡ n / n ) q \varepsilon\gg\left({\log n}/{n}\right)^q ε(logn/n)q,其中 n n n表示图的顶点数, q ≈ 1 3 d q \approx \frac{1}{3d} q3d1,这些速率在高概率下成立。

论文链接: https://arxiv.org/pdf/2407.06783

通过与物体的互动进行自监督视觉学习

原标题: Self-supervised visual learning from interactions with objects

作者: Arthur Aubret, Céline Teulière, Jochen Triesch

机构: 法兰克福高级研究所

摘要: 自监督学习(SSL)已经彻底改变了视觉表示学习,但尚未达到人类视觉的稳健性。其中一个原因可能是SSL在学习过程中没有充分利用人类可用的所有数据。在学习对象时,人类经常会有意识地转动或移动物体,研究表明这些互动可以极大地增强他们的学习能力。在这里,我们探讨了这种与对象相关的行为是否可以提升SSL。为此,我们从四个视频数据集中提取了用于从一个以自我为中心的视角转换到另一个视角的动作。然后,我们引入了一个新的损失函数,通过将执行的动作与从同一剪辑中提取的两个图像的表示对齐来学习视觉和动作嵌入,从而使执行的动作结构化潜在的视觉表示。我们的实验表明,我们的方法在下游类别识别上始终优于先前的方法。在我们的分析中,我们发现观察到的改进与同一类别中不同对象的更好视角对齐有关。总的来说,我们的工作表明,与对象的具体互动可以提高对象类别的SSL。

论文链接: https://arxiv.org/pdf/2407.06704

HERMES:用于突变效应和稳定性预测的全息等变神经网络模型

原标题: HERMES: Holographic Equivariant neuRal network model for Mutational Effect and Stability prediction

作者: Gian Marco Visani, Michael N. Pun, William Galvin, Eric Daniel, Kevin Borisiak, Utheri Wagura, Armita Nourmohammad

机构: 华盛顿大学 麻省理工学院 弗雷德·哈钦森癌症研究中心

摘要: 预测蛋白质中氨基酸突变的稳定性和适应性效应是生物发现和工程的基石。已经开发了各种实验技术来测量突变效应,为我们提供了跨多种蛋白质的广泛数据集。通过在这些数据上进行训练,传统的计算建模和最近的机器学习方法在预测突变效应方面取得了显著进展。在这里,我们介绍了HERMES,这是一个基于三维旋转等变结构的神经网络模型,用于突变效应和稳定性预测。HERMES经过预训练,可以从其周围的三维结构中预测氨基酸倾向,可以使用我们的开源代码进行微调以预测突变效应。我们提出了一套HERMES模型,采用不同策略进行预训练,并进行微调以预测突变的稳定性效应。与其他模型的基准测试表明,HERMES在预测突变对稳定性、结合和适应性的效应方面往往表现优异或与它们的性能相匹敌。HERMES提供了多功能工具,用于评估突变效应,并可以针对特定的预测目标进行微调。

论文链接: https://arxiv.org/pdf/2407.06703

PSPU:通过利用伪监督增强正类和未标记学习

原标题: PSPU: Enhanced Positive and Unlabeled Learning by Leveraging Pseudo Supervision

作者: Chengjie Wang, Chengming Xu, Zhenye Gan, Jianlong Hu, Wenbing Zhu, Lizhuag Ma

机构: 上海交通大学 腾讯优图实验室 厦门大学 复旦大学 荣齐科技有限公司

摘要: 正例和未标记(PU)学习是一种仅使用正例和未标记数据训练的二元分类模型,通常由于数据分布不一致而导致过拟合风险估计。为了解决这个问题,我们引入了一种伪监督PU学习框架(PSPU),首先训练PU模型,然后使用它收集确信样本进行伪监督,最后应用这些监督来通过利用非PU目标来校正PU模型的权重。我们还加入了额外的一致性损失以减轻嘈杂样本效应。我们的PSPU在MNIST、CIFAR-10、CIFAR-100上明显优于最近的PU学习方法,无论是在平衡还是不平衡的设置中,并且在工业异常检测的MVTecAD上表现出竞争力的性能。

论文链接: https://arxiv.org/pdf/2407.06698

通过直接的 BEV 特征注意力加速在线地图绘制和行为预测

原标题: Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention

作者: Xunjiang Gu, Guanyu Song, Igor Gilitschenski, Marco Pavone, Boris Ivanovic

机构: 多伦多大学 向量研究所 NVIDIA研究 斯坦福大学

摘要: 理解道路几何是自动驾驶车辆(AV)堆栈的关键组成部分。虽然高清(HD)地图可以提供这样的信息,但它们面临着高昂的标注和维护成本。因此,许多最近的研究提出了从传感器数据在线估计HD地图的方法。最近的大多数方法将多摄像头观测编码为中间表示,例如鸟瞰图(BEV)网格,并通过解码器生成矢量地图元素。虽然这种架构表现出色,但它破坏了中间表示中编码的大部分信息,阻止下游任务(例如行为预测)利用它们。在这项工作中,我们提出暴露在线地图估计方法的丰富内部特征,并展示它们如何使在线地图制作与轨迹预测更紧密地集成。通过这样做,我们发现直接访问内部BEV特征可以使推理速度提高高达73%,在真实世界的nuScenes数据集上可以使预测准确性提高高达29%。

论文链接: https://arxiv.org/pdf/2407.06683

网络服务降级的早期检测:一种流内方法

原标题: Early Detection of Network Service Degradation: An Intra-Flow Approach

作者: Balint Bicski, Adrian Pekar

机构: 布达佩斯理工大学

摘要: 这项研究提出了一种新颖的方法,通过利用早期流特征来预测计算机网络中的服务降级(SD)。我们的方法侧重于网络流的可观察(O)部分,特别是分析数据包到达时间间隔(PIAT)数值和其他衍生指标,以推断不可观察(NO)部分的行为。通过全面评估,我们确定了一个最佳的O/NO分割阈值为10个观察延迟样本,平衡了预测准确性和资源利用率。评估包括逻辑回归、XGBoost和多层感知器在内的模型,我们发现XGBoost表现优于其他模型,实现了0.74的F1分数,0.84的平衡准确性和0.97的AUROC。我们的研究结果突显了将全面的早期流特征纳入的有效性,以及我们的方法在资源受限环境中监控网络流量的潜力,为预防潜在的SD提供了实用解决方案的基础。这种方法通过预先解决潜在的SD,确保了用户体验和网络性能的提升,为维护高质量网络服务的坚固框架奠定了基础。

论文链接: https://arxiv.org/pdf/2407.06637

基于人工智能的多模态图像前列腺自动分割:综述

原标题: AI-based Automatic Segmentation of Prostate on Multi-modality Images: A Review

作者: Rui Jin, Derun Li, Dehui Xiang, Lei Zhang, Hailing Zhou, Fei Shi, Weifang Zhu, Jing Cai, Tao Peng, Xinjian Chen

机构: 苏州大学 北京大学第一医院

摘要: 前列腺癌对健康构成重大威胁。早期检测对于降低前列腺癌患者的死亡率至关重要。一种方法涉及使用多模态(CT、MRI、超声等)计算机辅助诊断(CAD)系统对前列腺区域进行诊断。然而,由于图像存在缺陷以及前列腺复杂的组织结构,前列腺分割具有挑战性。精准医学的出现和临床能力的显著增加推动了医学影像领域各种数据驱动任务的需求。最近,许多机器学习和数据挖掘工具已经整合到各种医学领域,包括图像分割。本文提出了一种新的分类方法,可以区分在训练阶段的监督类型,无论是数量还是种类。随后,我们对基于人工智能(AI)的自动前列腺分割方法进行了调查,考察了每种方法的优势和局限性。此外,我们介绍了用于验证和性能评估分割方法的评估指标的变体,并总结了当前的挑战。最后,讨论了未来的研究方向和发展趋势,反映了我们文献调查的结果,建议高精度检测和治疗前列腺癌作为一个有前途的途径。

论文链接: https://arxiv.org/pdf/2407.06612

使用学习的注意力正则化器进行迭代细化图像重建

原标题: Iteratively Refined Image Reconstruction with Learned Attentive Regularizers

作者: Mehrsa Pourya, Sebastian Neumayer, Michael Unser

机构: EPFL TU Chemnitz

摘要: 我们提出了一种图像重建的正则化方案,利用深度学习的强大能力,同时依赖于经典的稀疏促进模型。许多基于深度学习的模型难以解释,理论分析起来繁琐。相比之下,我们的方案是可解释的,因为它对应于一系列凸问题的最小化。对于系列中的每个问题,基于先前解决方案生成一个掩模,以空间上细化正则化强度。通过这种方式,模型逐渐关注图像结构。对于基础更新算子,我们证明了一个不动点的存在。作为一个特例,我们研究了一个掩模生成器,其不动点迭代收敛到一个明确能量泛函的临界点。在我们的实验中,我们与最先进的学习变分模型在解决逆问题方面的性能相匹敌。此外,我们在解释性、理论保证、可靠性和性能之间提供了一个有希望的平衡。

论文链接: https://arxiv.org/pdf/2407.06608

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值