2024年6月25日Arxiv机器学习相关论文

cs.LG: GeoMFormer:用于几何分子表示学习的通用架构

原标题: GeoMFormer: A General Architecture for Geometric Molecular Representation Learning

作者: Tianlang Chen, Shengjie Luo, Di He, Shuxin Zheng, Tie-Yan Liu, Liwei Wang

机构: 清华大学 百度

摘要: 分子建模是量子力学中的一个核心主题,旨在准确计算分子系统的性质并模拟其行为。分子模型受物理定律约束,这些定律施加几何约束,如对坐标旋转和平移的不变性和等变性。虽然已经开发了许多深度学习方法来学习这些约束下的分子表示,但大多数方法都建立在启发式和昂贵的模块之上。我们认为,有必要开发一个通用和灵活的框架来学习不变性和等变性特征。在这项工作中,我们引入了一种新型基于Transformer的分子模型GeoMFormer来实现这一目标。使用标准的Transformer模块,我们开发了两个独立的流来维护和学习不变和等变表示。精心设计的交叉注意力模块连接了这两个流,允许信息融合并增强每个流中的几何建模能力。作为一个通用和灵活的架构,我们展示了许多先前的架构可以被视为GeoMFormer的特殊实例。进行了大量实验来展示GeoMFormer的强大性能。所有实证结果表明,GeoMFormer在不同类型和规模的不变和等变任务上都表现出色。代码和模型将在此 https 链接公开提供。

论文链接: https://arxiv.org/pdf/2406.16853

Github: https://github.com/c-tl/GeoMFormer

cs.LG: 使用数据模型(D3M)进行数据去偏倚:通过数据选择提高子群体鲁棒性

原标题: Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection

作者: Saachi Jain, Kimia Hamidieh, Kristian Georgiev, Andrew Ilyas, Marzyeh Ghassemi, Aleksander Madry

机构: 麻省理工学院

摘要: 机器学习模型在训练过程中可能对少数群体表现不佳。虽然诸如数据集平衡等技术可以改善这些群体的性能,但它们需要访问训练群体注释,并可能移除数据集的大部分内容。在本文中,我们引入了使用数据模型进行数据去偏置(D3M)的方法,该方法隔离并移除驱使模型在少数群体上失败的特定训练样本。我们的方法能够有效训练去偏置分类器,仅移除少量样本,并且不需要训练群体注释或额外的超参数调整。

论文链接: https://arxiv.org/pdf/2406.16846

cs.LG: 一般结合亲和力指南,用于结构基药物设计中扩散模型

原标题: General Binding Affinity Guidance for Diffusion Models in Structure-Based Drug Design

作者: Yue Jian, Curtis Wu, Danny Reidenbach, Aditi S. Krishnapriyan

机构: 加州大学伯克利分校 NVIDIA

摘要: 结构基药物设计(SBDD)侧重于生成有效的配体,这些配体能够强烈且特异地结合到指定的蛋白质口袋中。几种方法利用机器学习来进行SBDD,在三维空间中生成这些配体,条件是所需蛋白质口袋的结构。最近,扩散模型在此领域展示了成功,通过建模原子位置和类型的潜在分布。虽然这些方法在考虑蛋白质口袋的结构细节方面很有效,但它们通常未能明确考虑结合亲和力。结合亲和力表征配体与蛋白质口袋结合紧密程度,通过结合过程中自由能的变化来衡量。这是评估配体与蛋白质口袋相互作用效果的最关键指标之一。为了解决这个问题,我们提出了BADGER:结合亲和力扩散引导增强精化。BADGER是一种通用引导方法,用于引导扩散采样过程,改善蛋白质-配体结合的结合亲和力分布,使我们能够调整配体与蛋白质之间结合亲和力的分布。我们的方法利用神经网络(NN)来建模能量函数,该函数通常由AutoDock Vina(ADV)来近似。ADV的能量函数是不可微的,并基于配体与目标蛋白质受体之间的相互作用估算亲和力。通过使用NN作为可微能量函数的代理,我们利用学习到的能量函数的梯度作为任何训练过的扩散模型之上的引导方法。我们展示了我们的方法能够将生成的配体与其蛋白质受体的结合亲和力提高多达60%,显著超过先前的机器学习方法。我们还表明,我们的引导方法灵活且可以轻松应用于其他基于扩散的SBDD框架中。

论文链接: https://arxiv.org/pdf/2406.16821

cs.LG: 改进的专家建议下的赌博问题的遗憾界限

原标题: Improved Regret Bounds for Bandits with Expert Advice

作者: Nicolò Cesa-Bianchi, Khaled Eldowa, Emmanuel Esposito, Julia Olkhovskaya

机构: 意大利米兰大学 工科大学 都灵理工大学

摘要: 在这份研究笔记中,我们重新审视了带有专家建议的赌博机问题。在受限反馈模型下,我们证明了最坏情况遗憾的下界为$ \sqrt{K T \ln(N/K)} ,其中 ,其中 ,其中 K 是动作的数量, 是动作的数量, 是动作的数量, N > K 是专家的数量, 是专家的数量, 是专家的数量, T 是时间跨度。这与先前已知的同等阶上界相匹配,并改进了 是时间跨度。这与先前已知的同等阶上界相匹配,并改进了 是时间跨度。这与先前已知的同等阶上界相匹配,并改进了 \sqrt{K T (\ln N) / (\ln K)} $的最佳可用下界。对于标准反馈模型,我们证明了一个基于实例的新上界,该上界依赖于专家之间的一致性,并相对于先前的结果提供了对数改进。

论文链接: https://arxiv.org/pdf/2406.16802

cs.LG: Adam-mini: 使用更少的学习率来获得更多

原标题: Adam-mini: Use Fewer Learning Rates To Gain More

作者: Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun

机构: 香港中文大学深圳研究院 深圳大数据研究院 Duke大学 Stanford大学

摘要: 我们提出了Adam-mini,这是一种优化器,其在内存占用方面比AdamW表现相当或更好,减少了45%到50%的内存占用。Adam-mini通过减少Adam中的学习率数量来降低内存使用:与使用 1 / v 1/\sqrt{v} 1/v 为每个参数分配单独学习率不同,Adam-mini使用预定义参数块内 v v v的平均作为该块的学习率。这种设计灵感来源于两个实证发现。首先,Transformer的Hessian矩阵表现出几乎块对角结构,具有不同大小的稠密子块。其次,对于这些稠密子块中的每一个,存在一个高质量的单一学习率,可以在足够资源的情况下优于Adam。Adam-mini提供了一种成本有效的方法来找到这些优良的学习率,并设法在Adam中削减 ≥ 90 % v \geq 90\% v 90%v。经验证,Adam-mini在多种语言模型上(从125M到7B大小)的预训练、监督微调和RLHF任务中表现不输于或优于AdamW。Adam-mini的减少内存占用还缓解了GPU和CPU之间的通信开销,从而提高了吞吐量。例如,在使用2x A800-80GB GPU进行Llama2-7B的预训练时,Adam-mini比AdamW实现了49.6%的更高吞吐量,节省了33%的预训练时间。

论文链接: https://arxiv.org/pdf/2406.16793

cs.LG: 通过 Collective Mind、虚拟化 MLOps、MLPerf、Collective Knowledge Playground 和可重复优化比赛,实现更高效、更具成本效益的 AI/ML 系统

原标题: Enabling more efficient and cost-effective AI/ML systems with Collective Mind, virtualized MLOps, MLPerf, Collective Knowledge Playground and reproducible optimization tournaments

作者: Grigori Fursin

机构: cKnowledge.org cTuning.org

摘要: 在这篇白皮书中,我介绍了我在社区中的努力,利用Collective Mind框架(CM)、虚拟化的MLOps、MLPerf基准以及可重现的优化比赛,自动共同设计更便宜、更快和更节能的人工智能(AI)、机器学习(ML)和其他流行工作负载的软件和硬件。我开发了CM来模块化、自动化和虚拟化繁琐的过程,包括构建、运行、分析和优化跨快速发展的开源和专有AI/ML模型、数据集、软件和硬件的复杂应用。在与学术界和行业的紧密合作中,我通过可移植、可重复使用和技术无关的自动化配方(ResearchOps)为MLOps和DevOps(CM4MLOps)发现了超过150篇研究论文,并举办了首次大规模社区机器学习和人工智能系统基准测试,使用了CM和MLPerf。

我将CM和CM4MLOps捐赠给MLCommons,以帮助学术界和行业建立和运行AI和其他新兴工作负载的最有效和成本效益的方式,使用共同的技术无关自动化、虚拟化和可重现性框架,同时统一知识交流,保护每个人的知识产权,促进可移植技能,并加速将最先进的研究成果转化为生产。我的长期愿景是通过从不同供应商的开源和专有组件自动生产适合用户需求、要求和约束(如成本、延迟、吞吐量、准确性、能源、尺寸和其他重要特征)的AI,使AI能够普及到每个人手中。

论文链接: https://arxiv.org/pdf/2406.16791

cs.LG: 自信感知反约束强化学习

原标题: Confidence Aware Inverse Constrained Reinforcement Learning

作者: Sriram Ganapathi Subramanian, Guiliang Liu, Mohammed Elmahgiubi, Kasra Rezaee, Pascal Poupart

机构: 多伦多大学 Waterloo.AI

摘要: 在解决现实世界问题时,人类隐式遵循了太多且过于复杂以完全指定的约束条件。然而,强化学习(RL)智能体需要这些约束条件来学习这些环境中正确的最优策略。逆约束强化学习(ICRL)领域处理这一问题,并提供旨在从离线收集的专家示范中估计约束条件的算法。从业者希望在决定使用这些约束条件之前了解对估计约束条件的信心度量,这使他们只使用符合所需信心水平的约束条件。然而,先前的研究未允许用户为推断出的约束条件提供所需的信心水平。本研究提供了一种原则性的ICRL方法,该方法可以接受一组专家示范及其信心水平,并输出至少与真实基础约束一样约束的约束条件,且具有所需的信心水平。此外,与先前的方法不同,该方法允许用户知道专家轨迹数量是否不足以学习具有所需信心水平的约束条件,因此可以根据需要收集更多专家轨迹,以同时学习符合所需信心水平的约束条件和达到所需性能水平的策略。

论文链接: https://arxiv.org/pdf/2406.16782

cs.LG: WARP:关于权重平均奖励策略的好处

原标题: WARP: On the Benefits of Weight Averaged Rewarded Policies

作者: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem

机构: 谷歌DeepMind

摘要: 强化学习从人类反馈中学习(RLHF)通过鼓励大语言模型(LLMs)生成高奖励的内容来对齐,使用的奖励模型是基于人类偏好训练的。为了防止预训练知识的遗忘,RLHF通常会包含KL正则化;这迫使策略保持接近其监督精细调整的初始化状态,尽管这会阻碍奖励优化。为了解决KL和奖励之间的权衡,本文介绍了一种名为加权平均奖励策略(WARP)的新对齐策略。WARP在三个不同阶段在权重空间合并策略。首先,它使用策略的指数移动平均作为KL正则化中的动态锚点。其次,它应用球面插值将独立精细调整的策略合并成一个新的增强策略。第三,它在合并模型与初始化模型之间进行线性插值,以恢复预训练的特征。然后,这个过程迭代应用,每次迭代的最终模型作为下一个迭代的高级初始化,逐步优化KL-奖励帕累托前沿,在固定KL条件下实现更优的奖励。与GEMMA策略的实验验证了WARP改善了它们的质量和对齐度,优于其他开源的大语言模型。

论文链接: https://arxiv.org/pdf/2406.16768

cs.LG: 解决表现性预测中的极化和不公平

原标题: Addressing Polarization and Unfairness in Performative Prediction

作者: Kun Jin, Tian Xie, Yang Liu, Xueru Zhang

机构: 密歇根大学 俄亥俄州立大学 加利福尼亚大学 圣克鲁兹

摘要: 当机器学习(ML)模型用于涉及人类的应用(例如在线推荐、学校入学、招聘、借贷)时,模型本身可能会触发目标数据分布的变化,从而影响其预测。执行预测(PP)是一个框架,明确考虑了这种模型依赖的分布变化在学习ML模型时的影响。尽管在PP中,为系统的稳健性寻找执行稳定(PS)解决方案已经付出了重要努力,但其社会影响尚未深入探讨,也不清楚PS解决方案是否与公平等社会规范一致。在本文中,我们旨在检验执行预测中PS解决方案的公平属性。我们首先展示PS解决方案可能会造成严重的极化效应和群体间损失不平等。尽管现有文献中常用的公平机制可以帮助缓解不公平,但它们可能在面对模型依赖的分布变化时失效并破坏稳定性。因此,我们提出了新颖的公平干预机制,在PP设置中能够同时实现稳定性和公平性。我们提供了理论分析和实验证明了所提出方法的有效性。

论文链接: https://arxiv.org/pdf/2406.16756

cs.LG: MRI扫描仪作为诊断工具:无图像主动抽样

原标题: The MRI Scanner as a Diagnostic: Image-less Active Sampling

作者: Yuning Du, Rohan Dharmakumar, Sotirios A.Tsaftaris

机构: 英国爱丁堡大学 图灵研究所

摘要: 尽管磁共振成像(MRI)具有很高的诊断准确性,但将MRI用作即时疾病识别工具面临重大的可访问性挑战,这是由于使用了高磁场强度和长时间采集所致。我们提出一个简单的问题:我们能否根据(自动化的)下游决策任务,在患者级别动态优化获得的样本,而不考虑图像重建?我们提出了一个基于机器学习的框架,通过强化学习在患者级别学习主动采样策略,直接从下采样的k-空间推断出疾病。我们通过推断下采样的膝关节MRI数据中的半月板撕裂来验证我们的方法,在那里我们实现了与基于机器学习的诊断相媲美的诊断性能,使用完全采样的k-空间数据。我们分析了任务特定的采样策略,展示了我们主动采样方法的适应性。引入的节约采样策略有潜力减少高场强要求,从而增强基于MRI的即时疾病识别和相关初筛工具的可行性。

论文链接: https://arxiv.org/pdf/2406.16754

cs.LG: 推断从神经数据中的随机低秩循环神经网络

原标题: Inferring stochastic low-rank recurrent neural networks from neural data

作者: Matthijs Pals, A Erdem Sağtekin, Felix Pei, Manuel Gloeckler, Jakob H Macke

机构: 德国图宾根大学 最大智能系统普朗克研究所

摘要: 计算神经科学中的一个核心目标是将大量神经元的活动与底层动力系统相关联。这些神经动力学模型理想情况下应既可解释又能很好地拟合观察到的数据。低秩循环神经网络(RNNs)通过具有可处理的动力学表现出这种可解释性。然而,如何最好地将低秩 RNNs 拟合到由底层随机系统的嘈杂观测数据中尚不清楚。在这里,我们提出使用变分顺序蒙特卡罗方法拟合随机低秩 RNNs。我们验证了我们的方法在包含连续和尖峰神经数据的几个数据集上,我们获得了比当前最先进方法更低维的潜在动力学。此外,对于具有分段线性非线性的低秩模型,我们展示了如何以多项式成本而不是指数成本高效地识别所有固定点,使得对大型 RNNs 推断动力学的分析变得可处理。我们的方法既阐明了实验记录背后的动力系统,又提供了一个生成模型,其轨迹与观察到的试验间变异性相匹配。

论文链接: https://arxiv.org/pdf/2406.16749

cs.LG: 强化学习中偏好反馈的问题:一种斯塔克尔贝格博弈视角

原标题: Bandits with Preference Feedback: A Stackelberg Game Perspective

作者: Barna Pásztor, Parnian Kassraie, Andreas Krause

机构: 苏黎世联邦理工学院 ETH Zurich

摘要: 强化学习中的偏好反馈赌博机(Bandits with preference feedback)是一种强大的工具,用于优化未知目标函数,仅允许两两比较而不是直接值查询。这种模型允许将人类反馈整合到在线推断和优化中,并已应用于调优大型语言模型的系统中。这个问题在简化设置中得到了很好的理解,其中目标函数是线性的或者在有限的小域上,这限制了实际的兴趣。接下来,我们考虑无限域和非线性(核化)奖励。在这种设置下,选择一对动作非常具有挑战性,需要在两个层面上平衡探索和开发利用:在动作对内部,以及算法的迭代过程中。我们提出了MAXMINLCB,它模拟了这种权衡作为一个零和Stackelberg博弈,并选择信息丰富且带来有利奖励的动作对。MAXMINLCB始终优于现有的算法,并满足随时有效的速率最优遗憾保证。这归功于我们基于偏好的核化逻辑估计器的新型置信序列。

论文链接: https://arxiv.org/pdf/2406.16745

cs.LG: 学习使用lifting product Fourier神经算子学习边界到域映射的部分微分方程

原标题: Learning the boundary-to-domain mapping using Lifting Product Fourier Neural Operators for partial differential equations

作者: Aditya Kashi, Arka Daw, Muralikrishnan Gopalakrishnan Meena, Hao Lu

摘要: 神经算子如傅立叶神经算子(FNO)已被证明提供了分辨率独立的深度学习模型,可以学习函数空间之间的映射。例如,可以使用神经算子将初始条件映射到偏微分方程(PDE)在未来时间步的解。尽管神经算子广受欢迎,但它们在仅基于边界上的数据(如空间变化的Dirichlet边界条件)来预测整个域内解函数的使用仍未被探索。在本文中,我们将这类问题称为边界到域的问题;它们在流体力学、固体力学、热传递等领域有广泛的应用。我们提出了一种新颖的基于FNO的架构,名为Lifting Product FNO(或LP-FNO),它可以将定义在低维边界上的任意边界函数映射到整个域中的解。具体来说,通过我们提出的lifting product layer,将定义在低维边界上的两个FNO提升到高维域中。我们展示了LP-FNO对于二维泊松方程的有效性和分辨率独立性。

论文链接: https://arxiv.org/pdf/2406.16740

cs.LG: 诱导大语言模型决策中的群体公平

原标题: Inducing Group Fairness in LLM-Based Decisions

作者: James Atwood, Preethi Lahoti, Ananth Balashankar, Flavien Prost, Ahmad Beirami

机构: 谷歌DeepMind

摘要: 使用大语言模型(LLMs)来提示已经为文本数据分类创造了新的有趣方式。虽然在分类器公平性文献中评估和补救群体公平性是一个研究深入的问题,但一些传统方法(例如正则化)不适用,同时也出现了一些新的机会(例如基于提示的补救方法)。我们在毒性分类任务上测量基于提示的分类器的公平性,并实证显示,基于提示的分类器可能导致不公平的决策。我们引入了几种补救技术,并对它们的公平性和性能权衡进行了基准测试。我们希望我们的工作能够鼓励更多关于基于LLM的分类器群体公平性的研究。

论文链接: https://arxiv.org/pdf/2406.16738

cs.LG: GC-Bench:一个用于图压缩的基准框架,带来新的洞见

原标题: GC-Bench: A Benchmark Framework for Graph Condensation with New Insights

作者: Shengbo Gong, Juntong Ni, Noveen Sachdeva, Carl Yang, Wei Jin

机构: 埃默里大学 谷歌

摘要: 图压缩(GC)是一种新兴技术,旨在学习一个显著较小的图形,保留原始图形的基本信息。这种压缩图表现出加速图神经网络的潜力,同时保持与原始较大图形相当的性能。此外,该技术还促进了下游应用,如神经结构搜索,并增强了我们对大型图形冗余的理解。尽管GC方法迅速发展,但缺乏系统评估框架,这是澄清特定评估方面关键设计的必要条件。此外,还有几个有意义的问题尚未调查,例如GC是否从本质上保留某些图形属性,即使没有有针对性的设计工作也能提供稳健性。本文介绍了GC-Bench,一个全面评估最新GC方法的框架,涵盖多个维度并生成新见解。我们的实验结果深入探讨了GC过程及压缩图的特性,指导未来在提升性能和探索新应用方面的努力。我们的代码可在 \url{this https URL} 上找到。

论文链接: https://arxiv.org/pdf/2406.16715

Github: https://github.com/Emory-Melody/GraphSlim/tree/main/benchmark

cs.LG: CausalFormer:一种用于时间因果发现的可解释Transformer

原标题: CausalFormer: An Interpretable Transformer for Temporal Causal Discovery

作者: Lingbai Kong, Wengen Li, Hanchen Yang, Yichao Zhang, Jihong Guan, Shuigeng Zhou

机构: 同济大学 复旦大学

摘要: 时间因果发现是一项关键任务,旨在揭示时间序列数据内的因果关系。最新的时间因果发现方法通常在预测任务上训练深度学习模型,以揭示时间序列之间的因果关系。它们通过分析训练模型的某些组件的参数(如注意力权重和卷积权重)来捕获因果关系。然而,这是一个从模型参数到因果性的不完整映射过程,并未调查其他组件(如全连接层和激活函数),这些组件对于因果发现同样重要。为了促进时间因果发现中整个深度学习模型的利用,我们提出了一种名为CausalFormer的可解释Transformer基因因果发现模型,包括因果感知Transformer和基于分解的因果检测器。因果感知Transformer利用设计的多核因果卷积,在时间优先约束下沿着时间维度聚合每个输入时间序列,学习时间序列数据的因果表示。然后,基于分解的因果检测器通过提出的回归相关传播解释训练好的因果感知Transformer的全局结构,识别潜在的因果关系,并最终构建因果图。在合成、模拟和真实数据集上的实验表明,CausalFormer在发现时间因果性方面表现出最先进的性能。我们的代码可以在以下网址找到:[https URL]

论文链接: https://arxiv.org/pdf/2406.16708

Github: https://github.com/lingbai-kong/CausalFormer

cs.LG: 概率子目标表示用于分层强化学习

原标题: Probabilistic Subgoal Representations for Hierarchical Reinforcement learning

作者: Vivienne Huiling Wang, Tinghuai Wang, Wenyan Yang, Joni-Kristian Kämäräinen, Joni Pajarinen

摘要: 在目标条件的分层强化学习(HRL)中,高层策略指定了低层策略要达到的子目标。有效的HRL取决于适当的子目标表示函数,将状态空间抽象为潜在的子目标空间,并诱导出多样的低层行为。现有方法采用提供确定性映射从状态空间到潜在子目标空间的子目标表示。相反,本文首次利用高斯过程(GPs)进行概率子目标表示。我们的方法在潜在子目标空间上采用GP先验,学习子目标表示函数的后验分布,同时通过可学习的核在状态空间中利用长程相关性。这使得自适应记忆能够整合来自先前规划步骤的长程子目标信息,以应对随机不确定性。此外,我们提出了一种新的学习目标,以促进在统一框架内同时学习概率子目标表示和策略。在实验中,我们的方法在标准基准测试中表现优于最先进的基线,而且在具有随机元素和不同奖励条件的环境中也是如此。此外,我们的模型在不同任务之间转移低层策略方面显示出有希望的能力。

论文链接: https://arxiv.org/pdf/2406.16707

cs.LG: 学习可解释公平表示

原标题: Learning Interpretable Fair Representations

作者: Tianhao Wang, Zana Buçinca, Zilin Ma

摘要: 许多方法最近被提出用于学习公平表示,在预测任务中减少不公平结果。这些方法的一个关键动机是,这些表示可以被具有未知目标的第三方使用。然而,由于当前的公平表示通常不具备解释性,第三方无法利用这些公平表示进行探索或获得额外的见解,除了预先约定的预测任务之外。因此,为了增加数据效用超出预测任务,我们认为这些表示需要既公平又具有解释性。我们提出了一个通用框架来学习解释性公平表示,在表示学习过程中引入可解释的“先验知识”。我们实现了这一想法,并在ColorMNIST和Dsprite数据集上进行了实验。结果表明,除了具有解释性外,我们的表示在下游分类任务中相比最先进的公平表示,能够达到稍微更高的准确性和更公平的结果。

论文链接: https://arxiv.org/pdf/2406.16698

cs.LG: 神经网络学习分类任务中的编码方案

原标题: Coding schemes in neural networks learning classification tasks

作者: Alexander van Meegen, Haim Sompolinsky

机构: 哈佛大学 希伯来大学

摘要: 神经网络具有生成任务相关特征有意义表示的关键能力。确实,通过适当的扩展,在神经网络中进行监督学习可以导致强大的任务相关特征学习。然而,我们称之为“编码方案”的新出现表示的性质仍不清楚。为了理解新出现的编码方案,我们使用贝叶斯框架调查全连接的宽神经网络学习分类任务,其中学习塑造了网络权重的后验分布。与先前的发现一致,我们对特征学习制度(也称为“非懒惰”、“丰富”或“平均场”制度)的分析显示,网络获取了强大的数据相关特征。令人惊讶的是,内部表示的性质在很大程度上取决于神经元的非线性。在线性网络中,任务的模拟编码方案出现了。尽管有强大的表示,均值预测器与懒惰情况相同。在非线性网络中,自发对称性破缺导致冗余或稀疏编码方案。我们的发现突显了网络属性如权重的缩放和神经元的非线性如何深刻影响新出现的表示。

论文链接: https://arxiv.org/pdf/2406.16689

cs.LG: 使用未经训练的消息传递层进行链接预测

原标题: Link Prediction with Untrained Message Passing Layers

作者: Lisi Qarkaxhija, Anatol E. Wegner, Ingo Scholtes

机构: 维尔茨堡大学

摘要: 信息传递神经网络(MPNN)通过在图形上交换相邻节点之间的信息来运行。MPNN已成功应用于分子科学、计算机视觉、自然语言处理和组合优化等领域的各种节点、边缘和图级任务。然而,大多数MPNN需要在大量标记数据上进行训练,这可能既昂贵又耗时。在这项工作中,我们探讨了在图神经网络中使用各种未训练信息传递层的可能性,即在信息传递步骤中移除所有可训练参数的流行信息传递架构的变体。专注于链接预测,我们发现未训练的信息传递层在高维特征存在的情况下,可以导致竞争力甚至优于完全训练的MPNN性能。我们通过将未训练信息传递层隐式产生的特征的内积与基于路径的拓扑节点相似度测量相关联,提供了对未训练信息传递的理论分析。因此,未训练的信息传递架构可以被视为链接预测的高效且可解释的方法。

论文链接: https://arxiv.org/pdf/2406.16687

cs.LG: 扩散模型多样抽样的斥力评分蒸馏

原标题: Repulsive Score Distillation for Diverse Sampling of Diffusion Models

作者: Nicolas Zilberstein, Morteza Mardani, Santiago Segarra

机构: 莱斯大学 NVIDIA公司

摘要: 得分蒸馏抽样在整合扩散模型生成复杂视觉方面至关重要。尽管结果令人印象深刻,但存在模式坍塌和缺乏多样性的问题。为了应对这一挑战,我们利用得分蒸馏的梯度流解释提出了斥力得分蒸馏(RSD)。具体而言,我们提出了一个基于粒子集合斥力促进多样性的变分框架。通过包含粒子之间耦合的变分逼近,斥力作为一种简单的正则化出现,允许基于它们的相对成对相似度进行粒子交互,例如通过径向基核来衡量。我们设计了适用于无约束和约束抽样场景的RSD。对于约束抽样,我们专注于潜空间中的逆问题,导致了增强的变分形式,这在计算、质量和多样性之间取得了良好的平衡。我们广泛的实验针对文本到图像生成和逆问题表明,与现有最先进的替代方法相比,RSD在多样性和质量之间实现了卓越的权衡。

论文链接: https://arxiv.org/pdf/2406.16683

cs.LG: 立方正则化子空间牛顿法用于非凸优化

原标题: Cubic regularized subspace Newton for non-convex optimization

作者: Jim Zhao, Aurelien Lucchi, Nikita Doikov

机构: 巴塞尔大学 EPFL

摘要: 这篇论文解决了最小化非凸连续函数的优化问题,这在高维机器学习应用中特征过度参数化的情况下尤为相关。我们分析了一种随机坐标二阶方法,名为SSCN,可以解释为在随机子空间中应用立方正则化。这种方法有效地降低了利用二阶信息的计算复杂度,使其适用于更高维的场景。理论上,我们建立了非凸函数的收敛保证,对任意子空间大小提供了插值速率,并允许不精确的曲率估计。增加子空间大小时,我们的复杂度与立方正则化(CR)速率的 O ( ϵ − 3 / 2 ) \mathcal{O}(\epsilon^{-3/2}) O(ϵ3/2)相匹配。此外,我们提出了一种自适应采样方案,确保达到 O ( ϵ − 3 / 2 , ϵ − 3 ) \mathcal{O}(\epsilon^{-3/2}, \epsilon^{-3}) O(ϵ3/2,ϵ3)的二阶稳定点的精确收敛率,即使没有对所有坐标进行采样。实验结果显示,与传统的一阶方法相比,SSCN实现了显著的加速。

论文链接: https://arxiv.org/pdf/2406.16666

cs.LG: 计量学中的数据驱动建模——简介、当前发展及未来展望

原标题: Data-driven Modeling in Metrology – A Short Introduction, Current Developments and Future Perspectives

作者: Linda-Sophie Schneider, Patrick Krauss, Nadine Schiering, Christopher Syben, Richard Schielein, Andreas Maier

机构: 德·格鲁伊特期刊

摘要: 数学模型对计量学领域至关重要,对测量结果的推导和从测量数据中计算不确定性起着关键作用,这些都是基于对测量过程的理解。这些模型通常表示被测量数量与所有其他相关数量之间的相关性。这些关系用于构建测量系统,能够解释测量数据以生成关于测量系统本身的结论和预测。经典模型通常是基于基本物理原理的分析模型。然而,数字技术的兴起、广泛的传感器网络和高性能计算硬件导致了向数据驱动方法的转变。特别是在处理大型复杂的网络传感器系统时,这种趋势尤为突出,因为在经常变化的现实世界环境中,专家理解受限。在这里,我们展示了数据驱动建模提供的各种机会,以及它们如何已经在各种现实应用中得到实施。

论文链接: https://arxiv.org/pdf/2406.16659

cs.LG: 不再使用滑动窗口:基于随机卷积的动态功能连接,无需学习

原标题: No More Sliding-Windows: Dynamic Functional Connectivity Based On Random Convolutions Without Learning

作者: Yongjie Duan, Zhiying Long

机构: 北京师范大学

摘要: 在动态功能连接领域,滑动窗口方法被广泛使用,其稳定性普遍得到认可。然而,滑动窗口方法在窗口内的数据处理过于简单化,在一定程度上限制了其有效性。本研究提出了一种基于随机卷积的特征扩展方法,相比于滑动窗口方法,该方法在不需要训练的情况下实现了更好且更抗噪声的结果。对模拟数据的实验表明,采用随机卷积方法获得的动态功能连接矩阵和时间序列在较短时间窗口内与标准答案的拟合度更高(95.59%),而滑动窗口方法仅为(45.99%)。对真实数据的性别差异研究还显示,随机卷积方法揭示出比滑动窗口方法更多的性别差异。通过理论分析,我们提出了一个更全面的卷积功能连接计算模型,滑动窗口方法是该模型的一个特例,从而为动态功能连接研究方法开辟了广阔的潜力。

论文链接: https://arxiv.org/pdf/2406.16619

cs.LG: 当不变表示学习遇到标签转移:不足和理论洞见

原标题: When Invariant Representation Learning Meets Label Shift: Insufficiency and Theoretical Insights

作者: You-Wei Luo, Chuan-Xian Ren

机构: IEEE 计算机学会

摘要: 作为走向真实世界学习场景的关键步骤,数据集偏移理论和不变表示学习算法已被广泛研究,以放松经典学习设置中的相同分布假设。在对转移分布的不同假设中,广义标签偏移(GLS)是最新发展的一种,显示出处理转移中复杂因素的巨大潜力。本文旨在探讨当前数据集偏移理论和算法的局限性,并通过对GLS的全面理解提供新的见解。从理论角度来看,推导出两个信息丰富的泛化界限,并从贝叶斯视角证明GLS学习器与最优目标模型足够接近。主要结果显示不变表示学习的不足,并证明了GLS修正在泛化中的充分性和必要性,为探索数据集偏移下具有泛化能力的模型提供了理论支持和创新。从方法论角度,我们提供了现有偏移修正框架的统一视角,并提出了基于核嵌入的修正算法(KECA),以最小化泛化误差并实现成功的知识转移。理论结果和广泛的实验评估均表明,GLS修正在解决数据集偏移方面的充分性和必要性,以及所提算法的优越性。

论文链接: https://arxiv.org/pdf/2406.16608

cs.LG: 樱桃在蛋糕上:公平不是一个优化问题

原标题: Cherry on the Cake: Fairness is NOT an Optimization Problem

作者: Marco Favier, Toon Calders

机构: 安特卫普大学

摘要: 公平分蛋糕是研究如何在多个参与者之间公平分配资源的数学子领域。所谓的“蛋糕”作为一个对象,代表可以在玩家之间分配的任何资源。这个概念与监督式多标签分类有关:任何数据集都可以被视为需要分配的蛋糕,其中每个标签是接收数据集一部分的玩家。特别是,对于数据集的任何高效分蛋糕解决方案等同于一个最优决策函数。尽管我们并不是第一个展示这种联系的人,但这种平行关系的重要影响似乎部分被遗忘了。我们重新审视这些经典结果,并展示这种联系如何在解决机器学习问题的公平性方面得到丰富的应用。理解可实现的公平决策集是寻找最优公平解决方案和满足公平要求的基本步骤。通过运用分蛋糕理论的工具,我们能够描述最优公平决策的行为,这些决策通常展现出相当不公平的特性,这在直觉上有些出人意料。具体来说,为了满足公平约束,有时候更倾向于在名义上的最优性质下,故意犯错,并拒绝将正面标签授予社区中应得的个体,而更倾向于社区内不那么值得的个体。这种实践在文献中被称为“挑樱桃”,并被描述为“公然不公平”。

论文链接: https://arxiv.org/pdf/2406.16606

cs.LG: 个性化的联合学习基于特征融合

原标题: Personalized federated learning based on feature fusion

作者: Wolong Xing, Zhenkui Shi, Hongyan Peng, Xiantao Hu, Xianxian Li

机构: 广西师范大学 教育区块链与智能技术重点实验室 广西多源信息挖掘安全重点实验室

摘要: 联邦学习使得分布式客户端能够在保护客户隐私的同时协作进行训练。然而,由于数据、模型和设备的异质性,最终的全局模型可能需要在每个客户端的任务上表现更好。通信瓶颈、数据异质性和模型异质性是联邦学习中常见的挑战。在这项工作中,我们考虑了标签分布偏斜问题,这是一种容易被忽视的数据异质性类型。在分类的背景下,我们提出了一种名为 pFedPM 的个性化联邦学习方法。在我们的过程中,我们用特征上传替代了传统的梯度上传,这有助于减少通信成本并允许异构客户端模型的存在。这些特征表示在一定程度上起到了保护隐私的作用。

我们使用超参数 a a a 来混合本地和全局特征,这使我们能够控制个性化程度。我们还引入了一个关系网络作为额外的决策层,提供一个非线性可学习的分类器来预测标签。实验结果显示,在适当设置 a a a 的情况下,我们的方案在 MNIST、FEMNIST 和 CRIFAR10 数据集上表现优于几种最近的联邦学习方法,并实现了更少的通信。

论文链接: https://arxiv.org/pdf/2406.16583

cs.LG: OAML:异常检测增强的异常感知度度量学习

原标题: OAML: Outlier Aware Metric Learning for OOD Detection Enhancement

作者: Heng Gao, Zhuolin He, Shoumeng Qiu, Jian Pu

机构: 复旦大学 计算机科学学院

摘要: 已开发出的OD(Out-of-Distribution)检测方法用于识别模型在训练期间未见过的对象。异常暴露(OE)方法使用辅助数据集直接训练OD检测器。然而,收集和学习代表性OD样本可能面临挑战。为了解决这些问题,我们提出了异常感知度量学习(OAML)框架。我们方法的主要思想是在特征级别使用k-NN算法和稳定扩散模型生成用于训练的异常值,而无需进行任何分布假设。为了增加语义空间中的特征差异,我们开发了基于互信息的对比学习方法,有效地从OD数据中进行学习。理论和实证结果都证实了这种对比学习技术的有效性。此外,我们将知识蒸馏引入我们的学习框架中,以防止正常分布分类准确性的降低。对比学习和知识蒸馏算法的组合显著提升了OD检测的性能。跨多个数据集的实验结果表明,我们的方法明显优于先前的OE方法。

论文链接: https://arxiv.org/pdf/2406.16525

cs.LG: 高效k均值聚类中的个体公平性通过指数倾斜

原标题: Efficient k-means with Individual Fairness via Exponential Tilting

作者: Shengkun Zhu, Jinshan Zeng, Yuan Sun, Sheng Wang, Xiaodong Li, Zhiyong Peng

机构: 清华大学

摘要: 在基于位置的资源分配场景中,希望每个个体与设施之间的距离大致相等,从而确保公平性。通常采用个体公平聚类来实现平等对待所有点的原则,这可以应用于这些场景。本文提出了一种新的算法,倾斜 k-means(TKM),旨在实现聚类中的个体公平性。我们将指数倾斜集成到平方误差和(SSE)中,形成了一种称为倾斜 SSE 的新的目标函数。我们证明了倾斜 SSE 可以推广到 SSE,并采用坐标下降和一阶梯度方法进行优化。我们提出了一种新的公平度量标准,即每个簇内距离的方差,这可以缓解现有公平度量通常引起的马太效应。我们的理论分析表明,众所周知的 k-means++ 产生了 O(k log k) 的乘性误差,我们建立了 TKM 在温和条件下的收敛性。在公平性方面,我们证明了 TKM 生成的方差随着缩放的超参数而减少。在效率方面,我们证明了时间复杂度与数据集大小成线性关系。我们的实验证明,TKM 在效果、公平性和效率方面优于现有的最先进方法。

论文链接: https://arxiv.org/pdf/2406.16557

cs.LG: 稳健的预测在缺失性转移下

原标题: Robust prediction under missingness shifts

作者: Patrick Rockenschaub, Zhicong Xian, Alireza Zamanian, Marta Piperno, Octavia-Andreea Ciora, Elisabeth Pachl, Narges Ahmidi

机构: Fraunhofer IKS Munich

摘要: 预测在缺失协变量的情况下变得更加具有挑战性。选择用于处理缺失的方法可以极大地影响模型的表现。在许多实际问题中,能够利用缺失值的信息性质的模型通常能够实现最佳的预测性能。然而,一旦模型在实践中部署后,导致协变量缺失的原因可能会发生变化。如果发生这种缺失变化,值缺失的条件概率在目标数据中可能会有所不同。源数据中的预测性能可能不再是一个良好的选择标准,而不依赖于信息性缺失的方法可能更可取。然而,我们展示了贝叶斯预测器在忽略性变化时保持不变,其中缺失的概率仅依赖于观测数据。因此,贝叶斯预测器的任何一致估计量在这些条件下可能导致稳健的预测,尽管我们经验证明不同的方法对不同类型的变化都表现出稳健性。如果缺失变化是非忽略的,由于这种变化,贝叶斯预测器可能会发生变化。在这种情况下,两种方法都无法恢复贝叶斯预测器,但我们的经验证明,在信息性非常高的情况下忽略缺失是最有益的。

论文链接: https://arxiv.org/pdf/2406.16484

cs.LG: 改进四元数神经网络与四元数激活函数

原标题: Improving Quaternion Neural Networks with Quaternionic Activation Functions

作者: Johannes Pöppelbaum, Andreas Schwung

机构: 西门子南西里亚应用科技大学

摘要: 在本文中,我们提出了新颖的四元数激活函数,其中我们修改四元数的模或相位,作为常用分割激活函数的替代方案。我们定义了适用于四元数激活函数的标准,随后基于这一分析提出了我们的新型激活函数。与将已知的激活函数如ReLU或Tanh分别应用于四元数元素不同,这些激活函数考虑了四元数的特性,并尊重四元数空间 H \mathbb{H} H。特别是,所有四元数分量都用于计算所有输出分量,从而利用Hamilton乘积在例如四元数卷积中对激活函数产生了好处。提出的激活函数可以被整合到任意的使用梯度下降技术训练的四元数值神经网络中。我们进一步讨论了提出的激活函数的导数,观察到这些激活函数对相位的影响具有有利的特性。具体来说,它们被证明对整个输入范围都很敏感,因此可以预期改进的梯度流。我们对我们提出的四元数激活函数进行了详尽的实验评估,包括在两个图像分类任务(使用CIFAR-10和SVHN数据集)上与分割ReLU和分割Tanh进行了比较。在这些实验中,特别是影响相位的四元数激活函数一致证明提供了更好的性能。

论文链接: https://arxiv.org/pdf/2406.16481

cs.LG: 隐藏在余弦相似度损失函数中的陷阱

原标题: The Hidden Pitfalls of the Cosine Similarity Loss

作者: Andrew Draganov, Sharvaree Vadgama, Erik J. Bekkers

机构: 哥本哈根大学 阿姆斯特丹大学

摘要: 我们展示在两种较少探索的情境中,两点之间余弦相似度的梯度趋向于零:(1)如果一点具有较大的幅度或(2)如果这些点位于潜在空间的相反端。令人反直觉的是,我们证明优化点之间的余弦相似度会迫使它们增大幅度。因此,(1)在实践中是不可避免的。接着,我们观察到这些推导非常普适 – 它们适用于各种深度学习架构和许多标准的自监督学习(SSL)损失函数。这促使我们提出了切割初始化(cut-initialization):一种简单的网络初始化变化,有助于所有研究过的SSL方法更快地收敛。

论文链接: https://arxiv.org/pdf/2406.16468

cs.LG: SLOctolyzer:用于扫描激光眼底镜图像中分割和特征提取的完全自动分析工具包

原标题: SLOctolyzer: Fully automatic analysis toolkit for segmentation and feature extracting in scanning laser ophthalmoscopy images

作者: Jamie Burke, Samuel Gibbon, Justin Engelmann, Adam Threlfall, Ylenia Giarratano, Charlene Hamid, Stuart King, Ian J.C. MacCormick, Tom MacGillivray

机构: 爱丁堡大学 研究与修复学院 Robert O Curle眼科套房 医学信息中心 临床研究设施

摘要: 目的:描述SLOctolyzer:一种开源分析工具包,用于处理红外反射扫描激光眼底镜(SLO)图像中的正视网膜血管。

方法:SLOctolyzer包括两个主要模块:分割和测量。分割模块使用深度学习方法勾画视网膜解剖结构,而测量模块量化关键的视网膜血管特征,如血管复杂度、密度、扭曲度和直径。我们使用未见数据评估分割模块,并衡量其再现性。

结果:SLOctolyzer的分割模块在未见的内部测试数据上表现良好(全血管的Dice系数为0.9097;动脉为0.8376;静脉为0.8525;视盘为0.9430;中央凹为0.8837)。针对严重视网膜病理的外部验证显示性能下降(动脉的Dice系数为0.7180;静脉为0.7470;视盘为0.9032)。SLOctolyzer具有良好的再现性(分形维度平均差为-0.0007;血管密度为-0.0003;血管直径为-0.3154微米;扭曲度密度为0.0013)。SLOctolyzer能够在标准笔记本电脑上处理以黄斑为中心的SLO图像不到20秒,以盘为中心的SLO图像不到30秒。

结论:据我们所知,SLOctolyzer是第一个能够将原始SLO图像转换为可重复且临床意义的视网膜血管参数的开源工具。SLO图像与光学相干断层扫描(OCT)同时捕获,我们相信我们的软件将有助于从大型OCT图像集中提取视网膜血管测量,并将其与眼部或全身疾病联系起来。它不需要专业知识或专有软件,并允许手动校正分割并重新计算血管指标。SLOctolyzer可在此网址免费获取。

论文链接: https://arxiv.org/pdf/2406.16466

Github: https://github.com/jaburke166/SLOctolyzer

cs.LG: 自动隐私保护技术通过元学习

原标题: Automated Privacy-Preserving Techniques via Meta-Learning

作者: Tânia Carvalho, Nuno Moniz, Luís Antunes

机构: AUTOPRIV

摘要: 分享私人数据用于学习任务对于透明和安全的机器学习应用至关重要。许多保护隐私的技术已被提出,旨在在保护个人隐私的同时转换数据。其中一些技术已经被整合到工具中,而其他技术则通过各种在线平台访问。然而,这些工具需要手动配置,这可能复杂且耗时。此外,它们需要大量专业知识,可能限制了只有具备高级技术知识的人才能使用。在本文中,我们提出了AUTOPRIV,第一个自动化隐私保护方法,它消除了任何手动配置的需求。AUTOPRIV利用元学习自动化去标识化过程,促进了安全释放数据用于机器学习任务。其主要目标是预测大量隐私配置的预测性能和隐私风险。我们提供了一个排名列表,列出了最有前景的解决方案,这些解决方案可能在新的领域内实现最佳近似。AUTOPRIV非常有效,因为它显著减少了计算复杂性和能源消耗。

论文链接: https://arxiv.org/pdf/2406.16456

cs.LG: 病变感知跨相位注意力网络用于多相CT扫描上的肾肿瘤亚型分类

原标题: Lesion-Aware Cross-Phase Attention Network for Renal Tumor Subtype Classification on Multi-Phase CT Scans

作者: Kwang-Hyun Uhm, Seung-Won Jung, Sung-Hoo Hong, Sung-Jea Ko

机构: 韩国大学 天主教韩国大学

摘要: 多相计算机断层扫描(CT)由于其非侵入性和能够表征肾脏病变的能力而被广泛用于肾癌的术前诊断。然而,即使对于相同类型的病变,肾脏病变在CT不同阶段的增强模式也不同,放射科医生的视觉评估在临床实践中存在观察者间的变异性。尽管最近基于深度学习的方法已被探索用于肾癌的差异诊断,但它们在网络设计中未明确建模CT不同阶段之间的关系,从而限制了诊断性能。本文提出了一种新型的病变感知跨相注意力网络(LACPANet),能够有效捕获肾脏病变在CT不同阶段之间的时间依赖关系,以准确将病变分为来自时间序列多相CT图像的五种主要病理亚型。我们引入了一种3D跨相病变感知注意力机制,用于学习有效的3D病变特征,这些特征用于估计描述增强模式跨相关系的注意力权重。我们还提出了一个多尺度注意力方案,以捕获和聚合不同空间尺度上的病变特征的时间模式,进一步改善了性能。对来自收集数据集的肾癌患者的多相CT扫描进行的广泛实验表明,我们的LACPANet在诊断准确性方面优于最先进的方法。

论文链接: https://arxiv.org/pdf/2406.16322

cs.LG: 学习型重要数据项及流频率估计在数据流中

原标题: Learning-Based Heavy Hitters and Flow Frequency Estimation in Streams

作者: Rana Shahout, Michael Mitzenmacher

机构: 哈佛大学

摘要: 识别重要流量和估算流量频率是各种网络领域中的基本任务。对这一挑战的现有方法可以大致分为两组,基于哈希的方法和基于竞争计数器的方法。Count-Min sketch是基于哈希的算法的标准示例,而Space Saving算法是竞争计数器算法的示例。最近的研究探索了利用机器学习增强频率估算问题的算法,在带预测框架的算法下。然而,这些研究仅专注于基于哈希的方法,这可能不是识别重要流量的最佳方法。在本文中,我们提出了第一个学习到的基于竞争计数器的算法,称为LSS,用于识别重要流量、前k个以及利用着名的Space Saving算法进行流量频率估算。我们提供了理论洞察力,说明了我们的方法如何以及在多大程度上能改进Space Saving,并通过合成和真实数据集的实验结果加以支持。我们的评估表明,LSS能够提高Space Saving在识别重要流量、前k个和估算流量频率方面的准确性和效率。

论文链接: https://arxiv.org/pdf/2406.16270

cs.LG: 紧凑模型参数提取通过无导数优化。

原标题: Compact Model Parameter Extraction via Derivative-Free Optimization

作者: Rafael Perez Martinez, Masaya Iwamoto, Kelly Woo, Zhengliang Bian, Roberto Tinti, Stephen Boyd, Srabanti Chowdhury

机构: 斯坦福大学 Keysight Technologies Inc.

摘要: 在本文中,我们解决了通过无导数优化同时提取数十个参数的紧凑模型参数提取问题。传统上,参数提取是通过将完整的参数集划分为较小的子集进行手动执行的,每个子集针对设备的不同操作区域,这个过程可能需要数天甚至数周的时间。我们的方法通过采用无导数优化来简化此过程,以识别最适合紧凑模型的良好参数集,而无需进行详尽的模拟。我们进一步增强了优化过程,通过精心选择损失函数来评估模型性能,该函数通过关注相对误差(而非绝对误差)在各个量级上的一致性来解决设备建模中的关键问题,优先考虑设备关键操作区域的精度达到一定阈值以上,并减少对离群值的敏感性。此外,我们利用训练-测试分离的概念来评估模型拟合度并避免过拟合。这通过使用80%的数据进行拟合,然后用剩余的20%测试模型的有效性来实现。我们通过成功建模两种半导体器件展示了我们方法的有效性:一种是金刚石肖特基二极管,另一种是GaN-on-SiC HEMT,后者涉及ASM-HEMT DC模型,需要同时提取35个模型参数以使模型与测量数据拟合。这些示例展示了我们方法的有效性,并展示了无导数优化在设备建模中的实际好处。

论文链接: https://arxiv.org/pdf/2406.16355

cs.LG: METRIK: 使用输入屏蔽的Transformer进行测量效率的随机对照试验

原标题: METRIK: Measurement-Efficient Randomized Controlled Trials using Transformers with Input Masking

作者: Sayeri Lala (1), Niraj K. Jha (1) ((1) Princeton University, Princeton, USA)

机构: 普林斯顿大学

摘要: 临床随机对照试验(RCTs)收集了数百种不同类型的测量数据(例如实验室测试、认知/运动评估等),涵盖了数百到数千名受试者,以评估治疗效果,但这样做会带来显著的试验成本。为了减少测量数量,试验方案可以修改以移除与研究目标无关的指标,但这需要额外的人力资源,并且限制了可以利用收集数据进行研究的假设集。相比之下,计划缺失设计(PMD)可以通过填充未采样数据来减少收集的数据量,而不需移除任何指标。标准的PMD通过随机采样数据来利用填充算法的统计特性,但是这些方法是临时的,因此不够优化。学习PMD的方法可以生成更加样本高效的PMD,但是对于RCTs来说不合适,因为它们需要大量的先前数据(150+名受试者)来建模数据分布。因此,我们引入了一个名为METRIK的框架,即使用输入掩码的Transformer进行测量效率化随机对照试验,该框架首次从适量的先前数据(例如60名受试者)计算特定于RCT的PMD。具体来说,METRIK将PMD建模为可学习的输入掩码层,并使用基于Transformer架构的最新填充器进行优化。METRIK实施了一种新颖的采样和选择算法,生成满足试验设计者目标的PMD,即在给定的采样预算下,是要最大化采样效率还是填充性能。在五个真实世界的临床RCT数据集中评估,METRIK通过利用时间和指标间的相关性增加了生成PMD下的采样效率和填充性能,从而无需手动移除RCT中的指标。

论文链接: https://arxiv.org/pdf/2406.16351

cs.LG: AnnotatedTables:具有语言模型注释的大型表格数据集

原标题: AnnotatedTables: A Large Tabular Dataset with Language Model Annotations

作者: Yaojie Hu, Ilias Fountalis, Jin Tian, Nikolaos Vasiloglou

机构: 爱荷华州立大学 RelationalAI

摘要: 表格数据在现实世界的应用中无处不在,且在网络上非常丰富,然而其标注传统上需要人工劳动,对表格机器学习构成重大的可扩展性瓶颈。我们的方法可以成功地为大量表格数据进行标注,并可以根据特定的研究目标灵活调整以生成各种类型的注释,正如我们在 SQL 注释和输入-目标列注释的示例中所展示的那样。因此,我们发布了 AnnotatedTables,这是一个包含 32,119 个数据库的集合,具有大语言模型生成的注释。该数据集包括 405,616 个有效的 SQL 程序,使其成为支持查询执行的带有关联表格数据的最大 SQL 数据集。为进一步展示我们方法和数据集的价值,我们进行了两项后续研究。1) 我们调查了大语言模型是否能够将 SQL 程序翻译为 Rel 程序,这是大语言模型先前不熟悉的数据库语言,并同时获得相同的执行结果。利用基于执行反馈的增量提示工程方法,我们展示了大语言模型可以通过少样本学习生成足够的翻译结果。2) 我们评估了 TabPFN 的性能,这是一个最近基于贝叶斯先验训练的神经表格分类器,用于由大语言模型识别和注释的 2,720 张表格。平均而言,TabPFN 的表现与基准 AutoML 方法持平,尽管相对性能在不同数据表之间可能有显著差异,使得两种模型在实际应用中都有可行性,具体取决于情况。我们的发现强调了大语言模型在自动化大量多样化表格数据标注中的潜力。

论文链接: https://arxiv.org/pdf/2406.16349

cs.LG: 景观线性模式连接

原标题: Landscaping Linear Mode Connectivity

作者: Sidak Pal Singh, Linara Adilova, Michael Kamp, Asja Fischer, Bernhard Schölkopf, Thomas Hofmann

机构: 苏黎世联邦理工学院 德国鲁尔大学 博鲁姆德国鲁尔大学 瑞士苏黎世联邦理工学院 Tübingen MPI-IS 德国医学人工智能研究所

摘要: 在线性参数空间中存在线性路径连接两种不同网络解决方案的情况,在某些情况下,即线性模式连接(LMC),引起了理论和实际领域的关注。已经进行了大量研究,其中一些实际设计了算法来连接网络,通过调整排列对称性,以及其他更理论上构建网络连接路径的研究。然而,神经网络高度非凸损失景观中发生LMC的核心原因,当事实上它确实发生时,远未清楚。在这项工作中,我们通过提供损失景观在拓扑上需要表现出来以表现LMC(或其缺失)的模型,迈出了一步向理解它的方向。具体来说,我们提出了一个“山坡和山脊”的视角,有助于清晰地联系损失景观中训练过程中可以观察到的不同几何特征。我们还通过提供障碍高度的理论分析来补充这一视角,我们提供了经验支持,并且还作为层次LMC的可靠预测器扩展。最后,我们通过一个玩具例子提供了更多关于障碍如何首次产生的直觉,总体展示了工作的更大目标——为LMC的发生提供损失景观及其地形的工作模型。

论文链接: https://arxiv.org/pdf/2406.16300

cs.LG: 通过参数高效微调实现可扩展精确机器去学习

原标题: Towards Scalable Exact Machine Unlearning Using Parameter-Efficient Fine-Tuning

作者: Somnath Basu Roy Chowdhury, Krzysztof Choromanski, Arijit Sehanobish, Avinava Dubey, Snigdha Chaturvedi

机构: UNC Chapel Hill Google DeepMind Columbia University

摘要: 机器遗忘是一种有效地从训练好的机器学习模型中移除一个训练数据实例的过程,而无需从头开始重新训练它。遗忘方法的一个流行子类是精确机器遗忘,它专注于明确保证从模型中移除数据实例的技术。精确遗忘方法使用一个机器学习模型,其中各个组件在数据的不相交子集上进行训练。在删除过程中,精确遗忘方法仅重新训练受影响的组件,而不是整个模型。虽然现有的方法降低了重新训练的成本,但对于一个组织来说,重新训练模型组件仍然可能很昂贵,因为这需要停止生产中的系统,导致服务失败并对客户产生不利影响。为了解决这些挑战,我们介绍了一种精确遗忘框架 – 序列感知分片训练(S3T),旨在增强精确遗忘系统的删除能力,同时最小化对模型性能的影响。在S3T的核心,我们利用一种轻量级、参数高效的微调方法,通过按顺序训练具有不同数据分片的层来实现参数隔离。这使得通过简单地停用受数据删除影响的层来实现高效的遗忘成为可能。此外,为了降低重新训练成本并提高模型性能,我们在多个数据序列上训练模型,使得S3T能够处理更多的删除请求。从理论和实证上来看,我们展示了S3T相对于基准在广泛的设置下实现了卓越的删除能力和增强的性能。

论文链接: https://arxiv.org/pdf/2406.16257

cs.LG: 模拟引理的最优紧度界限

原标题: An Optimal Tightness Bound for the Simulation Lemma

作者: Sam Lobel, Ronald Parr

机构: 布朗大学 杜克大学

摘要: 我们提出了一个关于模型误差的值预测误差的界限,这个界限是紧密的,包括常数因子。这是对强化学习中基础结果“模拟引理”的直接改进。我们证明现有的界限相当宽松,在大折扣因子下变得无意义,这是由于复合概率误差的次优处理。通过仔细考虑这个数量本身,而不是作为值误差的子组件,我们得到了一个相对于过渡函数误差是次线性的界限。然后我们展示了这种技术的更广泛适用性,改进了相关的分层抽象领域的类似界限。

论文链接: https://arxiv.org/pdf/2406.16249

cs.LG: 集中不等式对于 ( f , Γ ) (f,Γ) (f,Γ)-GANs

原标题: Concentration Inequalities for ( f , Γ ) (f,Γ) (f,Γ)-GANs

作者: Jeremiah Birrell

机构: 得克萨斯州立大学

摘要: 生成对抗网络(GANs)是一种无监督学习方法,用于训练生成器分布,以产生近似于从目标分布中抽取的样本。许多这类方法可以被表述为度量或散度的最小化。最近的研究证明了基于积分概率度量(IPMs)的GAN的统计一致性,例如基于1-Wasserstein度量的WGAN。IPMs通过优化一个线性泛函(期望差)在判别器空间中定义。一个更大类别的GAN可以使用 ( f , Γ ) (f,\Gamma) (f,Γ)-散度来构建,允许使用非线性目标泛函,这些泛函泛化并插值了IPMs和 f f f-散度(如KL或 α \alpha α-散度)。已证明 ( f , Γ ) (f,\Gamma) (f,Γ)-GAN的实例在许多应用中表现出改进的性能。本文研究了一般 f f f Γ \Gamma Γ ( f , Γ ) (f,\Gamma) (f,Γ)-GAN的统计一致性。具体来说,我们推导了有限样本的集中不等式。由于目标泛函的非线性,这些推导需要新的论证。我们证明,我们的新结果在适当的极限下可以归约为IPM-GAN已知结果,同时显著扩展了该理论的适用领域。

论文链接: https://arxiv.org/pdf/2406.16834

cs.LG: 组件间可交换的共形时间序列分解

原标题: Conformal time series decomposition with component-wise exchangeability

作者: Derck W. E. Prinzhorn, Thijmen Nijdam, Putri A. van der Linden, Alexander Timans

机构: 阿姆斯特丹大学

摘要: 确认预测提供了一个实用的框架,用于无分布不确定性量化,在对数据可交换性有相对温和假设的情况下提供有限样本覆盖保证。然而,由于时间序列具有时间相关性,这些假设在时间序列中不再成立。在这项工作中,我们提出了一种新颖的确认预测在时间序列预测中的应用,该方法结合了时间序列分解。这种方法允许我们单独建模不同的时间组成部分。通过将特定的确认算法应用于每个组成部分,然后合并获得的预测区间,我们定制了我们的方法以考虑每个组成部分下不同的可交换性制度。我们基于分解的方法进行了深入讨论,并在合成和真实数据上进行了经验评估。我们发现,该方法在结构良好的时间序列上提供了有前途的结果,但在处理更复杂数据时可能会受到分解步骤等因素的限制。

论文链接: https://arxiv.org/pdf/2406.16766

cs.LG: 机器学习中新兴方法在De Novo PROTAC设计中的综述

原标题: A Comprehensive Review of Emerging Approaches in Machine Learning for De Novo PROTAC Design

作者: Yossra Gharbi, Rocío Mercado

机构: 医学院

摘要: 靶向蛋白质降解(TPD)是现代药物发现中一个快速发展的领域,旨在通过利用细胞固有的降解途径,通过选择性靶向和降解与疾病相关的蛋白质来调节蛋白质的细胞内水平。这种策略为在占位基础抑制剂未能成功的情况下提供了治疗干预的新机会。蛋白质降解融合体(PROTACs)是TPD策略的核心,利用泛素-蛋白酶体系统选择性地靶向和蛋白质溶酶体降解。随着这一领域的发展,传统的设计复杂分子的方法显示出了局限性。这导致使用机器学习(ML)和生成建模来改进和加速开发过程。在这篇综述中,我们探讨了ML对de novo PROTAC设计的影响 - 尽管其重要性很大,但这一分子设计的方面尚未进行全面审查。我们深入研究了PROTAC连接子设计的独特特征,强调了创建能够实现TPD的有效双功能分子所需的复杂性。然后,我们研究了在基于片段的药物设计(FBDD)背景下ML如何为PROTAC连接子设计铺平道路,这在小分子药物发现领域已经得到了磨练。我们的综述对将此方法应用于PROTAC开发复杂领域的局限性进行了关键评估。此外,我们审查了已有的应用于PROTAC设计的ML工作,突出了开拓性努力以及这些研究面临的重要局限性。通过揭示PROTAC开发的当前状态以及ML在PROTAC设计中的重要作用,我们旨在为研究人员在追求更好设计策略的过程中提供有价值的视角。

论文链接: https://arxiv.org/pdf/2406.16681

cs.LG: 测量电子组件的可回收性,以协助自动拆卸和分类废旧印刷电路板

原标题: Measuring the Recyclability of Electronic Components to Assist Automatic Disassembly and Sorting Waste Printed Circuit Boards

作者: Muhammad Mohsin, Xianlai Zeng, Stefano Rovetta, Francesco Masulli

机构: DIBRIS大学 清华大学

摘要: 电子和电气设备的废弃物由于技术产品快速演进和许多信息技术部门的竞争而增加。每年有数百万吨电子废物被丢弃到环境中,对人类健康造成严重后果。因此,利用技术尤其是人工智能控制这种废物流是至关重要的,同时回收关键原材料用于新的生产过程。本文关注利用数学创新模型测量废旧印刷电路板中废弃电子组件(WECs)的可回收性。这种创新方法评估了WECs的可回收性和回收难度,整合了AI模型以改善拆解和分类。评估WPCB上的单个电子组件的可回收性揭示了有价值材料的回收潜力,并指示了在经济价值和生产效用方面回收复杂性的水平。这种新颖的测量方法帮助AI模型准确确定在自动拆解废弃PCB时需识别和分类的类别数量,并促进模型在迭代训练和验证单个电子组件时的应用。

论文链接: https://arxiv.org/pdf/2406.16593

cs.LG: 深度学习预测:超越平均性能的平均性能

原标题: Forecasting with Deep Learning: Beyond Average of Average of Average Performance

作者: Vitor Cerqueira, Luis Roque, Carlos Soares

机构: Faculdade de Engenharia da Universidade do Porto Fraunhofer Portugal AICOS

摘要: 确保可靠预测的关键是准确评估预测模型。目前评估和比较预测模型的常规做法集中在将性能总结为单一得分,使用诸如SMAPE之类的指标。我们假设将所有样本的性能平均化会削弱关于模型相对性能的相关信息,特别是在这种相对性能不同于总体精度的情况下。我们通过提出一个新颖的框架来解决这一局限,用于从多个角度评估单变量时间序列预测模型,例如单步预测和多步预测。我们通过将最先进的深度学习方法与经典预测技术进行比较,展示了这一框架的优势。尽管经典方法(例如ARIMA)是长期以来的预测方法,但深度神经网络(例如NHITS)最近在基准数据集上展示出了最先进的预测性能。我们进行了大量实验,结果显示NHITS通常表现最佳,但其优越性随预测条件的不同而异。例如,在预测时间跨度方面,NHITS仅在多步预测中优于经典方法。另一个相关的见解是,在处理异常情况时,NHITS被Theta等方法超越。这些发现突显了基于方面的模型评估的重要性。

论文链接: https://arxiv.org/pdf/2406.16590

cs.LG: Noisy Neighbors: 高效成员推断攻击对大语言模型

原标题: Noisy Neighbors: Efficient membership inference attacks against LLMs

作者: Filippo Galli, Luca Melis, Tommaso Cucinotta

机构: Scuola Normale Superiore Scuola Superiore Sant’Anna Meta Inc.

摘要: 潜在的基于Transformer的大语言模型由于依赖于广泛的数据集,可能涉及包含敏感信息,存在隐私担忧的风险。像GDPR和CCPA这样的监管措施要求使用强大的审计工具来解决潜在的隐私问题,其中成员推理攻击(MIA)是评估大语言模型隐私风险的主要方法。与传统的MIA方法不同,后者通常需要对额外模型进行计算密集型训练,本文介绍了一种有效的方法,通过在嵌入空间中添加随机噪声生成目标样本的“噪声邻居”,只需要在推断模式下操作目标模型。我们的研究结果表明,这种方法在效果上与使用影子模型相当,显示其在实际隐私审计场景中的可用性。

论文链接: https://arxiv.org/pdf/2406.16565

cs.LG: 改进对干扰的稳健性,使用乘性权重扰动

原标题: Improving robustness to corruptions with multiplicative weight perturbations

作者: Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski

机构: 阿尔托大学 赫尔辛基大学 曼彻斯特大学

摘要: 深度神经网络(DNNs)在干净的图像上表现出色,但在受损图像上表现不佳。将特定的损坏模式纳入数据增强流程可以提高对这些损坏的鲁棒性,但可能会影响对干净图像和其他类型扭曲的性能。本文介绍了一种改进DNNs对各种损坏的鲁棒性而不影响干净图像准确性的替代方法。首先我们展示了输入扰动可以通过权重空间中的乘法扰动来模拟。利用这一点,我们提出了一种名为数据增强乘法扰动(DAMP)的训练方法,通过随机乘法权重扰动优化DNNs。我们还研究了最近提出的自适应锐度感知最小化(ASAM),并展示它在对抗性乘法权重扰动下优化DNNs的能力。在图像分类数据集(CIFAR-10/100、TinyImageNet和ImageNet)以及神经网络架构(ResNet50、ViT-S/16)上的实验表明,DAMP在不同设置下显著增强了模型在损坏存在的情况下的泛化性能。值得注意的是,DAMP能够从头开始训练一个ViT-S/16模型在ImageNet上达到23.7%的top-1错误率,这与没有大量数据增强的ResNet50相当。

论文链接: https://arxiv.org/pdf/2406.16540

cs.LG: 条件贝叶斯积分

原标题: Conditional Bayesian Quadrature

作者: Zonghao Chen, Masha Naslidnyk, Arthur Gretton, François-Xavier Briol

机构: 伦敦大学学院 梅天

摘要: 我们提出了一种新颖的方法来估计在获取样本或评估积分函数成本高昂的情况下的条件或参数期望。通过概率数值方法的框架(如贝叶斯积分),我们的新方法允许整合关于积分函数特别是关于积分函数和条件期望的先验平滑性知识。因此,我们的方法提供了一种量化不确定性的方式,并在贝叶斯敏感性分析、计算金融和在不确定性下的决策制定等具有挑战性的任务中在理论上和经验上得到了快速收敛的确认。

论文链接: https://arxiv.org/pdf/2406.16530

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值