cs.LG: 一致性模型变得简单
原标题: Consistency Models Made Easy
作者: Zhengyang Geng, Ashwini Pokle, William Luo, Justin Lin, J. Zico Kolter
机构: 卡内基梅隆大学 西湖大学
摘要: 一致性模型(CMs)是一类新兴的生成模型,比传统扩散模型具有更快的采样速度。CMs要求采样轨迹上的所有点都映射到同一初始点。但这一目标导致了资源密集型的训练:例如,截至2024年,在8个GPU上训练CIFAR-10的SoTA CM需要一周的时间。在这项工作中,我们提出了一种替代方案来训练CMs,大大提高了构建这种模型的效率。具体来说,通过用特定微分方程表达CM轨迹,我们认为扩散模型可以被视为具有特定离散化的CMs的特例。因此,我们可以从预训练的扩散模型开始微调一致性模型,并在训练过程中逐渐逼近完全一致的条件。我们的结果方法,我们称之为Easy Consistency Tuning(ECT),在大大改善训练时间的同时,确实改进了以前的方法的质量:例如,ECT在单个A100 GPU上在1小时内实现了CIFAR10的2步FID为2.73,与经过数百个GPU小时训练的Consistency Distillation相匹配。由于这种计算效率,我们研究了在ECT下CMs的缩放规律,表明它们似乎遵循经典的幂律缩放,暗示着它们在更大规模上提高效率和性能的能力。代码(此https URL)可供使用。
论文链接: https://arxiv.org/pdf/2406.14548
Github: https://github.com/locuslab/ect
cs.LG: 大语言模型在合成表格数据生成方面天生擅长吗?
原标题: Are LLMs Naturally Good at Synthetic Tabular Data Generation?
作者: Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan
机构: Virginia Tech Stevens Institute of Technology
摘要: 大语言模型(LLMs)已经展示了它们在生成合成文本和图像方面的能力;然而,它们在生成表格数据方面的潜力——可以说是商业和科学应用中最常见的数据类型——尚未得到充分探索。本文证明了LLMs在作为原样使用或传统微调后作为合成表格生成器时的严重不足。由于LLMs的自回归性质,与随机顺序排列的传统微调相反,不利于建模功能依赖性,并使LLMs无法建模条件分布混合(捕捉现实世界约束的关键)。我们展示了如何使LLMs能够克服其中一些不足,通过使它们具备排列感知能力。
论文链接: https://arxiv.org/pdf/2406.14541
cs.LG: 宏观高频交易:基于记忆增强的上下文感知强化学习
原标题: MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading
作者: Chuqiao Zong, Chaojie Wang, Molei Qin, Lei Feng, Xinrun Wang, Bo An
机构: Nanyang Technological University Skywork AI Singapore Singapore University of Technology and Design
摘要: 高频交易(HFT)在短时间内执行算法交易,最近占据了大部分加密货币市场。除了传统的量化交易方法外,强化学习(RL)已成为另一种吸引人的HFT方法,因为它具有处理高维金融数据和解决复杂的顺序决策问题的出色能力,例如,分层强化学习(HRL)通过训练路由器选择一个子代理来执行当前交易,已经展示了其在第二级HFT上的有希望的表现。然而,现有的HFT强化学习方法仍然存在一些缺陷:1)基于标准RL的交易代理受到过度拟合问题的困扰,阻止它们根据金融背景进行有效的策略调整;2)由于市场条件的快速变化,个体代理做出的投资决策通常是片面的和高度偏见的,这可能导致在极端市场中出现重大损失。为了解决这些问题,我们提出了一种新颖的记忆增强上下文感知强化学习方法,称为MacroHFT,在HFT上进行,它由两个训练阶段组成:1)我们首先使用根据各种金融指标分解的市场数据来训练多种类型的子代理,特别是市场趋势和波动性,其中每个代理都拥有一个条件适配器,根据市场条件调整其交易策略;2)然后我们训练一个超级代理来混合这些子代理的决策,并输出一个始终盈利的元策略来处理快速的市场波动,配备了一个记忆机制来增强决策能力。在各种加密货币市场上进行的大量实验表明,MacroHFT可以在分钟级交易任务上实现最先进的性能。
论文链接: https://arxiv.org/pdf/2406.14537
cs.LG: rKAN: 有理科尔莫戈洛夫-阿诺德网络
原标题: rKAN: Rational Kolmogorov-Arnold Networks
作者: Alireza Afzal Aghaei
机构: 独立研究者
摘要: Kolmogorov-Arnold网络(KAN)的发展标志着深度学习中传统多层感知器的重大转变。最初,KAN使用B样条曲线作为其主要基函数,但其固有复杂性带来了实现挑战。因此,研究人员探索了诸如小波、多项式和分数函数等替代基函数。在这项研究中,我们探索了有理函数作为KAN的新型基函数的使用。我们提出了两种不同的方法,基于Pade逼近和有理Jacobi函数作为可训练的基函数,建立了有理KAN(rKAN)。然后,我们评估了rKAN在各种深度学习和物理信息任务中的性能,以证明其在函数逼近中的实用性和有效性。
论文链接: https://arxiv.org/pdf/2406.14495
cs.LG: 使用符合性预测的神经天气模型的有效误差条形图
原标题: Valid Error Bars for Neural Weather Models using Conformal Prediction
作者: Vignesh Gopakumar, Joel Oskarrson, Ander Gray, Lorenzo Zanisi, Stanislas Pamela, Daniel Giles, Matt Kusner, Marc Deisenroth
摘要: 神经天气模型已显示出作为廉价和准确的替代物理模型的巨大潜力。然而,大多数用于天气预报的模型并未量化其预测所带来的不确定性。这限制了对模型的信任度和预测的实用性。在这项工作中,我们构建和形式化一个符合预测框架,作为估计这种不确定性的后处理方法。该方法与模型无关,并为所有变量、前导时间和空间位置提供校准的误差界限。与模型训练相比,不需要对模型进行任何修改,计算成本微不足道。我们在北欧地区的有限区域神经天气模型上展示了符合预测框架的实用性。我们进一步探讨了该框架在确定性和概率模型中的优势。
论文链接: https://arxiv.org/pdf/2406.14483
cs.LG: 朝向数据驱动的研究:使用先前发布的数据和机器学习进行材料挤出表面粗糙度预测的初步研究。
原标题: Toward data-driven research: preliminary study to predict surface roughness in material extrusion using previously published data with Machine Learning
作者: Fátima García-Martínez, Diego Carou, Francisco de Arriba-Pérez, Silvia García-Méndez
摘要: 挤出成型是可用的增材制造过程中最常用的方法之一。尽管它很受欢迎并且相关技术不断进步,但工艺可靠性和质量保证仍然只得到部分解决。特别是,这一过程引起的表面粗糙度是一个关键问题。为了解决这一限制,近年来已经利用实验计划来优化表面粗糙度。然而,后者的经验性试错过程非常耗时和资源消耗大。因此,本研究旨在避免使用大型实验计划来优化挤出成型中的表面粗糙度。
方法。本研究对几个打印参数的影响进行了深入分析:层高、打印温度、打印速度和壁厚。提出的数据驱动预测建模方法利用机器学习模型,根据从文献和实验数据中收集的数据自动预测表面粗糙度。
发现。利用从文献中收集的数据进行的10折交叉验证,提出的机器学习解决方案达到了0.93的相关性,平均绝对百分比误差为13%。在使用我们自己的数据进行测试时,相关性降至0.79,平均绝对百分比误差降至8%。因此,针对挤出成型打印中分析因素的可变性,预测表面粗糙度的解决方案提供了竞争性的结果。独创性。随着可用制造数据每天不断增加,从这些大量数据中学习的能力对未来制造业和科学至关重要。具体来说,机器学习的力量有助于用有限的实验测试模拟表面粗糙度。
论文链接: https://arxiv.org/pdf/2406.14478
cs.LG: 捕捉时间序列分类的时间组件
原标题: Capturing Temporal Components for Time Series Classification
作者: Venkata Ragavendra Vavilthota, Ranjith Ramanathan, Sathyanarayanan N. Aakur
机构: 俄克拉荷马州立大学 奥本大学
摘要: 分析序列数据在许多领域至关重要,特别是由于从物联网范式中收集到的数据的丰富性。时间序列分类,即对序列数据进行分类的任务,已经备受关注,机器学习方法在公共基准数据集上表现出了显著的性能。然而,进展主要是在设计用于从原始数据中学习表示的体系结构上,这些数据在固定(或理想)的时间尺度上可能无法推广到更长的序列。本研究介绍了一种基于从序列数据中提取的统计连贯组件训练的\textit{组合表示学习}方法。基于多尺度变化空间,提出了一种无监督方法,将序列数据分割成具有相似统计特性的块。基于多任务设置训练了一个基于序列的编码器模型,从这些时间组件中学习组合表示以进行时间序列分类。我们通过对公开可用的时间序列分类基准进行了大量实验证明了其有效性。评估分段组件的连贯性显示了其在无监督分割任务上的竞争性能。
论文链接: https://arxiv.org/pdf/2406.14456
cs.LG: 维护要求:为智能家居更新和扩展引导式人体活动识别系统
原标题: Maintenance Required: Updating and Extending Bootstrapped Human Activity Recognition Systems for Smart Homes
作者: Shruthi K. Hiremath, Thomas Ploetz
机构: Georgia Institute of Technology
摘要: 开发智能家居的人体活动识别(HAR)系统并不简单,因为家庭的布局和个性化设置各不相同,居民的行为也各有差异。因此,现成的HAR系统在个别家庭中的效果有限,而且通常需要从零开始开发,这需要大量的工作量,对居民来说也是负担。先前的工作已成功地针对了初始阶段。在这个初始阶段的最后,我们确定了种子点。我们在引导式HAR系统的基础上进行改进,并引入了一种有效的更新和扩展过程,以持续改进HAR系统,以适应不断变化的生活环境。我们的方法利用了在初始引导阶段末尾确定的种子点。使用这些种子点和相应的标签训练了对比学习框架。然后,利用这个模型来提高识别出的突出活动的分割准确性。通过这个过程改进的活动识别系统有助于对智能家居中的大多数日常活动进行建模。我们通过对CASAS数据集的实验证明了我们方法的有效性,展示了我们方法的实际价值。
论文链接: https://arxiv.org/pdf/2406.14446
cs.LG: 通过压缩误差反馈实现通信高效的垂直联邦学习
原标题: Communication-efficient Vertical Federated Learning via Compressed Error Feedback
作者: Pedro Valdeira, João Xavier, Cláudia Soares, Yuejie Chi
机构: CMU IST NOVA
摘要: 通信开销是联邦学习中已知的瓶颈。为了解决这个问题,在训练期间,通常会对服务器和客户端之间通信的信息进行有损压缩。在水平联邦学习中,每个客户端持有样本的子集,这种通信压缩训练方法最近取得了显著进展。然而,在其垂直联邦学习对应物中,每个客户端持有特征的子集,我们的理解仍然有限。为了解决这个问题,我们提出了一种错误反馈压缩垂直联邦学习(EFVFL)方法来训练分裂神经网络。与先前的垂直联邦学习通信压缩方法不同,EFVFL不需要梯度范数的消失压缩误差,以使平滑非凸问题的收敛速度为零。通过利用误差反馈,我们的方法可以在全批次情况下实现 O ( 1 / T ) \mathcal{O}(1/T) O(1/T)的收敛速度,改进了最先进的 O ( 1 / T ) \mathcal{O}(1/\sqrt{T}) O(1/T)压缩误差下的收敛速度,并与未压缩方法的速度相匹配。此外,当目标函数满足Polyak-Łojasiewicz不等式时,我们的方法可以线性收敛。除了提高收敛速度外,我们的方法还支持使用私有标签。数值实验表明,EFVFL显著改进了先前的方法,验证了我们的理论结果。
论文链接: https://arxiv.org/pdf/2406.14420
cs.LG: 预测错误概率以结合量化和早期退出:QuEE
原标题: Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE
作者: Florence Regol, Joud Chataoui, Bertrand Charpentier, Mark Coates, Pablo Piantanida, Stephan Gunnemann
机构: 麦吉尔大学 技术大学慕尼黑 École de technologie supérieure
摘要: 机器学习模型可以解决复杂的任务,但在推理过程中通常需要大量的计算资源。这导致了各种后训练计算减少方法的发展,以不同的方式解决这个问题,例如量化(quantization),它减少了权重和算术操作的精度,以及动态网络(dynamic networks),它根据手头的样本调整计算。在这项工作中,我们提出了一种更通用的动态网络,可以同时结合量化和早期退出动态网络:QuEE。我们的算法可以看作是一种软性早期退出或输入相关的压缩形式。与退出或继续之间的二进制决策不同,我们引入了以减少计算为继续的可能性。这使得传统上考虑的早期退出问题变得复杂,我们通过一个有原则的公式解决了这个问题。我们方法的关键因素是准确预测通过进一步计算可以实现的潜在准确性改进。我们通过实证评估证明了我们方法的有效性,并探索了其在4个分类数据集上成功的条件。
论文链接: https://arxiv.org/pdf/2406.14404
cs.LG: 天气5K:一份面向全球气象站的大规模天气数据集,旨在建立全面的时间序列预测基准。
原标题: WEATHER-5K: A Large-scale Global Station Weather Dataset Towards Comprehensive Time-series Forecasting Benchmark
作者: Tao Han, Song Guo, Zhenghao Chen, Wanghan Xu, Lei Bai
机构: HKUST 上海人工智能实验室 The University of Sydney
摘要: 全球站点天气预报(GSWF)对各个领域至关重要,包括航空、农业、能源和灾害准备。深度学习的最新进展通过优化基于公共气象数据的模型,显著提高了天气预测的准确性。然而,目前用于 GSWF 优化和基准测试的现有公共数据集仍然存在显著局限,如规模较小、时间覆盖有限以及缺乏全面的变量。这些缺点阻碍了它们有效地反映当前预测方法的基准,并未能支持操作性天气预报的真实需求。为了解决这些挑战,我们提出了 WEATHER-5K 数据集。该数据集包括来自全球 5,672 个气象站的数据,跨越 10 年,间隔为一小时。它包含多个关键的天气要素,为预测提供了更可靠和可解释的资源。此外,我们的 WEATHER-5K 数据集可以作为一个基准,全面评估现有知名预测模型,不仅限于 GSWF 方法,还支持未来时间序列研究挑战和机遇。该数据集和基准实现可在以下网址公开获取:https://这里是网址。
论文链接: https://arxiv.org/pdf/2406.14399
Github: https://github.com/taohan10200/WEATHER-5K
cs.LG: 主动扩散子采样
原标题: Active Diffusion Subsampling
作者: Oisin Nolan, Tristan S. W. Stevens, Wessel L. van Nierop, Ruud J. G. van Sloun
机构: 恩菲霍芬科技大学
摘要: 子采样通常用于减轻与数据采集相关的成本,例如时间或能量要求,促进了开发算法以从部分观测到的测量 y y y 估计感兴趣的完全采样信号 x x x。在最大熵采样中,选择预计具有最高熵的测量位置,以最小化关于 x x x 的不确定性。这种方法依赖于关于未来测量的后验分布的准确模型,给定迄今为止观察到的测量。最近,已经证明扩散模型使用引导扩散可以产生高质量的高维信号后验样本。在这项工作中,我们提出了一种名为主动扩散子采样(ADS)的方法,该方法使用引导扩散执行主动子采样,其中模型在整个反向扩散过程中跟踪对 x x x 的真实状态的信念分布,通过选择具有最大预期熵的测量逐渐减少其不确定性,并最终生成后验分布 p ( x ∣ y ) p(x | y) p(x∣y)。ADS 可以使用预训练的扩散模型应用于任何子采样率,并且不需要任务特定的重新训练 - 只需要指定测量模型。此外,ADS 使用的最大熵采样策略是可解释的,相对于使用黑盒策略的现有方法增强了透明度。在实验上,我们展示了 ADS 优于固定采样策略,并研究了 ADS 在使用 fastMRI 数据集的磁共振成像加速中的应用,发现 ADS 与监督方法具有竞争力。代码可在此 https URL 中获得。
论文链接: https://arxiv.org/pdf/2406.14388
Github: https://active-diffusion-subsampling.github.io/
cs.LG: 你能相信你的解释吗?一种针对特征归因方法的鲁棒性测试。
原标题: Can you trust your explanations? A robustness test for feature attribution methods
作者: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
机构: University of Trieste The Abdus Salam International Center for Theoretical Physics (ICTP) Assicurazioni Generali Spa
摘要: 最近,立法对人工智能(AI)的使用提出了越来越多的关注,这导致了一系列旨在实现更透明、可信赖和负责任的人工智能的法规。随着这些提案的出台,可解释人工智能(XAI)领域也迅速发展,但其技术的使用有时会导致意想不到的结果。事实上,方法的鲁棒性是经常被忽视的关键属性:有必要评估解释的稳定性(对随机和敌对扰动),以确保结果是可信赖的。为此,我们提出了一种测试来评估对非敌对扰动的鲁棒性,并提出了一种集成方法,以更深入地分析应用于神经网络和表格数据集的可解释人工智能方法的鲁棒性。我们将展示如何利用流形假设和集成方法有助于深入分析鲁棒性。
论文链接: https://arxiv.org/pdf/2406.14349
cs.LG: HoTPP基准:我们在长期事件预测方面做得好吗?
原标题: HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting?
作者: Ivan Karpukhin, Foma Shipilov, Andrey Savchenko
机构: Sber AI Lab Skoltech
摘要: 在顺序事件预测中,这在金融、零售、社交网络和医疗保健等领域都有应用,一个关键任务是在指定的时间范围内预测多个未来事件。传统上,这是通过使用下一个事件预测模型(如标记的时间点过程)进行自回归生成来解决的。然而,自回归方法使用自己的输出进行未来预测,随着预测时间范围的延长,可能会降低质量。在本文中,我们通过引入一个新的基准HoTPP来挑战传统方法,该基准专门设计用于评估模型在预测时间范围内事件序列的能力。这个基准采用了计算机视觉中目标检测启发的新指标,解决了评估具有不精确时间步预测的模型的现有指标的局限性。我们在使用各种模型的已建立数据集上的评估表明,下一个事件预测的高准确性并不一定转化为更优越的时间范围预测,反之亦然。HoTPP旨在成为开发更健壮的事件序列预测方法的有价值工具,最终为该领域的进一步发展铺平道路。
论文链接: https://arxiv.org/pdf/2406.14341
cs.LG: 自适应对抗性交叉熵损失用于锐度感知最小化
原标题: Adaptive Adversarial Cross-Entropy Loss for Sharpness-Aware Minimization
作者: Tanapat Ratchatorn, Masayuki Tanaka
机构: 东京科学研究所
摘要: 最近学习算法的进展表明,损失曲面的锐度是改善泛化差距的有效度量。在此概念的基础上,提出了锐度感知最小化(SAM)来增强模型的泛化性能,并取得了最先进的性能。SAM由两个主要步骤组成,即权重扰动步骤和权重更新步骤。然而,在SAM中,扰动仅由训练损失或交叉熵损失的梯度确定。随着模型接近稳定点,这个梯度变小并且振荡,导致不一致的扰动方向,并且也有可能减小梯度。我们的研究引入了一种创新方法来进一步增强模型的泛化性能。我们提出了自适应对抗交叉熵(AACE)损失函数来替换SAM的扰动标准交叉熵损失。AACE损失及其梯度随着模型接近收敛而独特地增加,确保一致的扰动方向并解决梯度减小问题。此外,提出了一种新颖的扰动生成函数,利用AACE损失而不进行归一化,增强模型在接近最优阶段的探索能力。经验测试证实了AACE的有效性,实验表明在使用Wide ResNet和PyramidNet处理各种数据集的图像分类任务中,性能得到了改善。复现代码可在网上获得。
论文链接: https://arxiv.org/pdf/2406.14329
cs.LG: 在机器学习训练和推理中的能源消耗的实证研究:在限制内进行计算
原标题: Computing Within Limits: An Empirical Study of Energy Consumption in ML Training and Inference
作者: Ioannis Mavromatis, Kostas Katsaros, Aftab Khan
机构: Digital Catapult, Bristol Research & Innovation Laboratory, Toshiba Europe Ltd.
摘要: 机器学习(ML)已经取得了巨大的进展,但其环境足迹仍然是一个问题。本文认识到 ML 的不断增长的环境影响,研究了绿色 ML,研究了训练和推理阶段中的各种模型架构和超参数,以确定节能实践。我们的研究利用基于软件的功率测量,以便在不同的配置、模型和数据集之间进行易于复制的研究。在本文中,我们检查了多个模型和硬件配置,以确定各种测量和指标之间的相关性以及能源减少的关键贡献者。我们的分析提供了构建可持续的 ML 操作的实用指南,强调节能和碳足迹的减少,同时保持性能。如所确定的,短期的分析可以量化长期预期的能源消耗。此外,模型参数也可以用于准确估计预期总能量,而无需进行广泛的实验。
论文链接: https://arxiv.org/pdf/2406.14328
cs.LG: aeon:一个用于从时间序列中学习的Python工具包。
原标题: aeon: a Python toolkit for learning from time series
作者: Matthew Middlehurst, Ali Ismail-Fawaz, Antoine Guillaume, Christopher Holder, David Guijo Rubio, Guzal Bulatova, Leonidas Tsaprounis, Lukasz Mentel, Martin Walter, Patrick Schäfer, Anthony Bagnall
机构: 南安普顿大学 英国
摘要: aeon是一个统一的Python 3库,用于涉及时间序列的所有机器学习任务。该包含有用于时间序列预测、分类、外部回归和聚类的模块,以及专为时间序列数据设计的各种实用程序、转换和距离度量。aeon还具有许多用于异常检测、相似性搜索和分割等任务的实验模块。aeon尽可能地遵循scikit-learn API,以帮助新用户并实现aeon估计器与有用工具(如模型选择和管道)的轻松集成。它提供了广泛的时间序列算法库,包括最新研究成果的高效实现。使用可选依赖项系统,aeon将各种软件包集成到单个接口中,同时保持核心框架的最小依赖关系。该软件包在3-Clause BSD许可下分发,并可在此https URL aeon-toolkit/aeon获得。此版本于2023年11月2日提交给JMLR期刊的aeon v0.5.0。在此预印本发布时,aeon已发布v0.9.0,并进行了重大更改。
论文链接: https://arxiv.org/pdf/2406.14231
Github: https://github.com/aeon-toolkit/aeon
cs.LG: 通过注意力导向的度量揭示强化学习智能体的学习过程
原标题: Revealing the learning process in reinforcement learning agents through attention-oriented metrics
作者: Charlotte Beylier, Simon M. Hofmann, Nico Scherf
机构: 德国马克斯·普朗克人类认知和脑科学研究所 德国莱比锡大学
摘要: 强化学习(RL)智能体的学习过程除了其学习算法的数学公式外,仍然存在着不足的理解。为了填补这一空白,我们引入了注意力导向度量(ATOMs)来研究 RL 智能体在训练过程中的注意力发展。我们在三个不同的 Pong 游戏变体上测试了 ATOMs,每个变体都旨在教授智能体不同的行为,并辅以行为评估。我们的研究结果表明,ATOMs 成功地描绘了在每个游戏变体上训练的智能体的注意力模式,而这些注意力模式的差异转化为了智能体行为的差异。通过在训练过程中持续监控 ATOMs,我们观察到智能体的注意力发展呈阶段性,并且这些阶段在不同游戏中是一致的。最后,我们注意到智能体对其球拍的注意力相对较晚地出现,并且与其性能得分的显著增加相一致。总的来说,我们认为 ATOMs 可以显著增强我们对 RL 智能体学习过程的理解,这对于提高它们的可靠性和效率至关重要。
论文链接: https://arxiv.org/pdf/2406.14324
cs.LG: 使用基于强化学习的聚合方法在联邦学习中防御复杂的毒化攻击
原标题: Defending Against Sophisticated Poisoning Attacks with RL-based Aggregation in Federated Learning
作者: Yujing Wang, Hainan Zhang, Sijia Wen, Wangjie Qiu, Binghui Guo
机构: 北航未来区块链与隐私计算人工智能学院
北京区块链与边缘计算研究院
摘要: 联邦学习对模型中毒攻击特别容易受到影响,尤其是那些针对服务器精心制作的攻击。传统的防御方法主要集中在更新评估或者针对手工制作的短视攻击进行强大的聚合。当面对高级攻击时,它们的防御稳定性明显不足。因此,迫切需要开发针对这种高级中毒攻击的自适应防御方法。我们发现,在计算机视觉和自然语言处理任务中,良性客户端在联邦学习中表现出的数据分布稳定性明显高于恶意客户端。因此,可以通过观察数据分布的稳定性来识别恶意客户端。在本文中,我们提出了一种基于强化学习的自适应聚合方法AdaAggRL,以抵御复杂的中毒攻击。具体来说,我们首先利用分布学习来模拟客户端的数据分布。然后,我们使用最大均值差异(MMD)来计算当前本地模型数据分布、其历史数据分布和全局模型数据分布之间的成对相似性。最后,我们使用策略学习来根据上述相似性自适应确定聚合权重。对四个真实世界数据集的实验表明,所提出的防御模型在应对复杂攻击方面明显优于广泛采用的防御模型。
论文链接: https://arxiv.org/pdf/2406.14217
cs.LG: LayerMatch: 伪标签对所有层都有益吗?
原标题: LayerMatch: Do Pseudo-labels Benefit All Layers?
作者: Chaoqi Liang, Guanglei Yang, Lifeng Qiao, Zitong Huang, Hongliang Yan, Yunchao Wei, Wangmeng Zuo
机构: 哈尔滨工业大学 上海人工智能实验室 上海交通大学 北京交通大学
摘要: 深度神经网络在提供大规模标记数据的情况下,在各种任务上取得了显著的性能。然而,收集标记数据可能耗时且劳动密集。半监督学习(SSL),特别是通过伪标签算法迭代地为自我训练分配伪标签,为减轻对标记数据的依赖提供了一个有希望的解决方案。以往的研究通常在所有模型层上应用统一的伪标签策略,假设伪标签在整个模型中具有统一的影响力。与此相反,我们的理论分析和实证实验证明,特征提取层和线性分类层对伪标签具有不同的学习行为。基于这些见解,我们开发了两种特定于层的伪标签策略,称为Grad-ReLU和Avg-Clustering。Grad-ReLU通过消除线性分类层中伪标签的梯度有害影响,减轻了噪声伪标签的影响。Avg-Clustering通过整合一致的输出,加速了特征提取层向稳定聚类中心的收敛。我们的方法LayerMatch集成了这两种策略,可以避免线性分类层中噪声伪标签的严重干扰,同时加速特征提取层的聚类能力。通过广泛的实验,我们的方法在标准半监督学习基准上始终表现出卓越的性能,相比基线方法提高了10.38%,相比最先进的方法提高了2.44%。
论文链接: https://arxiv.org/pdf/2406.14207
cs.LG: 潜在的。功能映射
原标题: Latent. Functional Map
作者: Marco Fumero, Marco Pegoraro, Valentino Maiorca, Francesco Locatello, Emanuele Rodolà
机构: Institute of Science and Technology Austria ISTA
Sapienza, University of Rome
摘要: 神经模型学习的数据表示位于低维流形上,然而建模这些表示空间之间的关系仍然是一个持续的挑战。通过将谱几何原理融入神经建模中,我们展示了在功能域中可以更好地解决这个问题,减少复杂性,同时提高解释性和下游任务的性能。为此,我们向表示学习社区引入了一个多用途框架,它可以:(i)以可解释的方式比较不同的空间并测量它们的内在相似性;(ii)在无监督和弱监督设置下找到它们之间的对应关系;(iii)在不同的空间之间有效地传递表示。我们在各种应用中验证了我们的框架,从拼接到检索任务,证明潜在的功能映射可以作为表示对齐的瑞士军刀。
论文链接: https://arxiv.org/pdf/2406.14183
cs.LG: 从专家演示中进行自适应网格生成的迭代尺寸场预测
原标题: Iterative Sizing Field Prediction for Adaptive Mesh Generation From Expert Demonstrations
作者: Niklas Freymuth, Philipp Dahlinger, Tobias Würth, Philipp Becker, Aleksandar Taranovic, Onno Grönheim, Luise Kärger, Gerhard Neumann
摘要: 许多工程系统需要对复杂物理系统进行准确的模拟。然而,对于简单问题,只有解析解可用,因此需要数值近似方法,如有限元法(FEM)。FEM的成本和准确性与基础计算网格的分辨率成比例。为了平衡计算速度和准确性,使用具有自适应分辨率的网格,将更多资源分配给几何体的关键部分。目前,从业者通常采用手工制作的网格,这需要广泛的专业知识,因此成本较高。我们的方法,Adaptive Meshing By Expert Reconstruction(AMBER),将网格生成视为一种模仿学习问题。AMBER将图神经网络与在线数据采集方案相结合,预测给定中间网格上专家网格的投影尺寸场,从而创建出更准确的后续网格。这个迭代过程确保在推理过程中对任意新几何体进行高效准确地模仿专家网格分辨率。我们在启发式2D网格和由人类专家提供的3D网格上对AMBER进行了实验验证,结果与提供的演示相匹配,并优于单步CNN基线。
论文链接: https://arxiv.org/pdf/2406.14161
cs.LG: 肉:中位数集成对抗训练以提高鲁棒性和泛化能力
原标题: MEAT: Median-Ensemble Adversarial Training for Improving Robustness and Generalization
作者: Zhaozhe Hu, Jia-Li Yin, Bin Chen, Luojun Lin, Bo-Hao Chen, Ximeng Liu
机构: 福建省信息安全与网络系统重点实验室、福州大学计算机科学与大数据学院、元智大学计算机科学与工程系
摘要: 自我集成对抗训练方法通过在不同的训练时期集成模型(例如模型权重平均化)来提高模型的鲁棒性。然而,先前的研究表明,在对抗训练中,自我集成防御方法仍然存在鲁棒过拟合问题,严重影响了泛化性能。经验上,在训练的后期阶段,对抗训练变得更加过拟合,以至于用于权重平均化的个体也遭受过拟合并产生异常的权重值,这导致自我集成模型继续经历鲁棒过拟合,因为无法去除权重异常。为了解决这个问题,我们旨在解决权重空间中异常值的影响,并提出了一种易于操作且有效的中位数集成对抗训练(MEAT)方法,以解决自我集成防御中存在的鲁棒过拟合现象,通过寻找历史模型权重的中位数。实验结果表明,MEAT在面对强大的AutoAttack时具有最佳的鲁棒性,并能有效缓解鲁棒过拟合问题。我们进一步证明,大多数防御方法与MEAT结合可以提高鲁棒泛化性能和鲁棒性。
论文链接: https://arxiv.org/pdf/2406.14259
cs.LG: 多模态转移学习在生物基础模型之间的应用
原标题: Multi-modal Transfer Learning between Biological Foundation Models
作者: Juan Jose Garau-Luis, Patrick Bordes, Liam Gonzalez, Masa Roller, Bernardo P. de Almeida, Lorenz Hexemer, Christopher Blum, Stefan Laurent, Jan Grzegorzewski, Maren Lang, Thomas Pierrot, Guillaume Richard
机构: InstaDeep BioNTech
摘要: 生物序列以DNA、RNA和蛋白质的形式编码了生命的基本构建指令。对这些序列进行建模对于理解疾病机制非常重要,并且是计算生物学中的一个活跃研究领域。最近,大型语言模型在解决某些生物学任务方面显示出了巨大的潜力,但目前的方法仅限于单一序列模态(DNA、RNA或蛋白质)。基因组学中的关键问题本质上涉及多个模态,但如何将通用序列模型适应于这些情况尚不清楚。在这项工作中,我们提出了一种多模态模型,通过利用来自不同预训练模态特定编码器的信息来连接DNA、RNA和蛋白质。我们通过将其应用于预测多个RNA转录本异构体如何起源于同一基因(即相同的DNA序列)并在各种人类组织中映射到不同的转录表达水平这一基本未解决问题,展示了其能力。我们展示了我们的模型(名为IsoFormer)能够准确预测差异转录表达,优于现有方法,并利用多个模态的使用。我们的框架还实现了从编码器的预训练中以及模态之间的有效知识传递。我们开源了我们的模型,为新的多模态基因表达方法铺平了道路。
论文链接: https://arxiv.org/pdf/2406.14150
cs.LG: FLoCoRA: 低秩适应的联邦学习压缩
原标题: FLoCoRA: Federated learning compression with low-rank adaptation
作者: Lucas Grativol Ribeiro (IMT Atlantique - MEE, Lab_STICC_BRAIn, Lab-STICC_2AI, LHC), Mathieu Leonardon (IMT Atlantique - MEE, Lab_STICC_BRAIn), Guillaume Muller (Mines Saint-Étienne MSE, FAYOL-ENSMSE, FAYOL-ENSMSE), Virginie Fresse (LHC, TSE), Matthieu Arzel (IMT Atlantique - MEE, Lab-STICC_2AI)
机构: IMT Atlantique
摘要: 低秩适应(LoRA)方法在包含数百亿参数的模型的高效参数微调中变得流行。然而,在这项工作中,我们展示了LoRA方法在从头开始训练小视觉模型的联邦学习(FL)中的应用。我们首先提出了一种聚合不可知的方法,将LoRA集成到FL中,命名为FLoCoRA,表明该方法能够将通信成本降低4.8倍,同时对于使用ResNet-8进行CIFAR-10分类任务时,准确率降低不到1%。接下来,我们展示了相同的方法可以通过仿射量化方案进行扩展,将通信成本降低18.6倍,并与标准方法进行比较,仍然准确率损失不到1%,在ResNet-18模型上进行测试。我们的公式表示了一种强大的基线,用于减小消息大小,即使与传统的模型压缩工作相比,也能减少训练内存需求,这是由于低秩适应。
论文链接: https://arxiv.org/pdf/2406.14082
cs.LG: 城市聚焦的多任务离线强化学习与对比数据共享
原标题: Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing
作者: Xinbo Zhao, Yingxue Zhang, Xin Zhang, Yu Yang, Yiqun Xie, Yanhua Li, Jun Luo
机构: Binghamton University San Diego State University Lehigh University University of Maryland, College Park Worcester Polytechnic Institute Logistics and Supply Chain MultiTech R&D Centre
摘要: 在城市环境中增强多样化的人类决策过程是各种应用的关键问题,包括拼车车辆调度、公共交通管理和自动驾驶。离线强化学习(RL)是一种有前途的方法,可以从预先收集的人类生成的时空城市数据中学习和优化人类城市策略(或政策)。然而,标准的离线RL面临两个重大挑战:(1)数据稀缺性和数据异质性,以及(2)分布偏移。在本文中,我们介绍了MODA - 一种具有对比数据共享的多任务离线强化学习方法。MODA通过任务之间的对比数据共享来解决多任务城市环境中的数据稀缺性和异质性挑战。该技术涉及通过对比正负数据对来提取人类行为的潜在表示。然后,它与目标任务共享具有相似表示的数据,为每个任务提供数据增强。此外,MODA开发了一种新颖的基于模型的多任务离线RL算法。该算法通过将动力学模型与生成对抗网络(GAN)集成,构建了一个稳健的马尔可夫决策过程(MDP)。一旦建立了稳健的MDP,就可以应用任何在线RL或规划算法。在真实的多任务城市环境中进行的大量实验证实了MODA的有效性。结果表明,MODA相比最先进的基线算法有显著改进,展示了其在推进城市决策过程方面的能力。我们还将我们的代码提供给研究界。
论文链接: https://arxiv.org/pdf/2406.14054
cs.LG: 受限元元不可知强化学习
原标题: Constrained Meta Agnostic Reinforcement Learning
作者: Karam Daaboul, Florian Kuhm, Tim Joseph, J. Marius Zoellner
机构: KIT Karlsruhe Institute of Technology FZI Research Center for Information Technology
摘要: 元强化学习(Meta-RL)旨在获取元知识以快速适应各种任务。然而,在真实环境中应用这些策略在平衡快速适应性和遵守环境约束方面存在重大挑战。我们的新方法,约束模型不可知元学习(C-MAML),将元学习与受限优化相结合,以解决这一挑战。C-MAML通过在训练阶段将任务特定的约束直接纳入其元算法框架中,实现了快速高效的任务适应。这种融合结果为学习新任务提供了更安全的初始参数。我们在模拟的轮式机器人任务中展示了C-MAML的有效性,突出了它在动态环境中的实用性和鲁棒性。
论文链接: https://arxiv.org/pdf/2406.14047
cs.LG: 不要等待:在电子商务中学习重新排序模型,无需在服务时使用用户反馈
原标题: Do Not Wait: Learning Re-Ranking Model Without User Feedback At Serving Time in E-Commerce
作者: Yuan Wang, Zhiyu Li, Changshuo Zhang, Sirui Chen, Xiao Zhang, Jun Xu, Quan Lin
机构: 阿里巴巴集团 人民大学中国 信息学院
摘要: 推荐系统已被广泛应用于电子商务领域,重新排序模型在该领域中发挥着日益重要的作用,利用商品间的相互影响力并确定最终的推荐列表。在线学习方法通过使用最新的可用样本来更新已部署的模型,以捕捉电子商务中基础数据分布的变化。然而,它们依赖于真实用户反馈的可用性,这可能会因物品购买等原因而延迟数小时甚至数天,导致模型改进的滞后。在本文中,我们提出了一种新颖的在线学习方法的扩展,用于重新排序建模,我们将其称为LAST,即Learning At Serving Time的缩写。它通过使用替代模型来提供指导模型改进所需的指示信号,从而避免了对用户反馈的要求。在收到在线请求后,LAST会在生成请求的推荐结果之前动态找到并应用模型修改。修改是针对请求特定的临时性的,这意味着修改是为了捕捉请求的特定上下文而量身定制的。在请求之后,修改将被丢弃,这有助于防止错误传播并稳定在线学习过程,因为替代模型的预测可能不准确。最重要的是,作为基于反馈的在线学习方法的补充,LAST可以无缝集成到现有的在线学习系统中,以创建更具适应性和响应性的推荐体验。全面的离线和在线实验证实,LAST优于最先进的重新排序模型。
论文链接: https://arxiv.org/pdf/2406.14004
cs.LG: CohortNet:赋能可解释的医疗保健分析的队列发现
原标题: CohortNet: Empowering Cohort Discovery for Interpretable Healthcare Analytics
作者: Qingpeng Cai, Kaiping Zheng, H.V. Jagadish, Beng Chin Ooi, James Yip
机构: 国立新加坡大学 密歇根大学 新加坡国立大学医疗系统
摘要: 队列研究在医疗保健分析领域具有重要意义。然而,现有方法通常涉及手动、劳动密集型和专家驱动的模式定义,或者依赖于缺乏医学相关性的简单聚类技术。自动化队列研究与可解释模式具有巨大潜力,可以促进医疗保健分析,但在先前的研究工作中仍存在未满足的需求。在本文中,我们提出了一种队列自动发现模型CohortNet,用于可解释的医疗保健分析,重点是对具有医学意义模式的队列进行有效识别、表示和利用。CohortNet首先通过分别处理每个特征来学习细粒度的患者表示,考虑每个时间步骤的个体特征趋势和特征交互。随后,它将每个特征分类为不同的状态,并采用启发式队列探索策略,有效地发现具有具体模式的大量队列。对于每个确定的队列,它通过相关患者检索学习可靠证据的综合队列表示。最终,给定一个新的患者,CohortNet可以利用具有显著重要性的相关队列,从而更全面地理解患者的状况。在三个真实数据集上的大量实验证明,它始终优于最先进的方法,并以自上而下的方式提供可解释的多角度见解。
论文链接: https://arxiv.org/pdf/2406.14015
cs.LG: 通过使用储备计算从时间序列中无监督提取缓慢变化的系统参数动态,预测未观测到的分叉。
原标题: Prediction of Unobserved Bifurcation by Unsupervised Extraction of Slowly Time-Varying System Parameter Dynamics from Time Series Using Reservoir Computing
作者: Keita Tokuda, Yuichi Katori
机构: Juntendo University Future University Hakodate
摘要: 非线性和非平稳过程在各种自然和物理现象中普遍存在,系统动力学由于分岔现象而可能发生定性变化。传统的机器学习方法已经提高了我们从观测到的时间序列数据中学习和预测这些系统的能力。然而,在没有真实参数值知识的情况下预测具有时间参数变化的系统行为仍然是一个重大挑战。本研究利用储备计算框架通过无监督地从时间序列数据中提取缓慢变化的系统参数来解决这个问题。我们提出了一个模型架构,包括一个具有长时间尺度内部动态的缓慢储备和一个具有短时间尺度动态的快速储备。缓慢储备提取系统参数的时间变化,然后用于预测快速动态中的未知分岔。通过使用混沌动力系统生成的数据进行实验,我们展示了预测训练数据中不存在的分岔的能力。我们的方法在神经科学、材料科学和天气预测等领域具有潜在应用,其中影响定性变化的缓慢动态通常是不可观测的。
论文链接: https://arxiv.org/pdf/2406.13995
cs.LG: 随机配对最大似然估计用于估计Rasch模型中的项目参数
原标题: Random pairing MLE for estimation of item parameters in Rasch model
作者: Yuepeng Yang, Cong Ma
机构: 芝加哥大学
摘要: Rasch模型是项目反应理论中的经典模型,广泛应用于心理测量学中,用于建模个体的潜在特质与其在评估或问卷调查中的二元响应之间的关系。在本文中,我们介绍了一种新的基于似然的估计方法——随机配对最大似然估计器(RP-MLE)及其自助法变体多重随机配对MLE(MRP-MLE),这些估计器能够忠实地估计Rasch模型中的项目参数。与现有方法相比,这些新的估计器具有几个吸引人的特点。首先,两者都适用于稀疏观测,这在大数据时代中越来越重要。其次,两个估计器在有限样本下的 ℓ ∞ \ell_{\infty} ℓ∞估计误差方面都是可证明的最小最优估计。最后,RP-MLE具有精确的分布特征,可以对项目参数进行不确定性量化,例如构建项目参数的置信区间。RP-MLE和MRP-MLE的主要思想是随机配对用户-项目响应以形成项目-项目比较。这样精心设计的方法可以减小问题规模同时保持统计独立性。我们还提供了使用模拟数据和真实数据对这两个新估计器的有效性的实证证据。
论文链接: https://arxiv.org/pdf/2406.13989
cs.LG: 基于SSA优化的ResNet50-BiGRU模型的图像异常检测和预测方案
原标题: Image anomaly detection and prediction scheme based on SSA optimized ResNet50-BiGRU model
作者: Qianhui Wan, Zecheng Zhang, Liheng Jiang, Zhaoqi Wang, Yan Zhou
机构: 加利福尼亚大学戴维斯分校 数学系
摘要: 图像异常检测是一个热门的研究方向,由于计算能力的快速发展,近年来出现了许多方法。利用人工智能进行图像异常检测已经得到广泛研究。通过分析运动员姿势和动作的图像,可以预测受伤状态并提出必要的调整建议。大多数现有方法依赖于卷积网络从无关的像素数据中提取信息,限制了模型的准确性。本文介绍了一种结合残差网络(ResNet)和双向门控循环单元(BiGRU)的网络,通过分析视频图像中肌肉和骨骼姿势的变化,可以预测潜在的受伤类型并提供早期警告。为了解决这个网络的高复杂性,使用了Sparrow搜索算法进行优化。在四个数据集上进行的实验证明,与其他模型相比,我们的模型在图像异常检测中具有最小的误差,显示出强大的适应性。这为图像异常检测和预测分析提供了一种新的方法,有助于人类健康和表现的可持续发展。
论文链接: https://arxiv.org/pdf/2406.13987
cs.LG: 减少基于磁盘的GNN训练中的内存争用和I/O拥塞
原标题: Reducing Memory Contention and I/O Congestion for Disk-based GNN Training
作者: Qisheng Jiang, Lei Jia, Chundong Wang
机构: 上海科技大学
摘要: 图神经网络(GNNs)变得非常流行。具有高维特征的大型图变得常见,并且在普通计算机上训练GNNs是非常困难的。给定一个庞大的图,即使是基于样本的GNN训练也无法高效工作,因为在训练过程中很难将整个图的数据保留在内存中。利用固态硬盘(SSD)或其他存储设备扩展内存空间已经在训练GNNs方面进行了研究。因此,内存和I/O对于有效的基于磁盘的训练至关重要。我们发现,最先进的基于磁盘的GNN训练系统严重受到问题的困扰,例如图的拓扑和特征数据之间的内存争用,以及从SSD加载数据进行训练时的严重I/O拥塞。因此,我们开发了GNNDrive。GNNDrive通过全面的缓冲区管理来最小化内存占用,包括采样和提取,并通过异步特征提取策略避免I/O拥塞。它还避免了关键路径上的昂贵数据准备,并充分利用软件和硬件资源。实验证明,GNNDrive实现了卓越的性能。例如,使用Papers100M数据集和GraphSAGE模型进行训练时,GNNDrive的速度分别比SoTA PyG+、Ginex和MariusGNN快16.9倍、2.6倍和2.7倍。
论文链接: https://arxiv.org/pdf/2406.13984
cs.LG: 基于知识驱动的子空间融合和梯度协调的多模态学习
原标题: Knowledge-driven Subspace Fusion and Gradient Coordination for Multi-modal Learning
作者: Yupei Zhang, Xiaofei Wang, Fangliangzi Meng, Jin Tang, Chao Li
机构: 香港大学 剑桥大学 同济大学 浙江实验室 邓迪大学
摘要: 多模态学习在癌症诊断和预后中发挥着至关重要的作用。当前基于深度学习的多模态方法通常受限于其建模基因组学和组织学数据之间复杂相关性的能力,解决了肿瘤生态系统的内在复杂性,其中肿瘤和微环境都对恶性有所贡献。我们提出了一个具有生物学解释性和稳健的多模态学习框架,通过分解组织学图像和基因组的特征子空间来有效地整合组织学图像和基因组,反映出不同的肿瘤和微环境特征。为了增强跨模态交互,我们设计了一个知识驱动的子空间融合方案,包括跨模态可变形注意模块和基因引导的一致性策略。此外,在动态优化子空间知识的追求中,我们进一步提出了一种新颖的梯度协调学习策略。大量实验证明了所提方法的有效性,在胶质瘤诊断、肿瘤分级和生存分析的三个下游任务中优于最先进的技术。我们的代码可在此 https URL 上找到。
论文链接: https://arxiv.org/pdf/2406.13979
Github: https://github.com/helenypzhang/Subspace-Multimodal-Learning
cs.LG: 迁移学习中最小范数插值器的泛化误差
原标题: Generalization error of min-norm interpolators in transfer learning
作者: Yanke Song, Sohom Bhattacharya, Pragya Sur
机构: 哈佛大学, 佛罗里达大学
摘要: 本文在可用于转移学习的多样分布数据中,建立了汇聚最小- ℓ 2 \ell_2 ℓ2-范数插值的泛化误差。最小范数插值器自然地成为现代机器学习算法的隐式正则化极限。先前的工作在训练期间无法获得来自测试分布的样本时,表征了它们的超出分布风险。然而,在许多应用中,训练期间可能只有有限数量的测试数据,但在这种情况下,最小范数插值的性质尚不清楚。我们通过表征协变量和模型转移下汇聚最小- ℓ 2 \ell_2 ℓ2-范数插值的偏差和方差来填补这一空白。汇聚插值器同时捕捉了早期融合和一种中间融合形式。我们的结果有几个含义:在模型转移下,对于低信噪比(SNR),增加数据总是有害的。对于较高的SNR,只要转移信号(SSR)比例低于我们明确表征的阈值,转移学习就会有所帮助。通过持续估计这些比例,我们提供了一种数据驱动的方法来确定:(i) 汇聚插值器何时优于基于目标的插值器,以及 (ii) 最小化泛化误差的最佳目标样本数量。在协变量转移下,如果源样本大小相对于维度较小,域之间的异质性会改善风险,反之亦然。我们建立了一种新颖的各向异性局部定律来实现这些表征,这可能在随机矩阵理论中具有独立的兴趣。我们通过全面的模拟补充了我们的理论表征,证明了我们结果的有限样本效果。
论文链接: https://arxiv.org/pdf/2406.13944
cs.LG: 通信高效的自适应批量大小策略用于分布式局部梯度方法
原标题: Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods
作者: Tim Tsz-Kit Lau, Weijian Li, Chenwei Xu, Han Liu, Mladen Kolar
摘要: 现代深度神经网络通常需要使用许多工作节点进行分布式训练,因为它们的规模很大。随着工作节点数量的增加,通信开销成为每次迭代梯度同步的数据并行小批量随机梯度方法中的主要瓶颈。本地梯度方法(如本地SGD)通过仅在几个本地步骤之后进行同步来减少通信。尽管我们理解了它们在独立同分布和异构设置中的收敛性,并且知道批量大小对效率和泛化的重要性,但确定最佳的本地批量大小是困难的。我们引入了适应性批量大小策略,用于本地梯度方法,通过自适应地增加批量大小来减少小批量梯度的方差。我们在同质数据条件下提供了收敛性保证,并通过图像分类实验支持我们的论断,展示了我们的策略在训练和泛化中的有效性。
论文链接: https://arxiv.org/pdf/2406.13936
cs.LG: 贝叶斯逆强化学习用于非马尔可夫奖励
原标题: Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards
作者: Noah Topper, Alvaro Velasquez, George Atia
摘要: 逆强化学习(IRL)是从专家行为中推断奖励函数的问题。有几种方法可以用于IRL,但大多数都设计用于学习马尔可夫奖励。然而,奖励函数可能是非马尔可夫的,取决于不仅仅是当前状态,例如奖励机器(RM)。尽管最近有关于推断RM的工作,但它假设可以访问奖励信号,在IRL中是不存在的。我们提出了一种贝叶斯IRL(BIRL)框架,用于直接从专家行为中推断RM,需要对标准框架进行重大改变。我们定义了一个新的奖励空间,调整了专家演示以包括历史信息,展示了如何计算奖励后验概率,并提出了一种新颖的修改模拟退火算法以最大化这个后验概率。我们证明了我们的方法在根据推断的奖励进行优化时表现良好,并与一种仅学习二进制非马尔可夫奖励的现有方法进行了比较。
论文链接: https://arxiv.org/pdf/2406.13991
cs.LG: 试图复制 PATE-GAN 的难以捉摸的追求:基准测试、审计、调试
原标题: The Elusive Pursuit of Replicating PATE-GAN: Benchmarking, Auditing, Debugging
作者: Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro
机构: 伦敦大学学院 加州大学河滨分校
摘要: 差分隐私(DP)生成模型创建的合成数据越来越多地在实际环境中使用。在这种情况下,PATE-GAN已成为一种流行的算法,它将生成对抗网络(GANs)与PATE(教师集成的私有聚合)的私有训练方法相结合。在本文中,我们分析和基准测试了六种开源的PATE-GAN实现,包括三种是由原始作者的子集创建的。首先,我们揭示了架构偏差,并经验性地证明没有一种复制了原始论文中报告的实用性能。然后,我们进行了深入的隐私评估,包括差分隐私审计,结果显示所有实现泄露的隐私都超出了预期,并揭示了17个隐私违规和5个其他错误。我们的代码库可以从以下网址获得:https://…
论文链接: https://arxiv.org/pdf/2406.13985
Github: https://github.com/spalabucr/pategan-audit
cs.LG: 复杂的分形可训练性边界可以由微不凸性引起。
原标题: Complex fractal trainability boundary can arise from trivial non-convexity
作者: Yizhou Liu
机构: MIT Department of Physics MIT Department of Mechanical Engineering
摘要: 训练神经网络涉及优化参数以最小化损失函数,损失函数的性质和优化策略对于有效训练至关重要。超参数选择,如梯度下降中的学习率,显著影响收敛的成功和速度。最近的研究表明,有界和发散超参数之间的边界可能是分形的,这使得可靠的超参数选择变得复杂。然而,这种分形边界的性质和避免它的方法仍然不清楚。在这项研究中,我们专注于梯度下降,研究可能导致分形可训练性边界的损失函数性质。我们发现,分形边界可以从简单的非凸扰动中出现,即将余弦型扰动添加或乘以二次函数。观察到的分形维度受参数维度、非凸性类型、扰动波长和扰动幅度等因素的影响。我们的分析确定了“扰动的粗糙度”,它衡量了梯度对参数变化的敏感性,作为控制可训练性边界分形维度的因素。我们观察到,随着粗糙度的增加,从非分形到分形的可训练性边界发生明显的转变,关键的粗糙度导致扰动的损失函数非凸。因此,我们得出结论,分形可训练性边界可以从非常简单的非凸性中产生。我们预计我们的发现将增强对神经网络训练过程中复杂行为的理解,从而导致更一致和可预测的训练策略。
论文链接: https://arxiv.org/pdf/2406.13971
cs.LG: 交通事故分析与预测的最新进展:机器学习技术的综合回顾
原标题: Recent Advances in Traffic Accident Analysis and Prediction: A Comprehensive Review of Machine Learning Techniques
作者: Noushin Behboudi, Sobhan Moosavi, Rajiv Ramnath
机构: 乔治梅森大学、俄亥俄州立大学
摘要: 交通事故是一个严重的全球公共健康问题,每年导致119万人死亡,对5至29岁的个体影响最大。本文通过对近五年来应用机器学习(ML)技术进行交通事故分析和预测的最新进展进行全面回顾,以解决道路安全领域对先进预测方法的迫切需求。研究了191项研究,重点是预测事故风险、频率、严重程度、持续时间以及事故数据的一般统计分析。据我们所知,这项研究是首次提供如此全面的回顾,涵盖了与事故分析和预测相关的广泛领域的最新技术。该回顾强调了整合多样化数据源和先进的ML技术以提高预测准确性和处理交通数据复杂性的有效性。通过绘制当前研究现状并确定文献中的空白,本研究旨在指导未来研究,以在2030年之前显著减少与交通相关的死亡和伤害,与世界卫生组织(WHO)的目标保持一致。
论文链接: https://arxiv.org/pdf/2406.13968
cs.LG: 潜变量的因果推断:最新进展和未来展望
原标题: Causal Inference with Latent Variables: Recent Advances and Future Prospectives
作者: Yaochen Zhu, Yinhan He, Jing Ma, Mengxuan Hu, Sheng Li, Jundong Li
机构: University of Virginia Case Western Reserve University
摘要: 因果关系奠定了我们世界的轨迹。因果推断(CI)旨在推断感兴趣变量之间的内在因果关系,已成为一个关键的研究课题。然而,对重要变量(例如混淆因素、中介变量、外生变量等)的观察缺失严重损害了CI方法的可靠性。这个问题可能源于测量变量的固有困难。此外,在观察研究中,变量是被动记录的,实验者可能会无意中忽略某些协变量。根据未观察变量的类型和具体的CI任务,如果这些潜在变量处理不当,可能会导致各种后果,如因果效应估计的偏差、对因果机制的不完全理解、缺乏个体层面的因果考虑等。在本调查中,我们全面回顾了最近在具有潜在变量的CI中的发展。我们首先讨论了在假设感兴趣变量完全观察的情况下的传统CI技术。然后,在规避和基于推断的方法分类下,我们深入讨论了各种处理潜在变量的CI策略,涵盖因果效应估计、中介分析、反事实推理和因果发现等任务。此外,我们将讨论推广到可能存在单位间干扰的图数据。最后,我们提供了关于CI与潜在变量进一步发展的新方面,特别是在大语言模型(LLMs)时代的新机遇。
论文链接: https://arxiv.org/pdf/2406.13966
cs.LG: 等变离线强化学习
原标题: Equivariant Offline Reinforcement Learning
作者: Arsh Tangri, Ondrej Biza, Dian Wang, David Klee, Owen Howell, Robert Platt
机构: 东北大学计算机科学学院 电气与计算机工程系
摘要: 样本效率在应用基于学习的方法进行机器人操作时至关重要,这是因为收集专家演示的成本很高,而通过在线强化学习(RL)进行机器人策略学习也面临着挑战。离线RL通过使用任何行为策略收集的离线数据集来实现策略学习,无论其质量如何,从而解决了这个问题。然而,最近离线RL的进展主要集中在从大型数据集中学习。鉴于许多机器人操作任务可以被形式化为旋转对称问题,我们研究了在有限数量的演示情况下使用 S O ( 2 ) SO(2) SO(2)-等变神经网络进行离线RL的方法。我们的实验结果表明,等变版本的保守Q-Learning(CQL)和隐式Q-Learning(IQL)优于它们的非等变对应物。我们提供了实证证据,证明等变性如何改进低数据情况下的离线学习算法。
论文链接: https://arxiv.org/pdf/2406.13961
cs.LG: 通过预测扩散模型合成多模态电子健康记录
原标题: Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models
作者: Yuan Zhong, Xiaochen Wang, Jiaqi Wang, Xiaokun Zhang, Yaqing Wang, Mengdi Huai, Cao Xiao, Fenglong Ma
机构: The Pennsylvania State University Dalian University of Technology Purdue University Iowa State University GE Healthcare
摘要: 合成电子健康记录(EHR)数据已成为解决数据稀缺、改善数据质量和在医疗保健中建模公平性的首选策略。然而,现有的EHR数据生成方法主要依赖于生成对抗网络、变分自动编码器和语言模型等最先进的生成技术。这些方法通常复制输入访问,导致对访问之间的时间依赖关系建模不足,并忽视了时间信息的生成,这是EHR数据中的一个关键要素。此外,由于简单的线性映射函数,它们学习访问表示的能力受到限制,从而损害了生成质量。为了解决这些限制,我们提出了一种新颖的EHR数据生成模型,称为EHRPD。它是一个基于扩散的模型,旨在根据当前访问预测下一个访问,同时还包括时间间隔估计。为了提高生成质量和多样性,我们引入了一种新颖的时间感知访问嵌入模块和一种开创性的预测去噪扩散概率模型(PDDPM)。此外,我们设计了一个预测U-Net(PU-Net)来优化P-DDPM。我们在两个公共数据集上进行实验,并从保真度、隐私性和实用性的角度评估了EHRPD。实验结果证明了所提出的EHRPD在解决上述限制和推进EHR数据生成方面的功效和实用性。
论文链接: https://arxiv.org/pdf/2406.13942
cs.LG: 软 QMIX:将最大熵集成到单调值函数分解中
原标题: Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization
作者: Wentse Chen, Shiyu Huang, Jeff Schneider
机构: 卡内基梅隆大学 Zhipu AI
摘要: 多智能体强化学习(MARL)任务通常使用集中式训练与分散式执行(CTDE)框架。QMIX是一种成功的CTDE方法,它通过学习信用分配函数从全局价值函数中推导出局部价值函数,定义了确定性的局部策略。然而,QMIX的探索策略较差。虽然最大熵强化学习(RL)通过随机策略促进更好的探索,但QMIX的信用分配过程与最大熵目标和分散式执行要求冲突,使其不适用于最大熵RL。在本文中,我们提出了一种改进QMIX的方法,将额外的局部Q值学习方法纳入最大熵RL框架中。我们的方法约束局部Q值估计以保持所有动作的正确排序。由于QMIX值函数的单调性,这些更新确保局部最优动作与全局最优动作一致。我们在理论上证明了我们方法的单调改进和收敛性到最优解。在实验中,我们在矩阵游戏、多智能体粒子环境和SMAC-v2中验证了我们的算法,并展示了最先进的性能。
论文链接: https://arxiv.org/pdf/2406.13930
cs.LG: 在Banach空间之间的全纯算子的最优深度学习
原标题: Optimal deep learning of holomorphic operators between Banach spaces
作者: Ben Adcock, Nick Dexter, Sebastian Moraga
机构: Simon Fraser University Florida State University
摘要: 运算符学习问题在科学计算的许多关键领域中出现,其中使用偏微分方程(PDEs)来建模物理系统。在这种情况下,运算符映射在Banach空间或Hilbert空间之间。在这项工作中,我们解决了学习Banach空间之间的运算符的问题,与过去绝大多数只考虑Hilbert空间的工作形成对比。我们专注于学习全纯运算符 - 这是一个具有许多应用的重要问题类别。我们将任意近似编码器和解码器与标准的前馈深度神经网络(DNN)架构相结合 - 具体来说,是那些具有超过深度的常数宽度 - 在标准的 ℓ 2 \ell^2 ℓ2-损失最小化下。我们首先确定了一类DNN,使得由此产生的深度学习(DL)过程对于这类运算符实现了最优的泛化界限。对于标准的全连接架构,我们还展示了训练问题存在无穷多个最小化器,可以产生等效的最优性能。我们考虑的DNN架构是“问题不可知的”,宽度和深度仅取决于训练数据量 m m m,而不取决于目标运算符的正则性假设。接下来,我们证明了DL对于这个问题是最优的:没有恢复过程可以超过这些泛化界限,除了对数项。最后,我们提供了数值结果,展示了在具有挑战性的问题上的实际性能,包括参数扩散、Navier-Stokes-Brinkman和Boussinesq PDEs。
论文链接: https://arxiv.org/pdf/2406.13928
cs.LG: 可解释的人工智能安全:探索图神经网络对对抗攻击的鲁棒性
原标题: Explainable AI Security: Exploring Robustness of Graph Neural Networks to Adversarial Attacks
作者: Tao Wu, Canyixing Cui, Xingping Xian, Shaojie Qiao, Chao Wang, Lin Yuan, Shui Yu
摘要: 图神经网络(GNNs)取得了巨大的成功,但最近的研究表明,GNNs容易受到对抗性攻击,这在安全关键场景中显著阻碍了它们的使用。因此,设计强健的GNNs引起了越来越多的关注。然而,现有的研究主要是通过实验的试错方法进行的,迄今为止,对GNNs的脆弱性缺乏全面的理解。为了解决这个限制,我们通过考虑图数据模式、模型特定因素和对抗性示例的可转移性,系统地研究了GNNs的对抗性鲁棒性。通过大量的实验,得到了一套有原则的指导方针,用于改善GNNs的对抗性鲁棒性,例如:(i)与高度规则的图不同,训练具有多样化结构模式的图数据对模型的鲁棒性至关重要,这与对抗性训练的概念一致;(ii)具有足够训练数据的GNNs的大模型容量对模型的鲁棒性有积极影响,只有很小比例的GNNs神经元受到对抗性攻击的影响;(iii)对抗性转移不对称,小容量模型产生的对抗性示例具有更强的对抗性转移性。这项工作揭示了GNNs的脆弱性,并为设计强健的GNNs开辟了许多有前景的途径。
论文链接: https://arxiv.org/pdf/2406.13920
cs.LG: 揭示潜在记忆:评估大型语言模型中的数据泄漏和记忆模式
原标题: Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Large Language Models
作者: Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete
机构: MIT Stanford University
摘要: 大语言模型的普及已经彻底改变了自然语言处理任务,但同时也引发了关于数据隐私和安全的深刻担忧。语言模型是在包括潜在敏感或专有信息在内的大量语料上进行训练的,而数据泄露的风险——即模型的响应揭示了这些信息的片段——仍然没有得到充分的理解。本研究通过量化机器学习模型中记忆现象来考察数据泄露的易感性,重点关注训练过程中记忆模式的演变。我们研究了训练数据的统计特征如何影响模型内部编码的记忆,通过评估重复对记忆的影响来进行分析。我们重现了一个发现,即记忆一个序列的概率与其在数据中出现的次数呈对数比例。此外,我们发现,即使在第一次遇到后没有明显记忆的序列,在训练过程中也可以逐渐被揭示出来,而无需后续的遇到。这些潜在记忆序列的存在对于数据隐私构成了挑战,因为它们可能隐藏在模型的最终检查点中。为此,我们通过考虑交叉熵损失开发了一种诊断测试方法,以揭示这些潜在的记忆序列。
论文链接: https://arxiv.org/pdf/2406.14549
cs.LG: 超越乐观主义:部分可观测奖励的探索
原标题: Beyond Optimism: Exploration With Partially Observable Rewards
作者: Simone Parisi, Alireza Kazemipour, Michael Bowling
机构: 阿尔伯塔大学; Amii
摘要: 强化学习中的探索仍然是一个开放的挑战。强化学习算法依赖于观察奖励来训练智能体,如果信息性奖励很少,智能体学习缓慢或可能根本不学习。为了改善探索和奖励发现,流行的算法依赖于乐观主义。但是,如果有时奖励是不可观测的,例如,在赌博机的部分监控和最近的监控马尔可夫决策过程的形式化情况下,乐观主义可能会导致次优行为,不会进一步探索以消除不确定性。本文提出了一种新的探索策略,克服了现有方法的局限性,并保证在奖励不总是可观测时收敛到最优策略。我们进一步提出了一组表格环境,用于在强化学习中进行探索基准测试(有和没有不可观测的奖励),并展示了我们的方法优于现有方法。
论文链接: https://arxiv.org/pdf/2406.13909
cs.LG: 可转移的玻尔兹曼生成器
原标题: Transferable Boltzmann Generators
作者: Leon Klein, Frank Noé
机构: Freie Universität Berlin Microsoft Research AI4Science Rice University
摘要: 生成分子系统的平衡样本一直是统计物理学中的一个长期问题。Boltzmann生成器是一种生成式机器学习方法,通过学习从简单的先验分布到目标Boltzmann分布的归一化流的转换来解决这个问题。最近,流匹配已被用于训练笛卡尔坐标下小分子系统的Boltzmann生成器。我们扩展了这项工作,并提出了一个首个框架,用于在化学空间中可转移的Boltzmann生成器,使其能够预测未经重新训练的测试分子的零样本Boltzmann分布。这些可转移的Boltzmann生成器允许对未见系统的目标分布进行近似采样,以及对目标Boltzmann分布进行高效重新加权。我们在二肽上评估了所提出框架的可转移性,结果表明它能够有效地推广到未见系统。此外,我们还证明了我们提出的架构提高了在单个分子系统上训练的Boltzmann生成器的效率。
论文链接: https://arxiv.org/pdf/2406.14426
cs.LG: CascadeServe: 解锁模型级联用于推理服务
原标题: CascadeServe: Unlocking Model Cascades for Inference Serving
作者: Ferdi Kossmann, Ziniu Wu, Alex Turk, Nesime Tatbul, Lei Cao, Samuel Madden
机构: 麻省理工学院 Intel 亚利桑那大学
摘要: 机器学习(ML)模型越来越多地被部署到生产环境中,这要求高效的推理服务系统。高效的推理服务面临两个挑战:(一)ML模型产生高计算成本,(二)实际应用的请求到达率经常出现频繁、高强度和突然的变化,这使得正确配置硬件变得困难。模型级联被用来解决这两个挑战,因为它们既能节省工作量又能保持准确性,并且能够在工作量和准确性之间提供高分辨率的权衡,从而允许对请求到达率进行精细调整。尽管模型级联具有潜力,但尚未在在线服务系统中使用。这带来了一系列挑战,包括工作负载适应、模型复制到硬件、推理调度、请求批处理等。在这项工作中,我们提出了CascadeServe,它可以自动化和优化端到端的级联推理服务。CascadeServe分为离线和在线两个阶段。在离线阶段,系统预先计算出一个指导在线推理服务的计划。在在线阶段,这个计划使系统能够在对查询负载进行近乎最优的调整时提供推理服务,并且决策开销可以忽略不计。我们发现,与不同工作负载上的最先进基线相比,CascadeServe在延迟-准确性空间的广泛范围内节省了2-3倍的成本。
论文链接: https://arxiv.org/pdf/2406.14424
cs.LG: 矢量化表示梦想者(VRD):梦想辅助的多智能体运动预测
原标题: Vectorized Representation Dreamer (VRD): Dreaming-Assisted Multi-Agent Motion-Forecasting
作者: Hunter Schofield, Hamidreza Mirkhani, Mohammed Elmahgiubi, Kasra Rezaee, Jinjun Shan
机构: 华为技术加拿大诺亚方舟实验室 约克大学
摘要: 为了使自动驾驶车辆能够在其环境中规划路径,它必须能够准确预测其附近所有动态物体的轨迹。虽然许多传统方法对场景中的观测进行编码以解决这个问题,但很少有方法考虑自车行为对世界未来状态的影响。在本文中,我们介绍了VRD,这是一种受向量化世界模型启发的多智能体运动预测问题的方法。我们的方法将传统的开环训练制度与一种新颖的梦想闭环训练管道相结合,利用运动重构任务来想象所有智能体的轨迹,条件是自车的行为。我们在Argoverse 2多世界预测评估数据集和交叉路口无人机(inD)数据集上进行了定量和定性实验,以展示我们提出的模型的性能。我们的模型在Argoverse 2数据集的单次预测漏报率指标上实现了最先进的性能,并在单次预测位移指标上与领先模型表现相当。
论文链接: https://arxiv.org/pdf/2406.14415
cs.LG: 估计推荐干扰下的治疗效果:一种结构化神经网络方法
原标题: Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach
作者: Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang
机构: 香港科技大学 腾讯公司 斯坦福大学 宾夕法尼亚大学
摘要: 推荐系统对于内容分享平台来说是必不可少的,通过策划个性化内容来进行推荐。为了评估针对内容创作者的推荐系统更新,平台经常进行创作者方面的随机实验,以估计处理效应,即在平台上部署新算法(相对于现状)时产生的结果差异。我们发现,标准的均值差估计器可能导致处理效应估计的偏差。这种偏差是由于推荐干扰引起的,当处理组和对照组创作者通过推荐系统竞争曝光时会发生推荐干扰。我们提出了一个“推荐选择模型”,该模型捕捉了在包含处理组和对照组内容项目的池中选择项目的方式。通过将结构选择模型与神经网络相结合,该框架以微观基础的方式直接建模推荐干扰路径,同时考虑了丰富的观众-内容异质性。使用该模型,我们构建了一个一致且渐近正态的处理效应的双重/无偏估计器。我们通过在微信短视频平台上进行一项实地实验来展示其实证性能:除了标准的创作者方面实验外,我们还进行了一项昂贵的双面随机化设计,以获得没有干扰偏差的基准估计。我们展示了与标准的均值差估计器相比,所提出的估计器显著减少了处理效应估计中的偏差。
论文链接: https://arxiv.org/pdf/2406.14380
cs.LG: ∇ 2 \nabla^2 ∇2DFT:一个用于药物类分子的通用量子化学数据集和神经网络势能的基准
原标题: ∇ 2 \nabla^2 ∇2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
作者: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
机构: 莫斯科国际高等商学院 瑞士洛桑联邦理工学院 圣彼得堡国立大学 俄罗斯科学院可信人工智能研究中心 斯捷克洛夫数学研究所
摘要: 计算量子化学的方法提供了对于计算辅助药物发现和化学科学其他领域至关重要的分子性质的准确近似。然而,高计算复杂性限制了它们应用的可扩展性。神经网络势(NNPs)是量子化学方法的一个有希望的替代方案,但是它们需要大量且多样化的数据集进行训练。本研究提出了一个基于nablaDFT的新数据集和基准测试,称为 ∇ 2 \nabla^2 ∇2DFT。它包含两倍于以往的分子结构,三倍于以往的构象,新的数据类型和任务,以及最先进的模型。该数据集包括能量、力、17个分子性质、哈密顿和重叠矩阵,以及一个波函数对象。所有计算都在每个构象的DFT水平( ω \omega ωB97X-D/def2-SVP)上进行。此外, ∇ 2 \nabla^2 ∇2DFT是第一个包含大量类似药物分子弛豫轨迹的数据集。我们还引入了一个用于评估NNPs在分子性质预测、哈密顿预测和构象优化任务中的新型基准测试。最后,我们提出了一个可扩展的NNP训练框架,并在其中实现了10个模型。
论文链接: https://arxiv.org/pdf/2406.14347
cs.LG: 学习率自适应随机梯度下降优化方法:深度学习偏微分方程数值模拟和收敛分析
原标题: Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses
作者: Steffen Dereich, Arnulf Jentzen, Adrian Riekert
机构: University of Münster 中国香港中文大学深圳研究院 大数据学院
摘要: 众所周知,标准的随机梯度下降(SGD)优化方法以及加速和自适应的SGD优化方法(如Adam优化器)在学习率不趋近于零时(例如,在学习率恒定的情况下)无法收敛。数值模拟通常使用人工调整的确定性学习率计划或小的恒定学习率。机器学习实现框架(如TensorFlow和Pytorch)中SGD优化方法的默认学习率计划是恒定学习率。在这项工作中,我们提出并研究了一种基于经验估计的学习率自适应方法,该方法根据所考虑的优化问题(即要最小化的目标函数)的值进行学习率调整。特别地,我们提出了Adam优化器的学习率自适应变体,并在几个神经网络学习问题中实现了它,特别是在深度学习逼近偏微分方程的方法(如深度Kolmogorov方法、物理信息神经网络和深度Ritz方法)的背景下。在每个提出的学习问题中,学习率自适应变体的Adam优化器比具有默认学习率的Adam优化器更快地减小了目标函数的值。对于一类简单的二次最小化问题,我们还严格证明了学习率自适应变体的SGD优化方法收敛到所考虑最小化问题的最小值。我们的收敛证明基于对SGD方法的不变测度定律的分析,以及我们在这项工作中开发的具有随机但可预测的学习率的SGD的更一般的收敛分析。
论文链接: https://arxiv.org/pdf/2406.14340
cs.LG: 机器学习研究中的可重复性:概述、障碍和驱动因素
原标题: Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers
作者: Harald Semmelrock, Tony Ross-Hellauer, Simone Kopeinik, Dieter Theiler, Armin Haberl, Stefan Thalmann, Dominik Kowald
机构: Know-Center GmbH Graz Austria Graz University of Technology Graz Austria University of Graz Graz Austria
摘要: 目前各个领域的研究都面临着结果可重复性的挑战,机器学习(ML)研究也不例外。这个问题主要是由于未发布的数据和/或源代码以及ML训练条件的敏感性而引起的。虽然已经提出了不同的解决方案来解决这个问题,例如使用ML平台,但ML驱动的研究的可重复性水平仍然不令人满意。因此,在本文中,我们讨论了ML驱动的研究的可重复性,并有三个主要目标:(i)在应用ML进行研究时识别可重复性的障碍,并将这些障碍分类为不同类型的可重复性(描述、代码、数据和实验可重复性),(ii)识别支持ML可重复性的潜在驱动因素,如工具、实践和干预措施,并区分技术驱动因素、程序驱动因素和与意识和教育相关的驱动因素,(iii)将驱动因素与障碍进行对应。通过这项工作,我们希望为支持ML可重复性的不同解决方案的采用提供见解并做出贡献。
论文链接: https://arxiv.org/pdf/2406.14325
cs.LG: 利用空间嵌入统计的新兴属性映射:EMUSES
原标题: Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES
作者: Chris Foulon, Marcela Ovando-Tellez, Lia Talozzi, Maurizio Corbetta, Anna Matsulevits, Michel Thiebaut de Schotten
摘要: 理解复杂现象通常需要分析高维数据,以揭示由多因素相互作用产生的新兴特性。在这里,我们提出了EMUSES(利用空间嵌入统计的新兴特性映射),这是一种创新方法,利用统一流形逼近和投影(UMAP)创建高维嵌入,揭示数据中的潜在结构。EMUSES通过统计分析这些潜在空间,促进了对新兴特性的探索和预测。我们使用三个不同的数据集–来自国家标准与技术研究所(NIST)的手写数字数据集(E. Alpaydin,1998年),芝加哥人脸数据库(Ma等,2015年)和中风后的脑部断连数据(Talozzi等,2023年)–展示了EMUSES在检测和解释新兴特性方面的有效性。我们的方法不仅能够高精度地预测结果,还能够清晰地可视化和统计分析数据中的潜在相互作用。通过弥合预测准确性和可解释性之间的差距,EMUSES为研究人员提供了一个理解复杂现象多因素起源的强大工具。
论文链接: https://arxiv.org/pdf/2406.14309
cs.LG: 菲斯塔:基于傅里叶变换的语义增强与不确定性引导,以提高医学图像分割的领域通用性
原标题: FIESTA: Fourier-Based Semantic Augmentation with Uncertainty Guidance for Enhanced Domain Generalizability in Medical Image Segmentation
作者: Kwanseok Oh, Eunjin Jeon, Da-Woon Heo, Yooseung Shin, Heung-Il Suk
摘要: 单源领域泛化(SDG)在医学图像分割(MIS)中旨在使用仅来自一个源领域的数据来泛化模型,以对来自未见目标领域的数据进行分割。尽管在SDG中使用数据增强取得了实质性进展,但现有方法通常未能充分考虑MIS中普遍存在的细节和不确定区域,导致错误分割。本文提出了一种基于傅立叶的语义增强方法,称为FIESTA,利用不确定性指导来增强MIS在SDG环境中的基本目标,通过操纵频域中的振幅和相位分量。所提出的傅立叶增强变换器解决了基于有意义的角点进行语义振幅调制,以引发相关变化,并利用相位谱确保结构一致性。此外,FIESTA利用认知不确定性来微调增强过程,提高模型适应多样增强数据的能力,并集中于具有更高歧义性的区域。在三个跨领域场景下的大量实验表明,FIESTA在分割性能上超过了最近的最先进的SDG方法,并显著有助于提升模型在医学成像模态中的适用性。
论文链接: https://arxiv.org/pdf/2406.14308
cs.LG: 无线网络控制系统中基于尾部控制的资源优化
原标题: Resource Optimization for Tail-Based Control in Wireless Networked Control Systems
作者: Rasika Vijithasena, Rafaela Scaciota, Mehdi Bennis, Sumudu Samarakoon
机构: 芬兰奥卢大学
摘要: 实现控制稳定性是可扩展无线网络控制系统(WNCS)在有限通信和计算资源下的关键设计挑战之一。本文探讨了一种称为基于尾部控制的替代控制概念,它扩展了多个动态控制系统在共享无线网络上的经典线性二次调节器(LQR)成本函数。我们将多个控制系统的控制视为网络范围内的优化问题,并将其分解为传感器调度、植物状态预测和控制策略。为此,我们提出了一种解决方案,包括基于李亚普诺夫优化的传感器调度算法、基于高斯过程回归(GPR)的状态预测和不确定性估计机制,以及基于强化学习(RL)的控制策略,以确保基于尾部的控制稳定性。使用一组离散时不变的山车控制系统来评估所提出的解决方案,并与使用最先进的调度、预测和控制方法的四个变体进行比较。实验结果表明,与最先进的方法相比,所提出的方法在通信和控制资源利用方面的总成本减少了22%。
论文链接: https://arxiv.org/pdf/2406.14301
cs.LG: 非小细胞肺癌的分割:介绍DRU-Net和多镜头畸变
原标题: Segmentation of Non-Small Cell Lung Carcinomas: Introducing DRU-Net and Multi-Lens Distortion
作者: Soroush Oskouei, Marit Valla, André Pedersen, Erik Smistad, Vibeke Grotnes Dale, Maren Høibø, Sissel Gyrid Freim Wahl, Mats Dehli Haugum, Thomas Langø, Maria Paula Ramnefjell, Lars Andreas Akslen, Gabriel Kiss, Hanne Sorger
机构: 挪威科技大学(NTNU)
摘要: 考虑到病理学实验室的工作量增加,人工智能模型等自动化工具可以帮助病理学家完成任务并减轻工作负担。本文提出了一种分割模型(DRU-Net),可以提供人类非小细胞肺癌的划分,并提出了一种可以改善分类结果的增强方法。所提出的模型是截断的预训练DenseNet201和ResNet101V2的融合组合,作为一个基于补丁的分类器,后跟一个轻量级的U-Net作为细化模型。我们使用了两个数据集(挪威肺癌生物库和豪克兰大学医院肺癌队列)来创建我们的模型。DRU-Net模型达到了平均0.91的Dice相似系数。所提出的空间增强方法(多镜头畸变)将网络性能提高了3%。我们的研究结果表明,选择特定包含感兴趣区域的图像补丁,相对于其他采样方法,可以更好地为基于补丁的分类器提供更好的结果。定性分析表明,DRU-Net模型通常能够成功检测肿瘤。在测试集中,一些病例在周边显示了假阳性和假阴性分割区域,特别是在具有炎症和反应性变化的肿瘤中。
论文链接: https://arxiv.org/pdf/2406.14287
cs.LG: 学习发现知识:一种弱监督的部分领域适应方法
原标题: Learning to Discover Knowledge: A Weakly-Supervised Partial Domain Adaptation Approach
作者: Mengcheng Lan, Min Meng, Jun Yu, Jigang Wu
摘要: 领域自适应通过利用具有丰富注释的源域的知识,展现出了令人满意的性能。然而,对于特定的目标任务,收集相关且高质量的源域数据是很麻烦的。在现实场景中,容易收集到带有嘈杂标签的大规模数据集,这刺激了在广义设置下对自动识别的巨大需求,即弱监督部分领域自适应(WS-PDA),它将分类器从带有标签噪声的大型源域转移到小型未标记的目标域。因此,WS-PDA 的关键问题是:1)如何充分发现嘈杂标记源域和未标记目标域的知识,以及 2)如何成功地跨域适应知识。在本文中,我们提出了一种简单而有效的领域自适应方法,称为自主学习迁移分类器学习(SP-TCL),以解决上述问题,这可以被视为几个广义领域自适应任务的表现良好的基准。所提出的模型建立在自主学习方案之上,寻求一个适合目标域的分类器。具体而言,SP-TCL 通过精心设计的谨慎损失函数学习发现忠实的知识,并同时通过自主学习的方式迭代地排除训练中的源示例,将学到的知识适应到目标域。对几个基准数据集的广泛评估表明,SP-TCL 在几个广义领域自适应任务上明显优于现有方法。
论文链接: https://arxiv.org/pdf/2406.14274
Github: https://github.com/mc-lan/sp-tcl
cs.LG: 非负通用微分方程在系统生物学中的应用
原标题: Non-Negative Universal Differential Equations With Applications in Systems Biology
作者: Maren Philipps, Antonia Körner, Jakob Vanhoefer, Dilan Pathirana, Jan Hasenauer
机构: 莫名其妙的文本,没有作者的学校或企业名称。
摘要: 通用微分方程(UDEs)利用机械模型和人工神经网络的各自优势,将它们结合成一个动态模型。然而,这些混合模型可能会出现不切实际的解,比如生化量的负值。我们提出了非负 UDE(nUDEs),这是一种受限 UDE 变体,可以保证非负值。此外,我们探索正则化技术,以改善 UDE 的泛化能力和可解释性。
论文链接: https://arxiv.org/pdf/2406.14246
cs.LG: 利用深度学习语义分割技术对多光谱、高光谱和高空间分辨率航空影像进行土地覆盖制图的评估
原标题: Evaluation of Deep Learning Semantic Segmentation for Land Cover Mapping on Multispectral, Hyperspectral and High Spatial Aerial Imagery
作者: Ilham Adi Panuntun, Ying-Nong Chen, Ilham Jamaluddin, Thi Linh Chi Tran
机构: 国立中央大学
摘要: 在气候变化的崛起中,土地覆盖映射已成为环境监测中迫切需要的内容。土地覆盖分类的准确性越来越多地依赖于遥感数据的改进。近年来,利用卫星图像进行土地覆盖分类的研究已经得到了广泛的探索和应用,但方法仍存在一些主观和耗时的缺点。一些深度学习技术已被用于克服这些限制。然而,大多数研究仅使用一种图像类型来评估土地覆盖映射的算法。因此,我们的研究在多光谱、高光谱和高空间航拍图像数据集中进行了深度学习语义分割,用于土地覆盖映射。本研究采用了Unet、Linknet、FPN和PSPnet等语义分割方法,用于对植被、水域和其他地物(如土壤和不透水表面)进行分类。LinkNet模型在所有数据集中的IoU(交并比)达到了0.92的高准确性,与其他提到的技术相当。在不同图像类型的评估中,多光谱图像显示出更高的IoU和F1得分,分别为0.993和0.997。我们的研究结果突出了LinkNet和多光谱图像在土地覆盖分类中的高效性和广泛适用性。这项研究为长期未来应用中的土地覆盖分割建立了一种开放源代码的方法。
论文链接: https://arxiv.org/pdf/2406.14220
cs.LG: 自我监督的预训练任务用于使用大规模合成神经影像数据集上的3D卷积神经网络进行阿尔茨海默病分类
原标题: Self-Supervised Pretext Tasks for Alzheimer’s Disease Classification using 3D Convolutional Neural Networks on Large-Scale Synthetic Neuroimaging Dataset
作者: Chen Zheng
机构: University of Waikato
摘要: 结构磁共振成像(MRI)研究表明,阿尔茨海默病(AD)在整个大脑中引起了局部和广泛的神经退行性变化。然而,缺乏突出显示大脑退行性变化的分割,给以监督方式训练基于CNN的分类器带来了独特的挑战。在这项工作中,我们评估了几种无监督方法,以训练一个特征提取器,用于下游的AD与CN分类。使用合成神经影像LDM100K数据集中认知正常(CN)受试者的3D T1加权MRI数据,训练了基于轻量级3D CNN的模型,用于大脑年龄预测、大脑图像旋转分类、大脑图像重建以及将所有三个任务合并为一个的多头任务。在LDM100K合成数据集上训练的特征提取器与使用真实世界数据的相同模型相比取得了类似的性能。这支持了利用大规模合成数据进行假设任务训练的可行性。所有的训练和测试分割都是在受试者级别上进行的,以防止数据泄漏问题。除了简单的预处理步骤外,随机裁剪数据增强技术在所有实验中都显示出一致的改进。
论文链接: https://arxiv.org/pdf/2406.14210
cs.LG: 使用大语言模型和强化学习优化前k推荐的新颖性
原标题: Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning
作者: Amit Sharma, Hua Li, Xue Li, Jian Jiao
机构: Microsoft Research 孟买、Microsoft Bing Ads 美国红木城和美国山景城
摘要: 给定一个输入查询,使用用户反馈数据(例如点击数据)训练推荐模型以输出排名列表。在实际系统中,除了准确性外,新模型的一个重要考虑因素是其前k个推荐项相对于现有部署模型的新颖性。然而,前k个项的新颖性是一个难以优化模型的目标,因为它涉及到模型预测的不可微分排序操作。此外,按定义,新颖的项没有任何用户反馈数据。鉴于大型语言模型的语义能力,我们使用强化学习(RL)公式解决这些问题,其中大型语言模型为新颖项提供反馈。然而,鉴于数百万个候选项,标准RL算法的样本复杂度可能会非常高。为了减少样本复杂度,我们将前k个列表奖励减少到一组逐项奖励,并重新定义状态空间,使其由<查询,项>元组组成,以便将动作空间减少到二进制决策;并且表明,当项数较大时,这种重构会导致显着降低的复杂度。我们在大型搜索引擎上评估所提出的算法,以提高查询广告推荐任务的新颖性。与最近的<查询,广告>对的监督微调相比,所提出的基于RL的算法在最小召回损失的情况下导致显着的新颖性增益。我们在ORCAS查询-网页匹配数据集和基于亚马逊评论的产品推荐数据集上获得类似的结果。
论文链接: https://arxiv.org/pdf/2406.14169
cs.LG: 通过风险规避在马尔可夫博弈中计算可行均衡
原标题: Tractable Equilibrium Computation in Markov Games through Risk Aversion
作者: Eric Mazumdar, Kishan Panaganti, Laixi Shi
机构: 加州理工学院
摘要: 多智能体强化学习的一个重要障碍是,期望的解决方案概念,如纳什均衡,可能难以计算。为了克服这个障碍,我们从行为经济学中汲取灵感,并展示了通过赋予代理人类决策制定的重要特征,如风险规避和有限理性,一类风险规避量子响应均衡(RQE)在所有 n n n-player矩阵和有限时间马尔可夫博弈中变得易于计算。特别地,我们展示了它们在适当调整版本的游戏中作为无悔学习的终点出现。关键是,可计算的RQE类与底层游戏结构无关,只取决于代理人的风险规避程度和有限理性。为了验证这类解决方案概念的丰富性,我们展示了它捕捉了在实验经济学中研究过的一些2-player矩阵游戏中人们的游戏模式。此外,我们对有限时间马尔可夫博弈中计算这些均衡的样本复杂度进行了首次分析,当我们可以访问生成模型时,在一个简单的多智能体强化学习基准测试中验证了我们的发现。
论文链接: https://arxiv.org/pdf/2406.14156
cs.LG: CheMFi: 一个包含多样化分子的量子化学性质的多模态数据集
原标题: CheMFi: A Multifidelity Dataset of Quantum Chemical Properties of Diverse Molecules
作者: Vivin Vinod, Peter Zaspel
机构: University of Wuppertal
摘要: 机器学习(ML)和传统量子化学(QC)计算方法的进展,使得从原子化能到激发能等QC性质的高精度ML模型得以实现。各种数据集,如MD17、MD22和WS22,包含了在某个QC方法或保真度下计算的性质,用于对这些ML模型进行基准测试。保真度指的是所选择的QC方法与实际性质的真实值之间的准确度。保真度越高,计算得到的性质越准确,但计算成本也越高。
多保真度ML(MFML)方法的研究表明,相比于单一保真度方法,这种模型的效果更好。在从能带间隙到激发能等各种应用中,这个领域的研究正在不断进展。这个领域的一个主要障碍是缺乏用于基准测试的多样化多保真度数据集。
在这里,我们提供了一个全面的多保真度数据集,该数据集来自于WS22分子构型。我们提供了量子化学多保真度(CheMFi)数据集,其中包含了使用TD-DFT形式计算的五个保真度。这些保真度在基组选择上有所不同,分别是:STO-3G、3-21G、6-31G、def2-SVP和def2-TZVP。CheMFi为社区提供了各种QC性质,包括垂直激发能、振子强度、分子偶极矩和基态能量。除了数据集,还使用最先进的MFML和优化的MFML进行了多保真度基准测试。
论文链接: https://arxiv.org/pdf/2406.14149
cs.LG: 使用子图在3D蛋白质结构上进行几何自监督预训练
原标题: Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs
作者: Michail Chatzianastasis, George Dasoulas, Michalis Vazirgiannis
机构: 1、Michail Chatzianastasis -
2、George Dasoulas -
3、Michalis Vazirgiannis -
摘要: 蛋白质表示学习旨在学习具有信息量的蛋白质嵌入,能够解决关键的生物学问题,如蛋白质功能预测。虽然基于序列的Transformer模型通过利用大量的蛋白质序列数据以自监督的方式取得了有希望的结果,但在应用这些方法到3D蛋白质结构方面仍存在差距。在这项工作中,我们提出了一种超越传统屏蔽方法的预训练方案,利用蛋白质的3D和分层结构。我们提出了一种新颖的自监督方法,通过预测蛋白质子图的局部几何质心与全局几何质心之间的距离,在3D蛋白质结构上预训练3D图神经网络。这种方法的动机有两个方面。首先,蛋白质不同区域之间的相对空间排列和几何关系对其功能至关重要。此外,蛋白质通常以分层方式组织,较小的亚结构(如二级结构元素)组装成较大的结构域。通过考虑子图及其与全局蛋白质结构的关系,模型可以学习推理这些层次化的组织水平。我们的实验证明,我们提出的预训练策略显著提高了3D图神经网络在各种蛋白质分类任务中的性能。
论文链接: https://arxiv.org/pdf/2406.14142
cs.LG: 图上的归一化割的扩展层次结构
原标题: Expander Hierarchies for Normalized Cuts on Graphs
作者: Kathrin Hanauer, Monika Henzinger, Robin Münk, Harald Räcke, Maximilian Vötsch
机构: 维也纳大学 科学院计算机科学系
科学与技术研究所
慕尼黑工业大学
维也纳大学 计算机科学系
维也纳大学 博士学院 计算机科学系
摘要: 图的扩展分解显著推进了对许多经典图问题的理解,并导致了许多基本的理论结果。然而,由于它们在渐近运行时间中固有的复杂性和大量隐藏因素,它们在实践中的应用受到了阻碍。在这里,我们介绍了第一个实际高效的算法,用于计算扩展分解及其层次结构,并通过将其作为归一化切割图聚类目标的新求解器的核心组件来展示其效果和效用。
我们在各种大型图上进行了广泛的实验,结果显示,我们基于扩展的算法在解决归一化切割问题时,在解的质量方面远远优于最先进的求解器,而在运行时间上保持竞争力,适用于各种图类,如引用、电子邮件、社交网络或网络图。
论文链接: https://arxiv.org/pdf/2406.14111
cs.LG: 贝叶斯赌博算法在随机线性赌博中的近似推理
原标题: Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits
作者: Ziyi Huang, Henry Lam, Haofeng Zhang
机构: 哥伦比亚大学
摘要: 贝叶斯赌博算法与近似贝叶斯推断在实际应用中被广泛使用。然而,它们的理论基础在文献中得到的研究较少,特别是对于上下文赌博问题。为了填补这一空白,我们提出了一个通用的理论框架,用于分析在近似推断存在的情况下随机线性赌博,并对两种贝叶斯赌博算法——线性汤普森抽样(LinTS)和贝叶斯上置信界的扩展,即线性贝叶斯上置信界(LinBUCB)进行遗憾分析。我们证明,当应用近似推断时,LinTS和LinBUCB都能保持其原始遗憾上界的速率,但会牺牲更大的常数项。这些结果适用于一般的贝叶斯推断方法,假设由两种不同的 α \alpha α-散度测量的推断误差是有界的。此外,通过引入对“良好行为分布”的新定义,我们展示了LinBUCB将LinTS的遗憾速率从 O ~ ( d 3 / 2 T ) \tilde{O}(d^{3/2}\sqrt{T}) O~(d3/2T)改进为 O ~ ( d T ) \tilde{O}(d\sqrt{T}) O~(dT),与极小化最优速率相匹配。据我们所知,这项工作提供了在有界近似推断误差设置下的随机线性赌博的首个遗憾界。
论文链接: https://arxiv.org/pdf/2406.14071
cs.LG: 时间变化的变分不等式的跟踪解决方案
原标题: Tracking solutions of time-varying variational inequalities
作者: Hédi Hadiji, Sarah Sachs (UvA), Cristóbal Guzmán (UC)
机构: Univ. Paris-Saclay, CNRS, CentraleSup ´elec
University of Amsterdam
Pontificia Universidad Cat ´olica de Chile
摘要: 追踪时变变分不等式的解是一个在博弈论、优化和机器学习中应用广泛的重要问题。现有的研究主要考虑时变博弈或时变优化问题。对于强凸优化问题或强单调博弈,这些结果在假设时变问题的变化受限(即具有次线性解路径)的情况下提供了追踪保证。在本研究中,我们以两种方式扩展了现有结果:首先,我们提供了追踪界限,适用于具有次线性解路径但不一定是单调函数的变分不等式,以及具有周期性时变的变分不等式,其解路径长度不一定是次线性的。我们的第二个主要贡献是对离散动力系统的周期性时变变分不等式的收敛行为和轨迹进行了广泛研究。我们证明这些系统可以表现出可证明的混沌行为,也可以收敛到解。最后,我们通过实验证明了我们的理论结果。
论文链接: https://arxiv.org/pdf/2406.14059
cs.LG: 用编码器-解码器神经网络解释 X 射线光谱。
原标题: Encoder-Decoder Neural Networks in Interpretation of X-ray Spectra
作者: Jalmari Passilahti, Anton Vladyka, Johannes Niskanen
机构: University of Turku
摘要: 编码器-解码器神经网络(EDNN)将与前馈网络输出最相关的信息压缩成瓶颈层的激活值。我们研究了在模拟X射线光谱数据的仿真和解释中使用这种架构的方法,旨在识别光谱的关键结构特征,以前使用基于模拟器的组件分析(ECA)进行研究。我们发现EDNN在覆盖目标变量方差方面优于ECA,但也发现在物理术语中解释潜在变量时存在复杂性。作为这两种方法优点的折衷,我们开发了一个网络,其中使用ECA的线性投影,从而保持了从潜在变量进行向量扩展的有益特性,以便进行解释。这些结果强调了在信息压缩后的信息恢复的必要性,并且为合理解释输出光谱的决定性结构程度的识别提供了依据。
论文链接: https://arxiv.org/pdf/2406.14044
cs.LG: 一个实用的扩散路径用于抽样
原标题: A Practical Diffusion Path for Sampling
作者: Omar Chehab, Anna Korba
机构: Omar Chehab - 未提及学校或企业名称
Anna Korba - 未提及学校或企业名称
摘要: 扩散模型是生成建模中的最先进方法,当目标概率分布的样本可用且可以高效采样时,可以使用分数匹配来估计引导 Langevin 过程的分数向量。然而,在目标样本不可用的情况下,例如当目标密度已知但归一化常数未知时,分数估计任务变得具有挑战性。先前的方法依赖于蒙特卡洛估计器,这些估计器要么在实现上计算复杂,要么在采样效率上低下。在这项工作中,我们提出了一种计算上具有吸引力的替代方法,依赖于所谓的扩张路径,该路径产生可用于闭合形式的分数向量。该路径通过卷积将一个 Dirac 分布和目标分布之间进行插值。我们提出了一种简单的 Langevin 动力学实现,以扩张路径为指导,并使用自适应步长。我们在一系列任务上展示了我们采样方法的结果,并表明它比传统方法表现更好。
论文链接: https://arxiv.org/pdf/2406.14040
cs.LG: 概率回归树的集成
原标题: Ensembles of Probabilistic Regression Trees
作者: Alexandre Seiller, Éric Gaussier (APTIKAL), Emilie Devijver (APTIKAL), Marianne Clausel (IECL), Sami Alkhoury
摘要: 基于树的集成方法,如随机森林、梯度提升树和贝叶斯加性回归树,在许多应用和研究中已成功用于回归问题。在本文中,我们研究了概率回归树的集成版本,通过将每个观测分配给每个区域,以概率分布的方式提供目标函数的平滑近似。我们证明了所考虑的概率回归树的集成版本是一致的,并在实验中研究了它们的偏差-方差权衡,并将它们与最先进的性能预测方法进行比较。
论文链接: https://arxiv.org/pdf/2406.14033
cs.LG: 置信区间和基于深度学习的同时置信带
原标题: Confidence Intervals and Simultaneous Confidence Bands Based on Deep Learning
作者: Asaf Ben Arie, Malka Gorfine
机构: Tel Aviv University
摘要: 深度学习模型在各个领域显著提高了预测准确性,得到了各个学科的认可。然而,深度学习中一个尚未得到充分解决的方面是对预测不确定性的评估。产生可靠的不确定性估计可能在实际中至关重要。例如,与高度不确定性相关的预测可能需要进一步评估。最近在深度学习预测的不确定性量化方面的研究,包括贝叶斯后验可信区间和频率主义置信区间估计,已被证明产生无效或过于保守的区间。此外,目前还没有一种方法可以量化不确定性,以适应涉及右截尾结果的生存(事件发生时间)数据的深度神经网络。在这项工作中,我们提供了一种有效的非参数自助法,可以正确地将数据不确定性与所采用的优化算法中固有的噪声分离开来,确保得到的点间置信区间或同时置信带是准确的(即有效且不过于保守)。所提出的临时方法可以轻松集成到任何深度神经网络中,而不会干扰训练过程。所提出方法的实用性通过利用所提出的方法构建了从深度神经网络中得到的右截尾生存数据的同时置信带来加以说明。
论文链接: https://arxiv.org/pdf/2406.14009