cs.LG: 等变神经切向核
原标题: Equivariant Neural Tangent Kernels
作者: Philipp Misof, Pan Kessel, Jan E. Gerken
摘要: 等变神经网络近年来已成为指导具有许多应用领域的神经网络架构选择的重要技术,这些领域包括医学图像分析和量子化学。特别是,作为相对于正则表示最一般的线性等变层,群卷积在许多应用中产生了巨大影响。尽管等变架构已得到广泛研究,但对等变神经网络的训练动态了解较少。与此同时,神经切向核(NTKs)已成为分析理解宽神经网络训练动态的强大工具。在这项工作中,我们首次将这两个领域结合起来,通过给出群卷积神经网络的NTK的显式表达式。在数值实验中,我们展示了在医学图像分类任务中,等变NTK相对于非等变NTK表现出更优越的性能。
论文链接: https://arxiv.org/pdf/2406.06504
cs.LG: 多元时间序列分类的数据增强:一项实验研究
原标题: Data Augmentation for Multivariate Time Series Classification: An Experimental Study
作者: Romain Ilbert, Thai V. Hoang, Zonghua Zhang
机构: 华为诺亚方舟实验室 巴黎第戎大学 泰晤士管理咨询 CRSC研发院集团
摘要: 我们的研究调查了数据增强对多变量时间序列模型性能的影响,重点关注来自UCR存档的数据集。尽管这些数据集的规模有限,但我们在13个数据集中有10个使用Rocket和InceptionTime模型实现了分类准确性的提升。这突显了充足数据在训练有效模型中的关键作用,与计算机视觉领域的进展相呼应。我们的工作深入探讨了将现有方法以创新方式应用于多变量时间序列分类领域。我们对这些技术的全面探索为解决时间序列分析中的数据稀缺性设立了新标准,强调多样化的增强策略对于释放传统和深度学习模型潜力至关重要。此外,通过精心分析和应用各种增强技术,我们证明了战略性数据丰富可以提高模型准确性。这不仅为未来时间序列分析研究建立了基准,而且强调采用多样化的增强方法来提高模型性能在面对有限数据可用性时的重要性。
论文链接: https://arxiv.org/pdf/2406.06518
cs.LG: 控制仿射系统的随机特征逼近
原标题: Random Features Approximation for Control-Affine Systems
作者: Kimia Kazemian, Yahya Sattar, Sarah Dean
机构: 康奈尔大学 计算机科学系
摘要: 现代数据驱动的控制应用需要灵活的非线性模型,这些模型适合于原则性的控制器综合和实时反馈。许多感兴趣的非线性动力系统是控制仿射的。我们提出了两种新颖的非线性特征表示类别,这些表示捕捉了控制仿射结构,同时允许状态依赖性的任意复杂性。我们的方法利用随机特征(RF)逼近,以较低的计算成本继承了核方法的表达能力。我们通过展示我们的方法与Castañeda等人(2021年)提出的仿射点积(ADP)核以及我们引入的新颖的仿射密集(AD)核之间的关系,形式化了我们方法的表征能力。我们进一步通过提出一个使用控制证书函数(CCF)进行基于数据驱动优化控制的案例研究来说明其实用性。在双摆模拟实验中,我们的方法在实证上展示了其优势。
论文链接: https://arxiv.org/pdf/2406.06514
cs.LG: 潜伏在阴影中:揭示针对个性化联邦学习的隐蔽后门攻击
原标题: Lurking in the shadows: Unveiling Stealthy Backdoor Attacks against Personalized Federated Learning
作者: Xiaoting Lyu, Yufei Han, Wei Wang, Jingkai Liu, Yongsheng Zhu, Guangquan Xu, Jiqiang Liu, Xiangliang Zhang
机构: 北京交通大学 INRIA 天津大学 圣母大学
摘要: 联邦学习(FL)是一种协作机器学习技术,多个客户端与中央服务器合作训练全局模型,而无需共享其私人数据。然而,客户端非独立同分布数据集之间的分布偏移对这种一模式适用于所有方法构成挑战,阻碍了全局模型有效适应每个客户端独特本地数据的能力。为了响应这一挑战,个性化联邦学习(PFL)旨在允许每个客户端创建适合其私人数据的个性化本地模型。尽管大量研究已经审查了联邦学习中的后门风险,但在个性化联邦学习应用中仍未得到充分探讨。在这项研究中,我们深入探讨了个性化联邦学习对后门攻击的脆弱性。我们的分析展示了两个城市的故事。一方面,PFL中的个性化过程可以稀释注入个性化本地模型的后门毒害效果。此外,PFL系统还可以部署服务器端和客户端的防御机制,以加强对后门攻击的防御壁垒。另一方面,我们的研究表明,使用这些防御方法加固的PFL可能会给人一种虚假的安全感。我们提出了\textit{PFedBA},一种适用于PFL系统的隐秘而有效的后门攻击策略。\textit{PFedBA}通过优化触发生成过程,巧妙地将后门学习任务与PFL的主要学习任务对齐。我们的全面实验展示了\textit{PFedBA}在将触发器无缝嵌入个性化本地模型中的有效性。\textit{PFedBA}在10种最先进的PFL算法中取得了出色的攻击性能,击败了现有的6种防御机制。我们的研究揭示了针对PFL系统的微妙但强大的后门威胁,敦促社区加强对新兴后门挑战的防御。
论文链接: https://arxiv.org/pdf/2406.06207
cs.LG: 增强偏好驱动的强化学习中的鲁棒性,通过动态稀疏性。
原标题: Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity
作者: Calarina Muslimani, Bram Grooten, Deepak Ranganatha Sastry Mamillapalli, Mykola Pechenizkiy, Decebal Constantin Mocanu, Matthew E. Taylor
机构: 阿尔伯塔大学 艾因霍温科技大学 卢森堡大学
摘要: 为了使自主代理成功融入以人为中心的环境中,代理应该能够从人类的本地环境中学习并适应。基于偏好的强化学习(PbRL)是一种有前途的方法,可以从人类偏好中学习奖励函数。这使得强化学习代理能够根据人类的愿望调整他们的行为。然而,人类生活在一个充满各种信息的世界中,其中大部分与完成特定任务无关。因此,代理学习专注于任务相关环境特征的子集变得至关重要。不幸的是,先前的工作在很大程度上忽视了这一方面;主要集中在改进PbRL算法在精心构建的仅包含任务相关特征的标准RL环境中的工作。这可能导致算法无法有效地转移到更嘈杂的现实世界环境中。因此,本文提出了R2N(Robust-to-Noise),这是第一个利用动态稀疏训练原则来学习能够专注于任务相关特征的稳健奖励模型的PbRL算法。我们研究了R2N在极度嘈杂环境设置中的有效性,这是一个RL问题设置,其中高达95%的状态特征是无关的干扰。在与模拟教师的实验中,我们展示了R2N可以调整其神经网络的稀疏连接性,以便专注于任务相关特征,使得R2N能够在多个运动和控制环境中显著优于几种最先进的PbRL算法。
论文链接: https://arxiv.org/pdf/2406.06495
cs.LG: 具有局部和全局对抗性扰动的鲁棒分布学习
原标题: Robust Distribution Learning with Local and Global Adversarial Corruptions
作者: Sloan Nietert, Ziv Goldfeld, Soroosh Shafiee
机构: 康奈尔大学
摘要: 我们考虑在对抗环境中学习,在这种环境中,来自分布 P P P 的 ε \varepsilon ε 比例的样本被任意修改(全局污染),其余扰动的平均幅度受到 ρ \rho ρ 的限制(局部污染)。在访问 n n n 个这样的受损样本的情况下,我们寻求一个计算效率高的估计量 P ^ n \hat{P}_n P^n,以最小化 Wasserstein 距离 W 1 ( P ^ n , P ) \mathsf{W}_1(\hat{P}_n,P) W1(P^n,P)。事实上,我们攻击了细粒度任务,即最小化所有正交投影 Π ∈ R d × d \Pi \in \mathbb{R}^{d \times d} Π∈Rd×d 的 Wasserstein 距离 W 1 ( Π # P ^ n , Π # P ) \mathsf{W}_1(\Pi_\# \hat{P}_n, \Pi_\# P) W1(Π#P^n,Π#P),其性能随着 r a n k ( Π ) = k \mathrm{rank}(\Pi) = k rank(Π)=k 而扩展。这使我们能够同时考虑均值估计( k = 1 k=1 k=1)、分布估计( k = d k=d k=d)以及这两个极端之间的设置。我们表征了该任务的最优人口极限风险,然后开发了一个高效的有限样本算法,当 P P P 具有有界 2 + δ 2+\delta 2+δ 阶矩时,其误差受到 ε k + ρ + d O ( 1 ) O ~ ( n − 1 / k ) \sqrt{\varepsilon k} + \rho + d^{O(1)}\tilde{O}(n^{-1/k}) εk+ρ+dO(1)O~(n−1/k) 的限制,其中 δ > 0 \delta > 0 δ>0 为常数。对于具有有界协方差的数据分布,我们的有限样本界与大样本量下的最小极限最优相匹配。我们的高效程序依赖于对理想但难以处理的 2-Wasserstein 投影估计的一种新颖的迹范数近似。我们将此算法应用于鲁棒随机优化,并在此过程中揭示了一种克服 Wasserstein 分布鲁棒优化中维度诅咒的新方法。
论文链接: https://arxiv.org/pdf/2406.06509
cs.LG: 在食品研究中的联邦学习
原标题: Federated learning in food research
作者: Zuzanna Fendor, Bas H.M. van der Velden, Xinxin Wang, Andrea Jr. Carnoli, Osman Mutlu, Ali Hürriyetoğlu
机构: 瓦赫宁根大学与研究(Wageningen University & Research)
摘要: 在食品领域的研究有时会受到数据共享障碍的限制,例如数据所有权、隐私要求和法规等。虽然重要,但这些障碍可能会限制诸如机器学习之类的数据驱动方法。联邦学习是一种方法,即在本地保存数据上训练模型并仅共享学到的参数,是一种缓解数据共享障碍的潜在技术。这项系统性审查调查了在食品领域内使用联邦学习的情况,将包括的论文结构化为联邦学习框架,突出显示知识空白,并讨论潜在应用。审查中包括了总共41篇论文。目前的应用包括解决水和牛奶质量评估、水处理的网络安全、农药残留风险分析、杂草检测和欺诈检测等问题,重点放在了集中式水平联邦学习上。发现的一个空白是缺乏垂直或转移联邦学习和分散式架构。
论文链接: https://arxiv.org/pdf/2406.06202
cs.LG: 验证引导的深度强化学习屏蔽
原标题: Verification-Guided Shielding for Deep Reinforcement Learning
作者: Davide Corsi, Guy Amir, Andoni Rodriguez, Cesar Sanchez, Guy Katz, Roy Fox
机构: 加州大学欧文分校 希伯来大学 马德里理工大学 西班牙IMDEA软件研究所
摘要: 近年来,深度强化学习(DRL)已经成为解决现实世界任务的有效方法。然而,尽管取得了成功,基于DRL的策略存在可靠性差的问题,这限制了它们在安全关键领域的部署。因此,人们提出了各种方法来解决这一问题,通过提供正式的安全性保证。两种主要方法包括屏蔽和验证。屏蔽确保策略的安全行为,通过使用一个外部在线组件(即“屏蔽器”)来覆盖潜在危险的动作,但这种方法具有显著的计算成本,因为屏蔽器必须在运行时被调用以验证每个决策。另一方面,验证是一种离线过程,可以在部署之前识别不安全的策略,但在策略被视为不安全时并不提供替代动作。在这项工作中,我们提出了验证引导的屏蔽——一种通过整合这两种方法来弥合DRL可靠性差距的新方法。我们的方法结合了形式化和概率性验证工具,将输入域划分为安全和不安全区域。此外,我们采用聚类和符号表示程序,将不安全区域压缩为紧凑的表示。这反过来允许仅在(潜在)不安全区域中有效地激活屏蔽器。我们的新方法可以显著减少运行时开销,同时仍保留正式的安全性保证。我们在机器人导航领域的两个基准测试上对我们的方法进行了广泛评估,并对其可扩展性和完整性进行了深入分析。
论文链接: https://arxiv.org/pdf/2406.06507
cs.LG: 何时需要进行多校准后处理?
原标题: When is Multicalibration Post-Processing Necessary?
作者: Dutch Hansen, Siddartha Devic, Preetum Nakkiran, Vatsal Sharan
机构: 南加州大学 苹果
摘要: 校准是预测器的一个经过深入研究的属性,可以保证提供有意义的不确定性估计。多重校准是一个相关概念,起源于算法公平性,要求预测器在潜在复杂且重叠的受保护子人群集合(如以种族、种族或收入定义的群体)上同时进行校准。我们进行了第一次全面研究,评估了跨广泛表格、图像和语言数据集的多重校准后处理的实用性,涵盖了从简单决策树到拥有9000万参数的精细调整的大语言模型的模型。我们的研究结果可以总结如下:(1)开箱即用的校准模型往往在没有任何额外后处理的情况下相对多重校准;(2)多重校准后处理可以帮助固有不校准的模型;(3)传统的校准度量有时可能会隐含地提供多重校准。更一般地,我们还总结了许多独立观察结果,这些观察结果对于多重校准后处理在实际环境中的实际和有效应用可能是有用的。
论文链接: https://arxiv.org/pdf/2406.06487
cs.LG: 物理信息贝叶斯优化变分量子电路
原标题: Physics-Informed Bayesian Optimization of Variational Quantum Circuits
作者: Kim A. Nicoli, Christopher J. Anders, Lena Funcke, Tobias Hartung, Karl Jansen, Stefan Kühn, Klaus-Robert Müller, Paolo Stornati, Pan Kessel, Shinichi Nakajima
机构: 波恩大学 德国 德国柏林工业大学 伦敦东北大学 美国东北大学计算机科学学院 德国 DESY 德国韩国大学 韩国 萨尔布吕肯马克斯·普朗克信息学研究所 西班牙光子科学研究所 瑞士罗氏制药 雷根人工智能研究中心 日本
摘要: 在这篇论文中,我们提出了一种新颖而强大的方法,利用贝叶斯优化来进行变分量子本征求解器(VQE)的优化——这是一种用于近似量子哈密顿量基态的混合量子-经典协议。具体来说,我们推导出一个VQE核函数,该函数融合了关于量子电路的重要先验信息:VQE核函数的核特征映射完全匹配了已知的VQE目标函数的功能形式,从而显著减少了后验不确定性。此外,我们提出了一种用于贝叶斯优化的新型收获函数,称为在确信区域上的预期最大改进(EMICoRe),它可以通过将预测不确定性较低的区域视为间接“观察到”,积极利用VQE核函数的归纳偏差。因此,在搜索域中仅观察到三个点就足以确定整个优化景观中一维子空间上的完整目标函数。我们的数值实验表明,我们的方法优于现有技术基线。
论文链接: https://arxiv.org/pdf/2406.06150
cs.LG: 连续注意力用于神经算子
原标题: Continuum Attention for Neural Operators
作者: Edoardo Calvello, Nikola B. Kovachki, Matthew E. Levine, Andrew M. Stuart
机构: 加州理工学院 NVIDIA 麻省理工学院和哈佛大学 Broad Institute of MIT and Harvard
摘要: Transformer,尤其是注意力机制,在机器学习中变得无处不在。它们在建模非局部、长距离相关性方面取得的成功导致它们在自然语言处理、计算机视觉和时间序列问题中被广泛采用。神经算子将函数空间映射到函数空间,如果它们是通用的,则必然是非线性和非局部的;因此,自然而然地会问注意力机制是否可以用于设计神经算子。受此启发,我们研究了函数空间设置中的Transformer。我们将注意力表述为无限维函数空间之间的映射,并证明实践中实现的注意力机制是该算子的蒙特卡洛或有限差分逼近。函数空间表述允许设计Transformer神经算子,这是一类旨在学习函数空间之间映射的架构,我们证明了其具有通用逼近结果。将注意力算子应用于多维域上定义的函数的成本过高,这导致需要更高效的基于注意力的架构。因此,我们还引入了计算机视觉中的贴片策略的函数空间泛化,并介绍了一类相关的神经算子。在一系列运算符学习问题上的数值结果展示了我们的函数空间注意力表述方法和在神经算子中使用它们的前景。
论文链接: https://arxiv.org/pdf/2406.06486
cs.LG: 使用神经常微分方程的解耦标记时间点过程
原标题: Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations
作者: Yujee Song, Donghyun Lee, Rui Meng, Won Hwa Kim
机构: 浦项科技大学 亚马逊公司
摘要: 一个标记的时间点过程(MTPP)是一个随机过程,其实现是一组事件时间数据。 MTPP通常用于理解异步时间事件的复杂动态,如货币交易、社交媒体、医疗保健等。 最近的研究利用深度神经网络来捕捉事件的复杂时间依赖关系,并生成适当表示观察到的事件的嵌入。 虽然大多数先前的研究侧重于事件间的依赖关系及其表示,但个别事件如何影响随时间推移的整体动态尚未得到充分探讨。 在这种情况下,我们提出了一个解耦的MTPP框架,将随机过程的表征解开为来自不同事件的一组不断演变的影响。 我们的方法采用神经常微分方程(Neural ODEs)来学习这些影响的灵活连续动态,同时解决多个推断问题,如密度估计和生存率计算。 我们强调通过将我们的框架与真实数据集上的最先进方法进行比较,并对潜在应用的模型行为进行分析,来强调解开这些影响的重要性。
论文链接: https://arxiv.org/pdf/2406.06149
cs.LG: 一份关于不完整多标签学习的调查:最新进展与未来趋势
原标题: A Survey on Incomplete Multi-label Learning: Recent Advances and Future Trends
作者: Xiang Li, Jiexi Liu, Xinrui Wang, Songcan Chen
机构: IEEE
摘要: 实际上,数据通常表现出与多个标签的关联,这使得多标签学习(MLL)成为一个突出的研究课题。过去二十年见证了MLL的成功,这是离不开完整和准确的监督信息的。然而,在实践中获得这样的信息总是费力的,有时甚至是不可能的。为了规避这一困境,不完整多标签学习(InMLL)应运而生,旨在从不完整标记数据中学习。迄今为止,已经提出了大量的InMLL作品,以缩小与完整MLL之间的性能差距,然而对InMLL的系统回顾仍然缺失。在本文中,我们不仅试图填补这一空白,还努力为创新研究铺平道路。具体来说,我们回顾了InMLL的起源,分析了InMLL的挑战,并从数据导向和算法导向的角度分别对InMLL进行分类。此外,我们还展示了InMLL在各个领域的实际应用。更重要的是,我们强调了几个潜在的未来趋势,包括四个更符合实践的开放问题和三种在解决InMLL挑战方面尚未充分探索/未被开发的技术,这可能为InMLL领域的新研究方向开辟新的视角。
论文链接: https://arxiv.org/pdf/2406.06119
cs.LG: 基于图的双向Transformer决策阈值调整算法,用于类不平衡的分子数据
原标题: Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data
作者: Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei
机构: 密歇根州立大学
摘要: 具有不平衡类大小的数据集经常出现在各种应用中,其中一个类的大小远小于其他类,包括那些具有生物基础的应用,如药物发现和疾病诊断。因此,能够识别各种大小类别的数据元素非常重要,因为未能检测到可能会导致巨大成本。然而,许多数据分类算法在不平衡数据集上表现不佳,因为它们经常无法检测属于少数类的元素。在本文中,我们提出了BTDT-MBO算法,该算法结合了Merriman-Bence-Osher(MBO)技术和双向Transformer,以及距离相关性和决策阈值调整,用于高度不平衡的分子数据集上的数据分类问题,其中类别的大小差异很大。所提出的方法不仅整合了对MBO算法中分类阈值的调整,以帮助处理类别不平衡,还使用基于注意机制的双向Transformer模型进行自监督学习。此外,该方法将距离相关性实现为相似性图框架上的权重函数,调整后的MBO算法在该框架上运行。所提出的模型使用六个分子数据集进行验证,并与其他竞争算法进行了彻底比较。计算实验表明,即使类别不平衡比例非常高,所提出的方法的性能也优于竞争技术。
论文链接: https://arxiv.org/pdf/2406.06479
cs.LG: 可测试学习多项式阈值函数
原标题: Testably Learning Polynomial Threshold Functions
作者: Lucas Slot, Stefan Tiegel, Manuel Wiedmer
摘要: Rubinfeld & Vasilyan最近引入了可测试学习的框架,作为经典不可知模型的扩展。它通过可以被测试者有效检查的条件来放宽难以验证的分布假设。测试者必须在数据真正满足原始假设时接受,学习者必须在测试者接受时成功。我们关注的是测试者必须接受标准高斯数据的情境。在那里,已知基本概念类(如半空间)可以以与(特定分布的)不可知模型相同的时间复杂度被可测试地学习。在这项工作中,我们探讨了是否有代价可供支付以可测试地学习更复杂的概念类。特别是,我们考虑了多项式阈值函数(PTFs),它们自然地推广了半空间。我们展示了任意常数次数的PTFs可以在时间 n p o l y ( 1 / ε ) n^{\mathrm{poly}(1/\varepsilon)} npoly(1/ε)内被可测试地学习,直到超额误差 ε > 0 \varepsilon > 0 ε>0。这在定性上与不可知模型中已知的最佳保证相匹配。我们的结果建立在可测试学习和愚弄之间的联系上。特别地,我们展示了大约匹配至少 p o l y ( 1 / ε ) \mathrm{poly}(1/\varepsilon) poly(1/ε)个标准高斯矩的分布会愚弄常数次数的PTFs(误差为 ε \varepsilon ε)。作为次要结果,我们证明了一种直接方法来展示可测试学习(无需愚弄),这种方法成功地用于半空间,但对于PTFs却行不通。
论文链接: https://arxiv.org/pdf/2406.06106
cs.LG: 关于具有相关观测的核方法的一致性
原标题: On the Consistency of Kernel Methods with Dependent Observations
作者: Pierre-François Massiani, Sebastian Trimpe, Friedrich Solowjow
摘要: 学习方法的一致性通常建立在观察结果是独立同分布(i.i.d.)或混合过程的实现的假设下。然而,诸如支持向量机(SVM)、高斯过程或条件核均值嵌入(CKME)等核方法在明显非独立同分布的采样方案下表现出色,比如当数据来自动力系统时。我们提出了经验弱收敛(EWC)的新概念,作为解释核方法中这种现象的一般假设。它假设存在一个随机渐近数据分布,并且是该领域先前假设的严格弱化。我们的主要结果进一步建立了在具有EWC数据的情况下支持向量机、核均值嵌入和一般希尔伯特空间值经验期望的一致性。我们的分析适用于有限维和无限维输出,因为我们将统计学习的经典结果扩展到了后一种情况。特别地,它也适用于CKME。总的来说,我们的结果为统计学习开辟了新的过程类别,并可以作为超越独立同分布和混合学习理论的基础。
论文链接: https://arxiv.org/pdf/2406.06101
cs.LG: 间歇性、异步专家反馈对贝叶斯优化有多大帮助?
原标题: How Useful is Intermittent, Asynchronous Expert Feedback for Bayesian Optimization?
作者: Agustinus Kristiadi, Felix Strieth-Kalthoff, Sriram Ganapathi Subramanian, Vincent Fortuin, Pascal Poupart, Geoff Pleiss
机构: 矢量研究所 多伦多大学 慕尼黑工业大学和赫尔姆霍兹人工智能 滑铁卢大学和矢量研究所 不列颠哥伦比亚大学
摘要: 贝叶斯优化(BO)是自动科学发现的重要组成部分,即所谓的自动化实验室,理想情况下人类输入应该是最小的,或者至少不会阻塞。然而,科学家通常有很强的直觉,因此人类反馈仍然是有用的。然而,先前的研究在增强BO与专家反馈方面,例如通过将其纳入离线或在线但阻塞(在每次BO迭代中到达)的方式,与自动化实验室的精神不兼容。在这项工作中,我们研究了一小部分随机到达的专家反馈是否以非阻塞方式纳入可以改进BO活动。为此,我们在BO循环之上运行了一个额外的独立计算线程来处理反馈收集过程。收集到的反馈用于学习一个贝叶斯偏好模型,可以轻松地纳入BO线程中,以引导其探索-利用过程。对玩具和化学数据集的实验表明,即使是少量间歇性的异步专家反馈也可以对改进或限制BO有所帮助。这对于改进自动化实验室尤其有用,例如使其更具数据效率性和成本效益性。
论文链接: https://arxiv.org/pdf/2406.06459
Github: https://github.com/wiseodd/bo-async-feedback
cs.LG: 一个用于多模态气候变化感知作物产量预测的开放且大规模数据集
原标题: An Open and Large-Scale Dataset for Multi-Modal Climate Change-aware Crop Yield Predictions
作者: Fudong Lin, Kaleb Guillot, Summer Crawford, Yihe Zhang, Xu Yuan, Nian-Feng Tzeng
机构: 特拉华大学 路易斯安那大学拉斐特分校
摘要: 精确的作物产量预测对于确保粮食安全和可持续农业实践具有国家重要性。虽然人工智能用于科学的方法在解决许多科学问题(如药物发现、降水即时预测等)方面取得了令人期待的成就,但由于缺乏一个开放且大规模的、具有多种形式的深度学习准备数据集以容纳足够信息,深度学习模型用于预测作物产量的发展一直受到阻碍。为了解决这个问题,我们介绍了CropNet数据集,这是第一个以太字节大小、公开可用的、多模态数据集,专门针对美国连续48个州的县级气候变化感知作物产量预测。我们的CropNet数据集由三种数据模态组成,即Sentinel-2影像、WRF-HRRR计算数据集和USDA作物数据集,涵盖了超过2200个美国县,在6年的时间跨度(2017-2022年),旨在帮助研究人员开发多功能的深度学习模型,及时而准确地预测县级作物产量,考虑了短期生长季节气候变化和长期气候变化对作物产量的影响。此外,我们开发了CropNet软件包,提供三种类型的API,以帮助研究人员根据兴趣的时间和地区实时下载CropNet数据,并灵活构建他们的深度学习模型,以实现准确的作物产量预测。通过采用各种类型的深度学习解决方案,在我们的CropNet数据集上进行了大量实验,结果验证了CropNet数据集在气候变化感知作物产量预测中的普适性和有效性。
论文链接: https://arxiv.org/pdf/2406.06081
cs.LG: Cometh: 一个连续时间离散状态的图扩散模型
原标题: Cometh: A continuous-time discrete-state graph diffusion model
作者: Antoine Siraudin, Fragkiskos D. Malliaros, Christopher Morris
机构: 亚琛工业大学 Université Paris-Saclay Inria
摘要: 离散状态去噪扩散模型在图生成方面取得了最先进的性能,特别是在分子领域。最近,它们已经被转换为连续时间,允许在反向过程中更灵活,并在采样效率和质量之间取得更好的权衡。在这里,为了利用这两种方法的优势,我们提出了Cometh,一个连续时间离散状态图扩散模型,将图数据整合到连续时间扩散模型框架中。从经验上看,我们展示了整合连续时间在各种指标上显著改进了一系列分子和非分子基准数据集上的最先进离散状态扩散模型。
论文链接: https://arxiv.org/pdf/2406.06449
cs.LG: 使用消息传递Transformer学习物理仿真
原标题: Learning Physical Simulation with Message Passing Transformer
作者: Zeyi Xu, Yifei Li
机构: 上海大学 MIT CSAIL
摘要: 近年来,物理模拟的机器学习方法取得了显著的成功。我们提出了一种基于图神经网络的新型通用架构,即消息传递Transformer,它融合了消息传递框架,采用了编码器-处理器-解码器结构,并将图傅里叶损失作为模型优化的损失函数。为了利用过去的消息传递状态信息,我们提出了Hadamard-Product Attention来更新处理器中的节点属性,Hadamard-Product Attention是点积注意力的一种变体,侧重于更精细的语义,并强调在每个特征维度上分配注意力权重,而不是相对于其他位置在序列中的位置。我们进一步引入了图傅里叶损失(GFL)来平衡高能量和低能量成分。为了提高时间性能,我们在训练过程之前预先计算图的拉普拉斯特征向量。我们的架构在Lagrangian和Eulerian动力系统的长期预测中实现了显著的准确性改进,超过了当前方法。
论文链接: https://arxiv.org/pdf/2406.06060
cs.LG: GraphStorm:面向工业应用的一体化图机器学习框架
原标题: GraphStorm: all-in-one graph machine learning framework for industry applications
作者: Da Zheng, Xiang Song, Qi Zhu, Jian Zhang, Theodore Vasiloudis, Runjie Ma, Houyu Zhang, Zichen Wang, Soji Adeshina, Israt Nisa, Alejandro Mottini, Qingjun Cui, Huzefa Rangwala, Belinda Zeng, Christos Faloutsos, George Karypis
机构: 亚马逊
摘要: 图机器学习(GML)在许多业务应用中非常有效。然而,使GML易于使用并适用于具有大规模数据集的行业应用仍然具有挑战性。我们开发了GraphStorm,它提供了可扩展的图构建、图模型训练和推断的端到端解决方案。GraphStorm具有以下令人满意的特性:(a)易于使用:它可以通过一个简单的命令执行图构建和模型训练以及推断;(b)专家友好:GraphStorm包含许多先进的GML建模技术,以处理复杂的图数据并提高模型性能;(c)可扩展:GraphStorm中的每个组件都可以在拥有数十亿节点的图上运行,并且可以将模型训练和推断扩展到不同的硬件而无需更改任何代码。自2023年5月发布以来,GraphStorm已被用于并部署在十多个亿级行业应用中。
论文链接: https://arxiv.org/pdf/2406.06022
Github: https://github.com/awslabs/graphstorm
cs.LG: 一种改进的经验费舍尔近似自然梯度下降
原标题: An Improved Empirical Fisher Approximation for Natural Gradient Descent
作者: Xiaodong Wu, Wenyi Yu, Chao Zhang, Philip Woodland
机构: 剑桥大学 清华大学
摘要: 近似自然梯度下降(NGD)方法是深度学习模型的一类重要优化器,它在训练过程中使用近似的Fisher信息矩阵对梯度进行预处理。经验Fisher(EF)方法通过重复使用在反向传播期间收集的每个样本梯度来经验性地近似Fisher信息矩阵。尽管EF近似易于实现,但它在理论和实践上存在局限性。本文首先研究了EF的反向缩放投影问题,该问题被证明是导致较差经验近似质量的主要原因。提出了一种改进的经验Fisher(iEF)方法,从减少损失的角度出发,作为一种广义NGD方法,旨在解决这个问题,同时保留EF的实际便利性。通过使用实际的深度学习设置对精确的iEF和EF方法进行实验评估,包括用于参数高效微调预训练模型的广泛使用的设置(T5-base与LoRA和Prompt-Tuning在GLUE任务上,以及ViT与LoRA在CIFAR100上)。优化实验表明,将精确的iEF应用为优化器能够实现强大的收敛性和泛化能力。对于大多数任务,它实现了最佳的测试性能和最低的训练损失,甚至与调整良好的AdamW/Adafactor基线相比也是如此。此外,在一种新颖的经验评估框架下,所提出的iEF方法显示出比EF和更昂贵的采样Fisher(SF)更好地近似精确自然梯度更新的质量。进一步的研究还表明,iEF的优越近似质量对于跨任务和训练阶段的阻尼是稳健的。通过使用iEF改进现有的近似NGD优化器,预计将提高收敛能力并增强对阻尼选择的强大鲁棒性。
论文链接: https://arxiv.org/pdf/2406.06420
cs.LG: EpiLearn:一个用于流行病建模中机器学习的Python库
原标题: EpiLearn: A Python Library for Machine Learning in Epidemic Modeling
作者: Zewen Liu, Yunxiao Li, Mingyang Wei, Guancheng Wan, Max S.Y. Lau, Wei Jin
机构: 埃默里大学 生物统计与生物信息学系
摘要: EpiLearn是一个用于建模、模拟和分析流行病数据的Python工具包。尽管存在一些处理流行病建模的软件包,但它们通常局限于机械模型或传统统计工具。随着机器学习继续改变世界,这些软件包与最新模型之间的差距变得更大。为了弥合这一差距并激发流行病建模领域的创新研究,EpiLearn不仅提供支持,用于基于机器学习评估流行病模型,还整合了用于分析流行病数据的全面工具,如模拟、可视化、转换等。为了方便流行病学家和数据科学家,我们提供了一个统一的框架,用于在两个任务上训练和评估流行病模型:预测和源检测。为了促进新模型的开发,EpiLearn采用模块化设计,使其灵活且易于使用。此外,还开发了一个交互式网络应用程序,用于可视化真实或模拟的流行病数据。我们的软件包可以在此https网址上获得。
论文链接: https://arxiv.org/pdf/2406.06016
Github: https://github.com/Emory-Melody/EpiLearn
cs.LG: 基于马尔可夫跳跃过程的基础推理模型
原标题: Foundation Inference Models for Markov Jump Processes
作者: David Berghaus, Kostadin Cvejoski, Patrick Seifner, Cesar Ojeda, Ramses J. Sanchez
机构: 兰马尔研究所 Fraunhofer IAIS 波恩大学 波茨坦大学
摘要: 马尔可夫跳跃过程是描述在离散状态空间中演化的动力系统的连续时间随机过程。这些过程在自然科学和机器学习中得到广泛应用,但它们的推断被认为远非易事。在这项工作中,我们介绍了一种从嘈杂和稀疏观测中进行零样本推断马尔可夫跳跃过程(MJPs)的方法,该方法包括两个组成部分。首先,一个广泛的概率分布,涵盖了MJPs家族、可能的观测时间和噪声机制,我们使用这个分布模拟了一个隐藏的MJPs及其嘈杂观测过程的合成数据集。其次,一个神经网络模型处理模拟观测的子集,并经过训练以监督方式输出目标MJP的初始条件和速率矩阵。我们在实证中证明,同一个(预训练的)模型可以以零样本方式推断不同维度状态空间中演化的隐藏MJPs。具体来说,我们推断描述(i)离散闪烁齿轮系统(一种布朗运动器)和(ii)分子模拟、(iii)实验离子通道数据以及(iv)简单蛋白质折叠模型的MJPs。更重要的是,我们展示了我们的模型与针对目标数据集微调的最先进模型表现相当。
论文链接: https://arxiv.org/pdf/2406.06419
cs.LG: 张量-张量回归与张量列车分解的计算和统计保证
原标题: Computational and Statistical Guarantees for Tensor-on-Tensor Regression with Tensor Train Decomposition
作者: Zhen Qin, Zhihui Zhu
机构: 清华大学 百度
摘要: 最近,提出了一种张量对张量(ToT)回归模型,旨在泛化张量恢复,包括类似标量对张量回归和张量对向量回归的情况。然而,张量复杂性的指数增长给ToT回归中的存储和计算带来挑战。为了克服这一障碍,引入了张量分解,基于张量列(TT)的ToT模型在实践中证明了其高效,因为它减少了内存需求,增强了计算效率,并降低了采样复杂性。尽管存在这些实际好处,理论分析与现实性能之间存在差距。在本文中,我们深入探讨了基于TT的ToT回归模型的理论和算法方面。假设回归算子满足受限等距性质(RIP),我们对受限最小二乘优化问题的解进行了误差分析。该分析包括上误差界和极小下界,揭示了这些误差界在 N + M N+M N+M阶上多项式地依赖的事实。为了高效地找到符合这些误差界的解,我们提出了两种优化算法:迭代硬阈值(IHT)算法(采用梯度下降与TT奇异值分解(TT-SVD))和使用黎曼梯度下降(RGD)算法的因子化方法。当RIP被满足时,谱初始化有助于正确初始化,我们建立了IHT和RGD的线性收敛速度。
论文链接: https://arxiv.org/pdf/2406.06002
cs.LG: VCR:视觉字幕修复
原标题: VCR: Visual Caption Restoration
作者: Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
机构: 蒙特利尔大学 加拿大人工智能研究所 University of Pennsylvania University of Waterloo 香港科技大学 ServiceNow Research
摘要: 我们介绍了视觉字幕恢复(VCR),这是一项新颖的视觉-语言任务,挑战模型使用图像内的像素级提示准确恢复部分遮挡的文本。这一任务源于这样一个观察:嵌入图像中的文本与常见的视觉元素和自然语言本质上不同,因为需要对齐视觉、文本和嵌入图像中的文本的模态。虽然许多作品已将嵌入图像中的文本整合到视觉问答任务中,但这些任务的方法通常依赖于光学字符识别或掩蔽语言建模,从而将任务主要转化为基于文本的处理。然而,在VCR中,基于文本的处理变得无效,因为准确的文本恢复取决于提供的图像、上下文以及来自被掩盖文本的微小暴露区域的微妙线索的综合信息。我们开发了一个流程来使用图像-字幕对生成VCR任务的合成图像,可调整字幕的可见性以控制任务难度。通过这个流程,我们构建了一个名为VCR-Wiki的VCR数据集,使用来自维基百科的带字幕的图像,包括211万个英文实体和34.6万个中文实体,分为简单和困难两个变体。我们的结果显示,当前的视觉语言模型在VCR任务中明显落后于人类表现,仅仅在我们的数据集上微调模型并没有引起显著改进。我们发布了VCR-Wiki和数据构建代码,以促进未来的研究。
论文链接: https://arxiv.org/pdf/2406.06462
cs.LG: 从单个任务中离线强化学习中发现多个解决方案
原标题: Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning
作者: Takayuki Osa, Tatsuya Harada
机构: 大阪大学 原田辰也 1 2
摘要: 最近关于在线强化学习(RL)的研究表明,从单个任务中学习多个行为的优势,如在少样本适应新环境的情况下。尽管这种方法预计在离线RL中也会产生类似的好处,但以前的研究并未完全探讨学习多个解决方案的适当方法。因此,在这项研究中,我们解决了在离线RL中从单个任务中找到多个解决方案的问题。我们提出了可以在离线RL中学习多个解决方案的算法,并在实证上调查它们的性能。我们的实验结果表明,所提出的算法在离线RL中学习了多个在质量和数量上有别的解决方案。
论文链接: https://arxiv.org/pdf/2406.05993
cs.LG: 挑战分类法:筛选公平数据集的挑战
原标题: A Taxonomy of Challenges to Curating Fair Datasets
作者: Dora Zhao, Morgan Klaus Scheuerman, Pooja Chitre, Jerone T.A. Andrews, Georgia Panagiotidou, Shawn Walker, Kathleen H. Pine, Alice Xiang
机构: 斯坦福大学 索尼人工智能 亚利桑那州立大学 伦敦国王学院
摘要: 尽管已经付出了大量努力来创建更公平的机器学习(ML)数据集,但对数据集策划实际方面仍了解有限。通过对30名ML数据集策划者的访谈,我们提出了对数据集策划生命周期中遇到的挑战和权衡的全面分类。我们的研究结果强调了在更广泛的公平性领域内影响数据策划的重大问题。最后,我们提出了旨在促进系统性变革以更好地促进公平数据集策划实践的建议。
论文链接: https://arxiv.org/pdf/2406.06407
cs.LG: 通过结合弱工具和观测数据来估计异质性处理效应
原标题: Estimating Heterogeneous Treatment Effects by Combining Weak Instruments and Observational Data
作者: Miruna Oprescu, Nathan Kallus
机构: 康奈尔大学
摘要: 准确预测条件平均治疗效应(CATEs)在个性化医学和数字平台分析中至关重要。由于通常感兴趣的治疗方法无法直接进行随机化,因此利用观察数据来学习CATEs,但这种方法可能会因未观察到的混杂而产生显著偏差。克服这些限制的一种策略是在工具变量(IVs)中寻找潜在的准实验,例如,一个随机的意向治疗或一个随机的产品推荐。另一方面,这种方法可能受到低依从性的影响,即IV弱势。一些子群甚至可能表现出零依从性,这意味着我们根本无法为他们的CATEs提供工具变量。在本文中,我们开发了一种新方法,结合IV和观察数据,以在观察数据中存在未观察到的混杂和IV数据中低依从性的情况下实现可靠的CATE估计,包括一些子群的无依从性。我们提出了一个两阶段框架,首先从观察数据中学习偏倚的CATEs,然后使用IV数据应用加权依从性校正,有效利用IV在协变量间的强度变化。我们表征了我们方法的收敛速度,并通过模拟研究验证了其有效性。此外,我们通过分析401(k)计划参与对财富的异质效应,展示了其实用性。
论文链接: https://arxiv.org/pdf/2406.06452
cs.LG: 深度生成建模重塑了压缩和传输:从效率到弹性。
原标题: Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency
作者: Jincheng Dai, Xiaoqi Qin, Sixian Wang, Lexi Xu, Kai Niu, Ping Zhang
机构: 清华大学 百度
摘要: 信息论和机器学习是密不可分的,并甚至被称为“同一枚硬币的两面”。其中一个特别优雅的联系是概率生成建模与数据压缩或传输之间的基本等价性。在本文中,我们揭示了深度生成模型的双重功能,重新塑造了数据压缩以提高效率和传输错误隐藏以增强韧性。我们展示了强大生成模型的上下文预测能力如何能够成为强大的压缩器和估计器。在这个意义上,我们主张通过端到端通信的视角来看待深度生成建模问题,并评估基础生成模型的压缩和错误恢复能力。我们展示了许多大型生成模型的核心是强大的预测器,可以捕捉语义潜在变量之间的复杂关系,而通信观点则为语义特征标记化、上下文学习和深度生成模型的使用提供了新颖见解。总之,我们的文章突出了生成式人工智能与源编码和信道编码技术的基本联系,并激励研究人员在这一新兴主题上进行进一步探索。
论文链接: https://arxiv.org/pdf/2406.06446
cs.LG: 关于非布尔函数在未见过数据上泛化中的最小度量偏差
原标题: On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions
作者: Denys Pushkin, Raphaël Berthier, Emmanuel Abbe
机构: 1. 丹尼斯·普什金 - 不列颠哥伦比亚大学
- 拉斐尔·贝尔蒂埃 - 未提及
- 埃曼纽尔·阿贝 - 不列颠哥伦比亚大学
摘要: 我们研究了随机特征(RF)模型和Transformer的域外泛化。我们首先证明,在“未见泛化(GOTU)”设置中,在该设置中,训练数据在域的某个部分完全可见,但测试是在另一个部分进行的,并且对于小特征范围内的RF模型,收敛会发生到最小度的插值器,就像在布尔情况下一样(Abbe等人,2023年)。然后,我们考虑稀疏目标范围,并解释了这个范围如何与小特征范围相关联,但使用了不同的正则化项,可以改变非布尔情况下的情况。我们展示了稀疏范围在q元数据令牌下的两种不同结果:(1)如果数据嵌入了单位根,那么就像RF模型的布尔情况一样,会学习到最小度的插值器,(2)如果数据没有被嵌入为这样,例如,简单地作为整数,那么RF模型和Transformer可能不会学习到最小度的插值器。这表明布尔设置及其单位根泛化是最小度插值器提供了学习过程的一种罕见表征的特殊情况。对于更一般的整数和实值设置,一个更微妙的情况仍然需要完全表征。
论文链接: https://arxiv.org/pdf/2406.06354
cs.LG: 玉兰:通过GNN进行在线价值传递匹配算法近似
原标题: MAGNOLIA: Matching Algorithms via GNNs for Online Value-to-go Approximation
作者: Alexandre Hayderi, Amin Saberi, Ellen Vitercik, Anders Wikum
摘要: 在线贝叶斯二部匹配是数字市场和交易所中的一个核心问题,包括广告、众包、顺风车和肾脏交换。我们引入了一种图神经网络(GNN)方法,模拟了问题的组合复杂的最优在线算法,通过计算每个动作的价值-前进(VTG)来选择动作(例如,匹配哪些节点)-如果算法采取该动作,然后在未来最优地行动,预期的最终匹配的权重。我们训练一个GNN来估计VTG,并从经验上证明,这个GNN在各种任务中返回高权重的匹配。此外,我们在空间众包应用中识别了一类常见的图分布,如顺风车,在这些分布下,VTG可以通过在图中的局部邻域内聚合信息来有效近似。这种结构与GNN的局部行为相匹配,为我们的方法提供了理论上的理由。
论文链接: https://arxiv.org/pdf/2406.05959
cs.LG: 通过最优输运的多元随机优势及其在模型基准测试中的应用
原标题: Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
作者: Gabriel Rioux, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Youssef Mroueh
摘要: 随机优势在概率论、计量经济学和社会选择理论中是一个重要概念,用于稳健地建模代理人在随机结果之间的偏好。虽然许多工作致力于单变量情况,但在多变量情境中所做的工作很少,其中代理人必须在不同的多变量结果之间做出决策。通过利用多元第一顺序随机优势的耦合特征,我们引入了一种在最优输运框架下评估多元几乎随机优势的统计量,其成本平滑。此外,我们引入了这一统计量的熵正则化,并建立了经验统计量的中心极限定理(CLT)和自举程序的一致性。借助这一中心极限定理,我们提出了一个假设检验框架,以及使用Sinkhorn算法进行高效实现。我们展示了我们的方法在比较和基准测试上的应用,评估了在多个指标上评估的大语言模型。我们的多元随机优势测试允许我们捕捉指标之间的依赖关系,以便对模型的相对性能做出明智且具有统计显著性的决策。
论文链接: https://arxiv.org/pdf/2406.06425
cs.LG: 在高维结构假设空间中进行因果发现,使用因果图分区。
原标题: Causal Discovery over High-Dimensional Structured Hypothesis Spaces with Causal Graph Partitioning
作者: Ashka Shah, Adela DePavia, Nathaniel Hudson, Ian Foster, Rick Stevens
机构: 芝加哥大学
摘要: 许多科学领域的目标是理解潜在变量分布的机制,从一组初始假设开始。因果发现使我们能够推断机制,即因果关系的集合,以一种广义方式–而不一定针对特定领域进行定制。因果发现算法在由有向无环图集合定义的结构化假设空间上进行搜索,以找到最能解释数据的图。然而,对于高维问题,这种搜索变得难以处理,需要可扩展的因果发现算法来弥合差距。在本文中,我们定义了一种新颖的因果图分区,允许进行有理保证的分治因果发现。我们利用超结构的概念–一组学习或现有的候选假设–来划分搜索空间。在某些假设下,我们证明了使用因果图分区进行学习总是会产生真实因果图的马尔可夫等价类。我们展示了我们的算法在生物调谐的合成网络和多达 1 0 4 {10^4} 104个变量的网络上实现了可比较的准确性和更快的解决方案时间。这使得我们的方法适用于基因调控网络推断和其他具有高维结构化假设空间的领域。
论文链接: https://arxiv.org/pdf/2406.06348
cs.LG: 将正则化与动作空间解耦
原标题: Decoupling regularization from the action space
作者: Sobhan Mohammadpour, Emma Frejinger, Pierre-Luc Bacon
机构: 魁北克人工智能研究所 Mila 蒙特利尔大学 University of Montreal Massachusetts Institute of Technology MIT
摘要: 正则化强化学习(RL),特别是熵正则化类型,在最优控制和逆 RL 中已经引起了关注。虽然标准的非正则化 RL 方法不受动作数量变化的影响,但我们表明这可能严重影响它们的正则化对应物。本文展示了将正则化器与动作空间解耦的重要性:即,保持一致的正则化水平,无论涉及多少动作,以避免过度正则化。虽然可以通过引入一个特定于任务的温度参数来避免这个问题,但当动作空间依赖于状态时,这通常是不可取的,并且无法解决问题。在状态相关的动作上下文中,不同状态具有不同的动作空间,正则化不一致。我们提出了两种解决方案:静态温度选择方法和动态对应物,在出现这个问题的地方都可以普遍适用。实施这些变化可以改善在静态和动态温度制度以及生物序列设计任务中在 DeepMind 控制套件上的性能。
论文链接: https://arxiv.org/pdf/2406.05953
cs.LG: 差分隐私最佳臂识别
原标题: Differentially Private Best-Arm Identification
作者: Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu
机构: Univ. Lille 中心里尔大学 Inria 国家计算机与自动化研究所 CNRS 国家科学研究中心 Centrale Lille 里尔中央理工学院 UMR 9189 - CRIStAL 综合研究中心 F-59000 里尔 法国 Amazon
摘要: 最佳臂识别(BAI)问题逐渐被用于数据敏感的应用,例如设计自适应临床试验、调整超参数和进行用户研究。受到这些应用引发的数据隐私问题的启发,我们研究了在本地模型和中央模型中具有固定置信度的BAI问题,即 ϵ \epsilon ϵ-本地和 ϵ \epsilon ϵ-全局差分隐私(DP)。首先,为了量化隐私成本,我们推导了任何满足 ϵ \epsilon ϵ-全局DP或 ϵ \epsilon ϵ-本地DP的 δ \delta δ-正确BAI算法的样本复杂度的下界。我们的下界表明存在两种隐私制度。在高隐私制度中,难度取决于隐私和涉及总变差的新信息理论量的耦合效应。在低隐私制度中,下界减少到非私有下界。我们提出了一个名为CTB-TT和AdaP-TT的Top Two算法的 ϵ \epsilon ϵ-本地DP和 ϵ \epsilon ϵ-全局DP变体。对于 ϵ \epsilon ϵ-本地DP,通过使用基于随机响应的私有估计器计算均值,CTB-TT是渐近最优的。对于 ϵ \epsilon ϵ-全局DP,我们的均值私有估计器在依赖于臂的自适应周期中运行,并添加拉普拉斯噪声,以确保良好的隐私-效用权衡。通过调整运输成本,AdaP-TT的预期样本复杂度达到了渐近下界,直到乘法常数。
论文链接: https://arxiv.org/pdf/2406.06408
cs.LG: ProAct: 用于增强深度神经网络鲁棒性的渐进式训练混合剪切激活函数
原标题: ProAct: Progressive Training for Hybrid Clipped Activation Function to Enhance Resilience of DNNs
作者: Seyedhamidreza Mousavi, Mohammad Hasan Ahmadilivani, Jaan Raik, Maksim Jenihhin, Masoud Daneshtalab
机构: 马拉尔达伦大学 爱沙尼亚塔林理工大学
摘要: 深度神经网络(DNNs)被广泛应用于安全关键应用中,确保硬件可靠性是首要关注的问题。为了增强 DNNs 对硬件故障的可靠性,激活限制技术显著减轻了在 DNN 结构层面上的故障影响,而不受加速器架构的影响。最先进的方法提供了神经元级或层级剪切激活函数。它们尝试使用启发式和基于学习的方法确定最佳剪切阈值。层级剪切激活函数无法在高比特错误率下保持 DNN 的弹性。另一方面,神经元级剪切激活函数由于参数的增加而引入了相当大的内存开销,这增加了它们对故障的脆弱性。此外,基于启发式的优化方法在搜索过程中需要大量的故障注入,导致耗时的阈值识别。另一方面,同时为整个层训练阈值的基于学习的技术通常会产生次优结果。在这项工作中,首先,我们证明在 DNN 中并非必须在所有层中都使用神经元级激活函数。然后,我们提出了一种混合剪切激活函数,将神经元级和层级方法整合在一起,仅在 DNN 的最后一层应用神经元级剪切。此外,为了在剪切激活函数中获得最佳阈值,我们引入了 ProAct,一种渐进式训练方法。该方法通过逐层训练阈值,旨在分别获得每一层的最佳阈值。
论文链接: https://arxiv.org/pdf/2406.06313
cs.LG: 循环神经网络中的几何稀疏化
原标题: Geometric sparsification in recurrent neural networks
作者: Wyatt Mackey, Ioannis Schizas, Jared Deighton, David L. Boothe Jr., Vasileios Maroulas
机构: 田纳西大学 军事研究实验室
摘要: 一种减少运行大型神经模型计算成本的常见技术是稀疏化,或者在训练过程中删除神经连接。稀疏模型能够保持最先进模型的高准确性,同时以更节俭的模型成本运行。然而,稀疏架构的基础结构目前尚不清楚,并且在不同训练模型和稀疏化方案之间也不一致。在本文中,我们提出了一种用于稀疏化循环神经网络(RNNs)的新技术,称为模量正则化,结合幅度修剪。模量正则化利用由循环结构引起的动力系统,在隐藏状态的神经元之间引入几何关系。通过将我们的正则化项明确地设定为几何关系,我们首次提供了我们神经网络所需稀疏架构的先验描述。我们验证了我们的方案在导航和自然语言处理RNNs中的有效性。导航是一个结构上的几何任务,已知存在模量空间,我们展示了只有在系数符合适当的模量空间时,正则化才能用于实现90%的稀疏度同时保持模型性能。然而,自然语言处理中没有已知的模量空间用于执行计算。尽管如此,我们展示了模量正则化通过多种模量正则化器诱导出更稳定的循环神经网络,并在98%的稀疏度下实现高保真度模型。
论文链接: https://arxiv.org/pdf/2406.06290
cs.LG: PowerInfer-2:在智能手机上快速进行大语言模型推理
原标题: PowerInfer-2: Fast Large Language Model Inference on a Smartphone
作者: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
机构: 上海交通大学
摘要: 这篇论文介绍了PowerInfer-2,这是一个专为在智能手机上高速推理大型语言模型(LLMs)而设计的框架,特别适用于模型大小超出设备内存容量的情况。PowerInfer-2的关键见解是通过将传统矩阵计算分解为细粒度的神经元集群计算,利用智能手机中的异构计算、内存和I/O资源。具体来说,PowerInfer-2具有一个多态神经元引擎,可以为LLM推理的各个阶段自适应计算策略。此外,它引入了分段神经元缓存和细粒度神经元集群级流水线技术,有效地减少并隐藏了I/O操作带来的开销。PowerInfer-2的实现和评估展示了它支持两款智能手机上各种LLM模型的能力,与最先进的框架相比,速度提高了高达29.2倍。值得注意的是,PowerInfer-2是第一个在智能手机上为TurboSparse-Mixtral-47B模型提供每秒11.68个标记生成速率的系统。对于完全适合内存的模型,PowerInfer-2可以实现大约40%的内存使用减少,同时保持与llama.cpp和MLC-LLM相当的推理速度。更多详细信息,包括演示视频,请访问项目网站:http URL。
论文链接: https://arxiv.org/pdf/2406.06282
其他链接: http://www.powerinfer.ai/v2
cs.LG: 利用已知分类进行级联未知检测,用于开放集识别
原标题: Cascading Unknown Detection with Known Classification for Open Set Recognition
作者: Daniel Brignac, Abhijit Mahalanobis
机构: 亚利桑那大学
摘要: 深度学习者在封闭集假设下训练时往往表现良好,但在开放集条件下部署时会遇到困难。这促使了开放集识别领域的发展,我们致力于赋予深度学习者识别数据样本是属于已知类别还是来自无限世界周围的能力。现有的开放集识别方法通常依赖于一个单一函数,用于区分已知和未知之间的双重任务,以及进行已知类别的区分。这种双重过程会影响性能,因为该函数没有专门针对任一任务进行优化。在这项工作中,我们引入了级联未知检测与已知分类(Cas-DC),我们通过级联方式学习专门的函数,用于已知/未知检测和在已知类别世界中进行精细类别分类。我们的实验和分析表明,与现代方法相比,Cas-DC在开放集识别中表现出色,使用AUROC分数和各种真正例率下的正确分类率进行比较。
论文链接: https://arxiv.org/pdf/2406.06351
cs.LG: 计算更好的花费:用结构化矩阵替换密集层
原标题: Compute Better Spent: Replacing Dense Layers with Structured Matrices
作者: Shikai Qiu, Andres Potapczynski, Marc Finzi, Micah Goldblum, Andrew Gordon Wilson
机构: 清华大学 百度
摘要: 稠密线性层是基础模型中的主要计算瓶颈。寻找比稠密矩阵更高效的替代方案对于构建更具计算效率的模型具有巨大潜力,就像卷积网络在图像领域取得成功一样。在这项工作中,我们系统地探索了结构化矩阵作为稠密矩阵的替代品。我们展示了不同的结构通常需要截然不同的初始化尺度和学习率,这对性能至关重要,特别是随着模型规模的扩大。利用最大更新参数化的见解,我们确定了这些非传统层初始化和学习率的最佳缩放。最后,我们测量了不同结构的缩放规律,比较它们的性能如何随着计算的提升而快速改善。我们提出了一个包含 Monarch 矩阵的新型矩阵系列,即块张量列车(BTT),我们展示了在多个任务上,BTT在相同计算量下比稠密矩阵表现更好。在带有数据增强的 CIFAR-10/100 上,BTT 在训练 MLP 和 ViTs 时实现了指数级更低的训练损失,与密集 ViT-S/32 在 ImageNet-1k 上的性能相匹配,计算量减少了 3.8 倍,并且比密集训练小型 GPT-2 语言模型更有效。
论文链接: https://arxiv.org/pdf/2406.06248
Github: https://github.com/shikaiqiu/compute-better-spent
cs.LG: 使用隐藏层连接的物理信息神经网络进行偏微分方程近似的错误分析和数值算法
原标题: Error Analysis and Numerical Algorithm for PDE Approximation with Hidden-Layer Concatenated Physics Informed Neural Networks
作者: Yianxia Qian, Yongchao Zhang, Suchuan Dong
机构: 西安理工大学 西北大学 普渡大学
摘要: 我们提出了隐藏层串联物理信息神经网络(HLConcPINN)方法,该方法结合了隐藏层串联前馈神经网络、修改后的块时间推进策略以及适用于近似偏微分方程(PDEs)的物理信息方法。我们分析了该方法在两种类型的PDEs(以热传导方程和Burgers’方程为例的抛物线型,以波动方程和非线性Klein-Gordon方程为例的双曲线型)上的收敛性质,并建立了误差界限。我们展示了对于具有长时间跨度的动态模拟,其解的近似误差可以通过训练损失有效控制。HLConcPINN方法原则上允许任意数量不小于两个的隐藏层,并且在第一个两个隐藏层之外的隐藏层中使用任何常用的平滑激活函数,具有理论保证。这推广了几种最近的神经网络技术,这些技术具有理论保证,但在网络架构中仅限于两个隐藏层和 tanh \tanh tanh激活函数。我们的理论分析随后为这些PDEs的适当训练损失函数的制定提供了信息,从而导致了与标准PINN公式不同的物理信息神经网络(PINN)类型的计算算法。基于所提出的算法进行了大量数值实验,以验证该方法的有效性并确认理论分析的各个方面。
论文链接: https://arxiv.org/pdf/2406.06350
cs.LG: 使用神经程序进行数据高效学习
原标题: Data-Efficient Learning with Neural Programs
作者: Alaia Solko-Breslin, Seewon Choi, Ziyang Li, Neelay Velingker, Rajeev Alur, Mayur Naik, Eric Wong
机构: 宾夕法尼亚大学
摘要: 许多计算任务可以自然地表达为由一个 DNN 组成,后跟一个传统编程语言中编写的程序或对大语言模型的 API 调用。我们称这种组合为“神经程序”,并专注于当训练数据由端到端的输入-输出标签组成时,学习 DNN 参数的问题。当程序是用可微逻辑编程语言编写时,神经符号学习中的技术是适用的,但总体而言,神经程序的学习需要估计黑盒组件的梯度。我们提出了一种用于学习神经程序的算法,称为 ISED,它仅依赖于黑盒组件的输入-输出样本。为了评估,我们引入了涉及对现代大语言模型(如 GPT-4)的调用的新基准,并考虑了神经符号学习文献中的基准。我们的评估显示,对于后一类基准,ISED 的性能与最先进的神经符号框架相当。对于前一类基准,我们使用了先前关于黑盒组件梯度近似的基线的改编,并展示了ISED以更具数据和样本效率的方式实现了可比的准确性。
论文链接: https://arxiv.org/pdf/2406.06246
cs.LG: 高效神经网络压缩与推理时解码
原标题: Efficient Neural Compression with Inference-time Decoding
作者: C. Metz, O. Bichler, A. Dupret
机构: CEA List Universit ´e Paris-Saclay CEA Leti Universit ´e Grenoble-Alpes
摘要: 这篇论文探讨了神经网络量化和熵编码相结合以最小化内存占用的方法。量化模型在边缘部署时受到了精度与比特宽度权衡的严格帕累托前沿的阻碍,导致在某个比特宽度以下出现了显著的精度损失。这种精度损失可以通过混合精度量化来缓解,从而实现更灵活的比特宽度分配。然而,由于1比特前沿的存在,标准混合精度的好处仍然受到限制,这迫使每个参数至少要用1比特的数据进行编码。本文介绍了一种结合混合精度、零点量化和熵编码的方法,将Resnets的压缩边界推向了1比特前沿之外,在ImageNet基准测试中精度下降不到1%。从实现的角度来看,紧凑的解码器架构具有较低的延迟,因此可以进行推断兼容的解码。
论文链接: https://arxiv.org/pdf/2406.06237
cs.LG: 构建连续量子-经典贝叶斯神经网络,用于经典临床数据集
原标题: Building Continuous Quantum-Classical Bayesian Neural Networks for a Classical Clinical Dataset
作者: Alona Sakhnenko, Julian Sikora, Jeanette Miriam Lorenz
机构: 弗劳恩霍夫认知系统研究所(德国慕尼黑)
路德维希-马克西米利安大学(德国慕尼黑)
慕尼黑工业大学(德国慕尼黑)
摘要: 在这项工作中,我们介绍了一种量子-经典贝叶斯神经网络(QCBNN),能够对经典医学数据集进行具有不确定性意识的分类。该模型是经典卷积神经网络和生成其随机权重的量子电路的共生体,在贝叶斯学习框架内运行。为了测试这一想法在医疗领域可能未来部署的效用,我们跟踪多个行为指标,既捕捉了预测性能,也捕捉了模型的不确定性。我们的抱负是创建一个混合模型,能够以更具不确定性意识的方式对样本进行分类,这将提高这些模型的可信度,从而使我们更接近将它们应用于工业领域。我们为这一任务测试了多种量子电路设置,我们最佳的架构在预测性能略微下降的情况下,显示出正确和错误识别样本之间更大的不确定性差距,而其经典基准则不具备这一特点。本文的创新有两个方面:(1)结合不同方法,使量子电路的随机权重能够持续,从而使模型能够对应用驱动的数据集进行分类;(2)研究量子电路的架构特征,这些特征对这些模型至关重要,为进一步研究更具见识的架构设计铺平了道路。
论文链接: https://arxiv.org/pdf/2406.06307
cs.LG: PAC-Bayes 分析用于分类中的重新校准
原标题: PAC-Bayes Analysis for Recalibration in Classification
作者: Masahiro Fujisawa, Futoshi Futami
机构: RIKEN AIP Osaka University
摘要: 使用分箱进行非参数估计在校准误差评估和机器学习模型的重新校准中被广泛采用。最近,针对这种估计方法引入的偏差的理论分析受到了积极追求;然而,对校准误差在未知数据上的泛化的理解仍然有限。此外,尽管提出了许多重新校准算法,但它们的泛化性能缺乏理论保证。为了解决这个问题,我们在可能近似正确(PAC)贝叶斯框架下进行了校准误差的泛化分析。这种方法使我们能够推导出校准背景下泛化误差的第一个可优化上界。然后,我们基于我们的泛化理论提出了一种基于泛化意识的重新校准算法。数值实验表明,我们的算法改善了基于高斯过程的重新校准在各种基准数据集和模型上的性能。
论文链接: https://arxiv.org/pdf/2406.06227
cs.LG: VS-PINN: 使用变量缩放方法快速高效地训练物理信息神经网络,用于解决具有严格行为的偏微分方程
原标题: VS-PINN: A Fast and efficient training of physics-informed neural networks using variable-scaling methods for solving PDEs with stiff behavior
作者: Seungchan Ko, Sang Hyeon Park
摘要: 物理信息神经网络(PINNs)最近已经成为使用深度神经网络计算偏微分方程(PDEs)解的一种有前途的方法。然而,尽管它们在各个领域取得了显著成功,但在许多方面仍不清楚如何有效地训练PINNs,特别是当PDEs的解表现出僵硬行为或高频率时。在本文中,我们提出了一种使用可变缩放技术训练PINNs的新方法。这种方法简单易行,可应用于包括具有快速变化解的PDEs在内的广泛问题范围。通过各种数值实验,我们将展示所提出方法对这些问题的有效性,并确认它能显著提高PINNs的训练效率和性能。此外,基于神经切线核(NTK)的分析,我们将为这一现象提供理论证据,并展示我们的方法确实可以改善PINNs的性能。
论文链接: https://arxiv.org/pdf/2406.06287
cs.LG: Siren – 通过欺骗和自适应分析推进网络安全
原标题: Siren – Advancing Cybersecurity through Deception and Adaptive Analysis
作者: Girish Kulathumani, Samruth Ananthanarayanan, Ganesh Narayanan
机构: 维洛尔理工学院
摘要: Siren代表了一项开创性的研究工作,旨在通过欺骗、机器学习和积极的威胁分析的战略集成来加强网络安全。这个项目从神话中的塞壬中汲取灵感,采用复杂的方法诱使潜在威胁进入受控环境。该系统具有一个用于实时分析和分类的动态机器学习模型,确保对新兴网络威胁的持续适应性。架构框架包括一个链接监控代理,一个专为动态链接分析而设计的机器学习模型,以及一个通过模拟用户交互而丰富的蜜罐,以加剧威胁参与。蜜罐内的数据保护采用概率加密进行加固。此外,引入模拟用户活动扩展了系统捕获并从潜在攻击者中学习的能力,即使用户停止参与也是如此。Siren在网络安全领域引入了一种范式转变,将传统的防御机制转变为积极参与并从潜在对手中学习的系统。该研究致力于增强用户保护,同时为应对网络安全威胁不断演变的格局提供宝贵的见解。
论文链接: https://arxiv.org/pdf/2406.06225
cs.LG: 神经-混合密度估计的深度学习框架
原标题: Neural-g: A Deep Learning Framework for Mixing Density Estimation
作者: Shijie Wang, Saptarshi Chakraborty, Qian Qin, Ray Bai
机构: 南卡罗来纳大学 统计系 、布法罗大学 生物统计系 、明尼苏达大学 统计学院
摘要: 混合(或先验)密度估计是机器学习和统计学中的一个重要问题,特别是在经验贝叶斯 g g g建模中,准确估计先验对于进行良好的后验推断是必要的。在本文中,我们提出了一种新的基于神经网络的 g g g建模估计器,称为神经- g g g。神经- g g g使用softmax输出层来确保估计的先验是一个有效的概率密度。在默认超参数下,我们展示了神经- g g g非常灵活,能够捕捉许多未知的密度,包括具有平坦区域、重尾部和/或不连续性的密度。相比之下,现有方法很难捕捉所有这些先验形状。我们通过建立一个关于神经网络学习任意概率质量函数能力的新的通用逼近定理来证明神经- g g g的合理性。为了加速我们的数值实现的收敛,我们利用加权平均梯度下降方法来更新网络参数。最后,我们将神经- g g g扩展到多变量先验密度估计。我们通过模拟和对真实数据集的分析展示了我们方法的有效性。一个用于实现神经- g g g的软件包可以在此https网址上公开获取。
论文链接: https://arxiv.org/pdf/2406.05986
Github: https://github.com/shijiew97/neuralG
cs.LG: 神经MRI采集的人工智能:一项综述
原标题: Artificial Intelligence for Neuro MRI Acquisition: A Review
作者: Hongjia Yang, Guanhua Wang, Ziyu Li, Haoxiang Li, Jialan Zheng, Yuxin Hu, Xiaozhi Cao, Congyu Liao, Huihui Ye, Qiyuan Tian
机构: 清华大学 密歇根大学 牛津大学 斯坦福大学
摘要: 磁共振成像(MRI)显著受益于人工智能(AI)的复兴。通过利用AI在大规模优化和模式识别方面的能力,创新方法正在改变MRI采集工作流程,包括规划、序列设计和校正采集过程中的伪影。这些新兴算法展示了在增强采集步骤的效率和吞吐量方面的巨大潜力。本综述讨论了神经MRI采集中几种关键的基于AI的方法,重点关注它们的技术进步、对临床实践的影响以及潜在风险。
论文链接: https://arxiv.org/pdf/2406.05982
cs.LG: EARS:一个用于语音增强和去混响基准测试的无混响全频带语音数据集
原标题: EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation
作者: Julius Richter, Yi-Chiao Wu, Steven Krenn, Simon Welker, Bunlong Lay, Shinji Watanabe, Alexander Richard, Timo Gerkmann
机构: 汉堡大学 Meta 卡内基梅隆大学
摘要: 我们发布了 EARS(Expressive Anechoic Recordings of Speech)数据集,这是一个高质量的语音数据集,包括来自不同背景的107位发言者,总共有100小时的清晰、无混响的语音数据。该数据集涵盖了各种不同的说话风格,包括情绪性语音、不同的阅读风格、非语言声音和自由会话的语音。我们在该数据集上对语音增强和去混响的各种方法进行基准测试,并通过一组仪器指标评估它们的性能。此外,我们针对语音增强任务进行了一项听觉测试,有20名参与者参与其中,其中一种生成方法被优先选择。我们引入了一个盲测试集,可以用于对上传数据进行自动在线评估。数据集下载链接和自动评估服务器可以在网上找到。
论文链接: https://arxiv.org/pdf/2406.06185
cs.LG: 分布鲁棒安全样本筛选
原标题: Distributionally Robust Safe Sample Screening
作者: Hiroyuki Hanada, Aoyama Tatsuya, Akahane Satoshi, Tomonari Tanaka, Yoshito Okura, Yu Inatsu, Noriaki Hashimoto, Shion Takeno, Taro Murayama, Hanju Lee, Shinya Kojima, Ichiro Takeuchi
机构: 理化学研究所 长岛中心 长岛, 东京, 103-0027 日本 名古屋大学 工学研究科 名古屋, 爱知, 464-8603 日本 名古屋工业大学 计算机科学系 名古屋, 爱知, 466-8555 日本 丰田自动车公司
摘要: 在这项研究中,我们提出了一种名为分布鲁棒安全样本筛选(DRSSS)的机器学习方法。DRSSS旨在识别不必要的训练样本,即使训练样本的分布在未来发生变化。为实现这一目标,我们有效地将旨在增强模型对数据分布变化的鲁棒性的分布鲁棒(DR)范式与旨在在模型训练之前识别不必要训练样本的安全样本筛选(SSS)相结合。由于我们需要考虑关于分布变化的无限数量的情景,我们应用了SSS,因为在分布变化后不需要模型训练。在本文中,我们采用协变量转移框架来表示训练样本的分布,并将DR协变量转移问题重新制定为加权经验风险最小化问题,其中权重受到预定范围内的不确定性的影响。通过将现有的SSS技术扩展以适应这种权重不确定性,DRSSS方法能够可靠地识别在指定范围内任何未来分布下的不必要样本。我们为DRSSS方法提供了理论保证,并通过对合成和真实世界数据集的数值实验验证了其性能。
论文链接: https://arxiv.org/pdf/2406.05964
cs.LG: 对纹理分析中特征提取的视觉Transformer的比较调查
原标题: A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis
作者: Leonardo Scabini, Andre Sacilotti, Kallil M. Zielinski, Lucas C. Ribas, Bernard De Baets, Odemir M. Bruno
机构: 圣保罗大学圣卡洛斯物理学研究所、圣保罗大学数学与计算机科学研究所、圣保罗州立大学生物科学、人文科学与精确科学研究所、根特大学数据分析和数学建模系
摘要: 纹理是图像中的一个重要视觉属性,在各种图像识别应用中得到了广泛研究。卷积神经网络(CNNs)在许多计算机视觉任务中取得了成功,目前是最佳纹理分析方法之一。另一方面,Vision Transformers(ViTs)在物体识别等任务上已经超越了CNNs的性能,引起了该领域的范式转变。然而,迄今为止,ViTs尚未受到纹理识别的严格审查,这妨碍了对它们在这一特定环境中潜力的正确评估。因此,本研究探讨了将各种预训练的ViT架构转移到依赖纹理的任务时的情况。我们对21种不同的ViT变体进行了评估和比较,与CNNs和手工设计模型在多个任务上进行了广泛评估,例如评估对纹理旋转、缩放和照明变化的稳健性,以及区分颜色纹理、材质纹理和纹理属性。我们的目标是了解这些模型在直接应用于纹理识别时的潜力和差异,主要使用预训练的ViTs进行特征提取,并使用线性分类器进行评估。我们还评估了它们的效率,这是与其他方法相比的主要缺点之一。我们的结果显示,ViTs通常优于CNNs和手工设计模型,特别是在使用更强的预训练和涉及野外纹理(来自互联网的图像)的任务时。我们强调以下有前途的模型:具有DINO预训练的ViT-B、BeiTv2和Swin架构,以及EfficientFormer作为低成本替代方案。就效率而言,尽管GFLOPs和参数数量较高,但与ResNet50相比,ViT-B和BeiT(v2)在GPU上可以实现更低的特征提取时间。
论文链接: https://arxiv.org/pdf/2406.06136
cs.LG: 在软件定义网络中的顺序二进制分类入侵检测
原标题: Sequential Binary Classification for Intrusion Detection in Software Defined Networks
作者: Ishan Chokshi, Shrihari Vasudevan, Nachiappan Sundaram, Raaghul Ranganathan
机构: 爱立信 钱奈 印度 Chennai
摘要: 软件定义网络(SDN)是网络部署的标准架构。入侵检测系统(IDS)作为这项技术的关键部分,随着网络对新型和复杂攻击变得更加脆弱而变得至关重要。基于机器学习(ML)的IDS越来越被视为处理这一问题最有效的方法。然而,IDS数据集存在严重的类别不平衡问题,这影响了标准ML模型的性能。我们提出了顺序二元分类(SBC)- 一种用于解决这一问题的多类分类算法。SBC是基于基本分类器的分层级联,每个基本分类器可以建模为任何通用的二元分类器。在评估SBC在不同场景下的性能的基准数据集上进行了大量实验。
论文链接: https://arxiv.org/pdf/2406.06099
cs.LG: 利用卷积注入器调整预训练的 ViTs 用于视觉-运动控制
原标题: Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control
作者: Dongyoon Hwang, Byungkun Lee, Hojoon Lee, Hyunseung Kim, Jaegul Choo
摘要: Vision Transformers(ViT),当与大规模预训练配对时,在各种计算机视觉任务中表现出卓越的性能,主要是由于它们的弱归纳偏差。然而,虽然这种弱归纳偏差有助于预训练的可扩展性,但由于缺乏以控制为中心的归纳偏差,这可能会妨碍ViTs有效适应视觉-运动控制任务。这些缺失的归纳偏差包括空间局部性和平移等变性偏差,而这些是卷积自然提供的。为此,我们引入了Convolution Injector(CoIn),这是一个附加模块,将富含局部性和等变性偏差的卷积注入预训练的ViT,以便在视觉-运动控制中实现有效的适应。我们使用三种不同类型的预训练ViTs(CLIP、MVP、VC-1)评估CoIn在三个不同领域(Adroit、MetaWorld、DMC)内的12个不同控制任务中,并证明CoIn始终提高了所有实验环境和模型中的控制任务性能,验证了为预训练的ViTs提供以控制为中心的偏差的有效性。
论文链接: https://arxiv.org/pdf/2406.06072
cs.LG: 无分布预测推断在未知时间漂移下
原标题: Distribution-Free Predictive Inference under Unknown Temporal Drift
作者: Elise Han, Chengpiao Huang, Kaizheng Wang
摘要: 分布无关的预测集在复杂统计模型的不确定性量化中发挥着关键作用。它们的有效性取决于可靠的校准数据,这些数据可能并不容易获得,因为现实世界的环境经常会随着时间而发生未知变化。在本文中,我们提出了一种选择自适应窗口并利用其中的数据构建预测集的策略。通过优化估计的偏差-方差权衡来选择窗口。我们为我们的方法提供了尖锐的覆盖保证,展示了它对潜在时间漂移的适应性。我们还通过对合成和真实数据的数值实验展示了其有效性。
论文链接: https://arxiv.org/pdf/2406.06516
cs.LG: 在线牛顿法用于赌博凸优化
原标题: Online Newton Method for Bandit Convex Optimisation
作者: Hidde Fokkema, Dirk van der Hoeven, Tor Lattimore, Jack J. Mayo
机构: 阿姆斯特丹大学 莱顿大学 谷歌DeepMind
摘要: 我们介绍了一种计算高效的零阶赌博凸优化算法,并证明在对抗设置中,其遗憾最多为 d 3.5 n p o l y l o g ( n , d ) d^{3.5} \sqrt{n} \mathrm{polylog}(n, d) d3.5npolylog(n,d),高概率下成立,其中 d d d 是维度, n n n 是时间范围。在随机设置中,界限改进为 M d 2 n p o l y l o g ( n , d ) M d^{2} \sqrt{n} \mathrm{polylog}(n, d) Md2npolylog(n,d),其中 M ∈ [ d − 1 / 2 , d − 1 / 4 ] M \in [d^{-1/2}, d^{-1 / 4}] M∈[d−1/2,d−1/4] 是一个常数,取决于约束集的几何形状和所需的计算性质。
论文链接: https://arxiv.org/pdf/2406.06506
cs.LG: 在马尔可夫博弈和多智能体强化学习中的风险敏感性:一项系统性回顾
原标题: Risk Sensitivity in Markov Games and Multi-Agent Reinforcement Learning: A Systematic Review
作者: Hafez Ghaemi, Shirin Jamshidi, Mohammad Mashreghi, Majid Nili Ahmadabadi, Hamed Kebriaei
摘要: 马尔可夫博弈(MGs)和多智能体强化学习(MARL)被研究用于建模多智能体系统中的决策制定。传统上,MG和MARL中的目标是风险中性的,即,假设智能体优化性能指标,如期望回报,而不考虑自身或其他智能体的主观或认知偏好。然而,忽略这些偏好会导致在金融、运筹学和行为经济学等许多现实场景中决策制定模型不准确。因此,当存在这些偏好时,有必要将风险的适当度量纳入智能体的优化目标中,这为风险敏感的MG和MARL打开了大门。在本文中,我们系统地回顾了近年来与强化学习和博弈论等其他领域一起增长的MG和MARL中风险敏感性的文献。我们定义并数学描述了MG和MARL中使用的不同风险度量,并针对每个度量单独讨论了包含它的文章。最后,我们确定了该领域理论和应用作品中的最新趋势,并讨论了未来研究的可能方向。
论文链接: https://arxiv.org/pdf/2406.06041
cs.LG: 量子平衡传播,基于Onsager互易原理,用于高效训练量子系统。
原标题: Quantum Equilibrium Propagation for efficient training of quantum systems based on Onsager reciprocity
作者: Clara C. Wanjura, Florian Marquardt
机构: 马克斯·普朗克光学科学研究所 德国 埃尔朗根大学-纽伦堡分校 物理系
摘要: 机器学习和人工智能在科学技术的各个领域的广泛应用,已经创造了对能效高、替代硬件平台的需求。虽然已经提出并实现了这种神经形态学方法用于各种平台,但是物理上提取用于训练的梯度仍然具有挑战性,因为通用方法只存在于某些情况下。平衡传播(EP)是一种已经被引入并应用于经典基于能量的模型的程序,这些模型会松弛到一个平衡状态。在这里,我们展示了EP与Onsager互易之间的直接联系,并利用这一点推导出EP的量子版本。这可以用来优化依赖于任意量子系统的可观测量期望值的损失函数。具体来说,我们通过监督和无监督学习示例来说明这个新概念,其中输入或可解任务具有量子力学性质,例如,识别量子多体基态、量子相探索、传感和相界探索。我们提出,在未来,量子EP可能被用于解决诸如量子相发现之类的任务,即使对于数值上难以模拟或甚至部分未知的哈密顿量。我们的方案对于各种量子模拟平台都是相关的,例如离子链、超导量子比特阵列、中性原子Rydberg镊子阵列和光学光栅中的强相互作用原子。
论文链接: https://arxiv.org/pdf/2406.06482