2024年6月12日Arxiv机器学习相关论文

cs.LG: CDSA: 保守去噪基于得分的离线强化学习算法

原标题: CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning

作者: Zeyuan Liu, Kai Yang, Xiu Li

机构: 清华大学深圳国际研究生院

摘要: 分布偏移是离线强化学习中的一个主要障碍,这需要最小化学习策略与行为策略之间的差异,以避免高估罕见或未见行为。先前的保守型离线强化学习算法在学习良好的分布内策略方面取得成功,但在泛化到未见行为方面却遇到困难。相比之下,我们提出利用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始行为。我们将保守性约束与策略解耦,因此可以使各种离线强化学习算法受益。因此,我们提出了基于保守去噪分数的算法(CDSA),该算法利用去噪分数模型来建模数据集密度的梯度,而不是数据集密度本身,并促进了一种更准确和高效的方法,用于在确定性和连续的MDP环境中调整预训练策略生成的行为。在实验中,我们展示了我们的方法显著改善了D4RL数据集中基线算法的性能,并展示了我们的模型在不同任务中不同预训练离线强化学习策略之间的泛化性和即插即用能力。我们还验证了在采用我们的方法后,智能体表现出更大的风险规避能力,同时展示了其在各种任务中有效泛化的能力。

论文链接: https://arxiv.org/pdf/2406.07541

cs.LG: 朝向基本可扩展的模型选择:渐近快速更新和选择

原标题: Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection

作者: Wenxiao Wang, Weiming Zhuang, Lingjuan Lyu

机构: 马里兰大学 索尼人工智能

摘要: 深度学习技术的进步每天都带来新模型,促使人们研究可扩展模型选择。理想的模型选择方案应该能够在大量候选模型中高效地支持两种操作:更新(包括添加新候选模型或移除现有候选模型)和选择(为给定任务找到性能优异的模型)。然而,先前的模型选择解决方案对这两种操作中至少一种都需要高计算复杂度。在这项工作中,我们致力于基本(更)可扩展的模型选择,同时支持渐进快速的更新和渐进快速的选择。首先,我们定义了孤立模型嵌入,这是一系列支持渐进快速更新和选择的模型选择方案:就候选模型数量 m m m而言,更新复杂度为O(1),选择包括对 m m m个向量进行一次扫描,另外还有O(1)个模型操作。孤立模型嵌入还暗示了应用中的几个理想特性。其次,我们提出了标准化嵌入器,这是孤立模型嵌入的一个实证实现。我们通过将其用于从100个预训练视觉模型池中选择表示进行分类任务,并使用线性探测协议测量所选模型与最佳候选模型之间的性能差距来评估其有效性。实验表明,我们的实现在选择具有竞争性能的模型方面是有效的,并突出了孤立模型嵌入作为朝着基本(更)可扩展模型选择的一个有前途的方向。

论文链接: https://arxiv.org/pdf/2406.07536

cs.LG: 学习具有张量秩条件的离散潜变量结构

原标题: Learning Discrete Latent Variable Structures with Tensor Rank Conditions

作者: Zhengming Chen, Ruichu Cai, Feng Xie, Jie Qiao, Anpeng Wu, Zijian Li, Zhifeng Hao, Kun Zhang

机构: 广东工业大学 计算机科学学院 马哈茂德·本·扎耶德人工智能大学 北京工商大学 应用统计学系 浙江大学 计算机科学与技术系 卡内基梅隆大学 哲学系

摘要: 未观测到的离散数据在许多科学学科中是普遍存在的,学习这些潜变量的因果结构对于揭示数据模式至关重要。大多数研究集中在线性潜变量模型或对潜在结构施加严格约束,这未能解决涉及非线性关系或复杂潜在结构的离散数据情况。为了实现这一目标,我们探讨了对于观测变量集合 X p \mathbf{X}_p Xp的列联表的张量秩条件,表明秩由特定条件集合(不一定在 X p \mathbf{X}_p Xp中)的最小支持决定,该条件集合d-分离 X p \mathbf{X}_p Xp中的所有变量。通过这种方式,可以通过探测不同观测变量集合上的秩来定位潜变量,并在一些结构假设下进一步确定潜在因果结构。我们提出了相应的识别算法,并进行了模拟实验以验证我们方法的有效性。总的来说,我们的结果优雅地扩展了具有离散潜变量的因果发现的识别边界,并扩大了具有潜变量的因果发现的应用范围。

论文链接: https://arxiv.org/pdf/2406.07020

cs.LG: MAP:通过二次近似在低计算模型合并中使用摊销帕累托前沿

原标题: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

作者: Lu Li, Tianyu Zhang, Zhiqi Bu, Suyuchen Wang, Huan He, Jie Fu, Yonghui Wu, Jiang Bian, Yong Chen, Yoshua Bengio

机构: 宾夕法尼亚大学 港科大 佛罗里达大学 MILA 亚马逊AI ServiceNow Research

摘要: 模型合并已经成为一种有效的方法,将从相同预训练模型微调的多个单任务模型合并成一个多任务模型。这个过程通常涉及计算模型参数的加权平均,而无需进行额外的训练。现有的模型合并方法侧重于提高平均任务准确性。然而,不同任务目标之间的干扰和冲突可能导致模型合并过程中的权衡。在实际应用中,具有各种权衡的一组解决方案可能更具信息量,帮助从业者基于不同偏好做出决策。在本文中,我们介绍了一种新颖的低计算算法,即带摊销帕累托前沿(MAP)的模型合并。MAP识别一组缩放系数的帕累托集,用于合并多个模型以反映权衡。MAP的核心组件是使用从预选缩放系数集导出的二次逼近替代模型来近似各种任务的评估指标,实现摊销推理。对视觉和自然语言处理任务的实验结果表明,MAP能够准确识别帕累托前沿。为了进一步减少MAP所需的计算量,我们提出了(1)贝叶斯自适应采样算法和(2)具有多个阶段的嵌套合并方案。

论文链接: https://arxiv.org/pdf/2406.07529

cs.LG: 在动态车载网络中的DNN分区、任务卸载和资源分配:一种以李雅普诺夫引导的基于扩散的强化学习方法

原标题: DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach

作者: Zhang Liu, Hongyang Du, Junzhe Lin, Zhibin Gao, Lianfen Huang, Seyyedali Hosseinalipour, Dusit Niyato

机构: 清华大学 新加坡国立大学

摘要: 人工智能(AI)的快速发展已经将基于深度神经网络(DNN)的任务引入了车载网络生态系统。这些任务通常需要大量计算资源,超出了单个车辆的能力范围。为了解决这一挑战,车载边缘计算(VEC)作为一种解决方案应运而生,通过车辆间/车辆基础设施(V2V/V2I)通信的资源池化为基于DNN的任务提供计算服务。在本文中,我们将VEC中的联合DNN分区、任务卸载和资源分配问题建模为动态的长期优化问题。我们的目标是在保证系统稳定性的同时最小化基于DNN的任务完成时间。为此,我们首先利用Lyapunov优化技术将原始的长期优化问题与稳定性约束解耦为每个时隙的确定性问题。随后,我们提出了一种基于多智能体扩散的深度强化学习(MAD2RL)算法,结合了扩散模型的创新应用,以确定最佳的DNN分区和任务卸载决策。此外,我们将凸优化技术集成到MAD2RL中作为一个子程序,以分配计算资源,提高学习效率。通过在真实车辆移动轨迹下进行的模拟,我们展示了我们提出的算法相对于现有基准解决方案的卓越性能。

论文链接: https://arxiv.org/pdf/2406.06986

cs.LG: QuickLLaMA: 针对大语言模型的查询感知推理加速

原标题: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models

作者: Jingyao Li, Han Shi, Xin Jiang, Zhenguo Li, Hong Xu, Jiaya Jia

机构: 香港中文大学 华为诺亚方舟实验室 SmartMore

摘要: 大语言模型(LLMs)的能力理解和推理长文本对于各个领域的进展至关重要。然而,它们仍然在捕捉序列中的长距离依赖关系以深入理解语义方面存在困难。为了解决这个问题,我们引入了面向查询的大语言模型推理(Q-LLM),这是一个旨在处理类似人类认知的广泛序列的系统。通过专注于与给定查询相关的记忆数据,Q-LLM可以准确捕获固定窗口大小内的相关信息,并提供对查询的精确答案。它不需要额外的训练,并且可以无缝集成到任何大语言模型中。Q-LLM使用LLaMA3(QuickLLaMA)可以在30秒内阅读哈利·波特并准确回答问题。与LLaMA3的当前最先进技术相比,Q-LLM提高了7.17%,在 ∞ \infty -bench上提高了3.26%。在“大海捞针”任务中,在广泛认可的基准测试中,Q-LLM在Mistral上比当前SOTA提高了7.0%,在LLaMA3上达到了100%。我们的代码可以在此https URL中找到。

论文链接: https://arxiv.org/pdf/2406.07528

Github: https://github.com/dvlab-research/Q-LLM

cs.LG: 图像和视频的二进制球面量化标记化

原标题: Image and Video Tokenization with Binary Spherical Quantization

作者: Yue Zhao, Yuanjun Xiong, Philipp Krähenbühl

机构: 德克萨斯大学奥斯汀分校 MThreads AI

摘要: 我们提出了一种基于Transformer的图像和视频分词器,采用二进制球面量化(BSQ)。BSQ将高维视觉嵌入投影到低维超球体,然后应用二进制量化。BSQ具有以下特点:(1)在没有显式码书的情况下具有参数效率,(2)可扩展到任意的token维度,(3)紧凑:最多可将视觉数据压缩至原始数据的100倍,并且失真最小。我们的分词器使用了一个Transformer编码器和解码器,采用简单的分块因果屏蔽以支持可变长度的视频输入。由此产生的BSQ-ViT在图像和视频重建基准上实现了最先进的视觉重建质量,与最佳先前方法相比,吞吐量提高了2.4倍。此外,通过学习自回归先验以进行自适应算术编码,BSQ-ViT在视频压缩方面实现了与最先进视频压缩标准相媲美的结果。BSQ-ViT还使得掩蔽语言模型能够实现与基于GAN和扩散的方法相媲美的图像合成质量。

论文链接: https://arxiv.org/pdf/2406.07548

cs.LG: 关于多集和图神经网络的Hölder稳定性

原标题: On the Hölder Stability of Multiset and Graph Neural Networks

作者: Yair Davidson, Nadav Dym

机构: 以色列理工学院计算机科学学院 数学学院

摘要: 著名的基于求和池化的多集神经网络可以分离所有不同的多集,因此可以被消息传递神经网络(MPNNs)用来分离所有可以通过1-WL图同构测试分离的图对。然而,这种分离的质量可能非常弱,以至于在使用固定有限精度时,“可分离”的多集和图的嵌入甚至可能被认为是相同的。
在这项工作中,我们提出通过将Lipschitz和Hölder连续性的新颖适应应用于参数函数,来充分分析多集模型和MPNNs的分离质量。我们证明常见的基于求和的模型是较低Hölder连续的,其Hölder指数随着网络深度迅速衰减。我们的分析导致了一些对抗性图的例子,这些图可以通过三次1-WL迭代分离,但在实践中无法被标准的最大强度MPNNs分离。为了解决这个问题,我们提出了两种改进分离质量的新型MPNNs,其中一种是较低Lipschitz连续的。我们展示这些MPNNs可以轻松分类我们的对抗性例子,并在标准图学习任务上与标准MPNNs进行了有利的比较。

论文链接: https://arxiv.org/pdf/2406.06984

cs.LG: 流地图匹配

原标题: Flow Map Matching

作者: Nicholas M. Boffi, Michael S. Albergo, Eric Vanden-Eijnden

机构: 纽约大学 Courant数学科学研究所

摘要: 基于动态测度传输的生成模型,如扩散模型、流匹配模型和随机插值器,学习普通或随机微分方程,其轨迹将初始条件从已知基础分布推送到目标分布。虽然训练成本低廉,但样本是通过模拟生成的,这比 GAN 等一步模型更昂贵。为了弥合这一差距,我们引入了流映射匹配——一种学习基础普通微分方程的两时间流映射的算法。这种方法导致了一种高效的少步生成模型,其步数可以事后选择,以平滑地在准确性和计算开销之间进行权衡。利用随机插值器框架,我们为直接训练流映射和从预训练(或其他已知)速度场中提取引入了损失。从理论上讲,我们展示了我们的方法统一了许多现有的少步生成模型,包括一致性模型、一致性轨迹模型、渐进蒸馏和神经算子方法,这些模型可以作为我们形式化的特例得到。通过在 CIFAR-10 和 ImageNet 32x32 上的实验,我们展示了流映射匹配相对于扩散或随机插值方法具有显着降低的采样成本的高质量样本。

论文链接: https://arxiv.org/pdf/2406.07507

cs.LG: 音频水印基准测试:评估音频水印的稳健性

原标题: AudioMarkBench: Benchmarking Robustness of Audio Watermarking

作者: Hongbin Liu, Moyang Guo, Zhengyuan Jiang, Lun Wang, Neil Zhenqiang Gong

机构: 杜克大学 谷歌

摘要: 合成语音的逼真度不断增加,得益于文本转语音模型的进步,引发了关于冒充和虚假信息的伦理关切。音频水印技术通过将人类无法察觉的水印嵌入到AI生成的音频中,提供了一种有前途的解决方案。然而,音频水印技术对常见/对抗性扰动的稳健性仍未得到充分研究。我们提出了AudioMarkBench,这是第一个系统性基准,用于评估音频水印技术对抗水印去除和水印伪造的稳健性。AudioMarkBench包括一个新数据集,跨越多种语言、生物性别和年龄,3种最先进的水印方法,以及15种扰动类型。我们在无盒、黑盒和白盒设置中对这些方法的稳健性进行了基准测试。我们的研究结果突显了当前水印技术的脆弱性,并强调了更加稳健和公平的音频水印解决方案的需求。我们的数据集和代码可以在\url{this https URL}上公开获取。

论文链接: https://arxiv.org/pdf/2406.06979

Github: https://github.com/moyangkuo/AudioMarkBench

cs.LG: Ctrl-X:在没有指导的情况下控制文本到图像生成的结构和外观

原标题: Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance

作者: Kuan Heng Lin, Sicheng Mo, Ben Klingher, Fangzhou Mu, Bolei Zhou

机构: 加利福尼亚大学洛杉矶分校 NVIDIA

摘要: 最近的可控生成方法,如FreeControl和Diffusion Self-guidance,为文本到图像(T2I)扩散模型带来了细粒度的空间和外观控制,而无需训练辅助模块。然而,这些方法通过更长的扩散步骤优化每种类型的得分函数的潜在嵌入,使生成过程耗时,并限制了它们的灵活性和使用。本文介绍了Ctrl-X,这是一个简单的框架,用于T2I扩散,可以控制结构和外观,而无需额外的训练或指导。Ctrl-X设计了前馈结构控制,以实现与结构图像的结构对齐,并设计了语义感知外观转移,以促进从用户输入图像进行外观转移。大量的定性和定量实验展示了Ctrl-X在各种条件输入和模型检查点上的卓越性能。特别是,Ctrl-X支持任意条件图像的新颖结构和外观控制,相比现有作品,展现出卓越的图像质量和外观转移,并为任何T2I和文本到视频(T2V)扩散模型提供即插即用的功能。请查看我们的项目页面以获取结果概述:此处的链接。

论文链接: https://arxiv.org/pdf/2406.07540

Github: https://genforce.github.io/ctrl-x

cs.LG: 利用Transformer模型实现120小时流量预测的通用水文预测

原标题: Towards Generalized Hydrological Forecasting using Transformer Models for 120-Hour Streamflow Prediction

作者: Bekir Z. Demiray, Ibrahim Demir

机构: 爱荷华大学

摘要: 这项研究探讨了在美国爱荷华州的125个不同地点中,使用Transformer模型进行120小时流量预测的有效性。利用前72小时的数据,包括降水、蒸散发和流量数值,我们开发了一个通用模型来预测未来的流量。我们的方法与通常依赖于特定地点模型的传统方法形成对比。我们将Transformer模型的性能与三个深度学习模型(LSTM、GRU和Seq2Seq)以及持续方法进行了基准测试,使用Nash-Sutcliffe效率(NSE)、Kling-Gupta效率(KGE)、Pearson’s r和标准化均方根误差(NRMSE)作为评估指标。研究显示了Transformer模型的卓越性能,保持更高的中位数NSE和KGE得分,并展示了最低的NRMSE值。这表明它能够准确模拟和预测流量,有效适应不同的水文条件和地理差异。我们的发现强调了Transformer模型作为水文建模中先进工具的潜力,相比传统和当代方法,它提供了显著的改进。

论文链接: https://arxiv.org/pdf/2406.07484

cs.LG: 跨领域感知工人选择与众包注释培训

原标题: Cross-domain-aware Worker Selection with Training for Crowdsourced Annotation

作者: Yushi Sun, Jiachuan Wang, Peng Cheng, Libin Zheng, Lei Chen, Jian Yin

机构: 香港科技大学 上海华东师范大学 中山大学 香港科技大学(广州)

摘要: 通过众包进行注释吸引了越来越多的关注,这依赖于在一群工作者中选择有效方案。现有方法提出根据工作者在具有地面真相的任务中的表现来选择工作者,但遗漏了两个重要点。1)工作者在其他任务中的历史表现。在现实场景中,工作者需要解决一个与之前任务相关性不明确的新任务,这被称为跨域。2)工作者的动态表现,因为工作者会从地面真相中学习。在本文中,我们考虑这两个因素,设计了一个名为跨域感知工作者选择与训练方法的分配方案。我们的方法提出了两个估计模块,用于统计分析跨域相关性并动态模拟工作者的学习收益。给出了一个具有工作者淘汰过程理论分析的框架。为验证我们方法的有效性,我们收集了两个新颖的真实世界数据集并生成了合成数据集。实验结果显示,我们的方法在真实世界和合成数据集上均优于基线方法。

论文链接: https://arxiv.org/pdf/2406.06977

cs.LG: 无处不在的听觉

原标题: Hearing Anything Anywhere

作者: Mason Wang, Ryosuke Sawata, Samuel Clarke, Ruohan Gao, Shangzhe Wu, Jiajun Wu

机构: 斯坦福大学 索尼人工智能 马里兰大学帕克分校

摘要: 近年来,在3D计算机视觉和计算机图形方面取得了巨大进展,出现了可以为众多混合现实(XR)应用程序虚拟化现实世界3D环境的新工具。然而,除了沉浸式视觉体验外,沉浸式听觉体验对我们对环境的整体感知同样至关重要。在本文中,我们旨在仅通过一组稀疏的(大约12个)房间脉冲响应(RIR)录音和场景的平面重建来重建任意环境的空间声学特征,这种设置对普通用户来说很容易实现。为此,我们引入了DiffRIR,一个具有可解释的场景显著声学特征的参数化模型的可微RIR渲染框架,包括声源指向性和表面反射率。这使我们能够通过空间合成新颖的听觉体验,使用任何源音频。为了评估我们的方法,我们收集了四个不同真实环境中的RIR录音和音乐数据集。我们展示了我们的模型在渲染未知位置的单声道和双声道RIR以及音乐方面优于最先进的基线,并学习了表征场景中声源和表面声学特性的物理可解释参数。

论文链接: https://arxiv.org/pdf/2406.07532

cs.LG: 使用最优输运和动力学先验进行部分观测轨迹推断

原标题: Partially Observed Trajectory Inference using Optimal Transport and a Dynamics Prior

作者: Anming Gu, Edward Chien, Kristjan Greenewald

机构: 波士顿大学 麻省理工学院-IBM沃森人工智能实验室 IBM研究

摘要: 轨迹推断旨在从人口的时间边际快照中恢复时间动态,即观察到的粒子在时间上未被跟踪。Lavenant等人在arXiv:2102.09204中针对这一具有挑战性的问题,使用了具有梯度驱动漂移的随机微分方程(SDE)模型,在观察空间中引入了相对于维纳测度的最小熵估计器。Chizat等人在arXiv:2205.07146中提出了一种实用的无网格均场朗之万(MFL)算法,使用薛定谔桥接。受传统配对轨迹推断问题(例如目标跟踪)中可观测状态空间模型取得的巨大成功的启发,我们将上述框架扩展到一类潜在SDE,形式为可观测状态空间模型。在这种情况下,我们使用部分观测来推断在指定动力学模型下的潜在空间中的轨迹(例如来自目标跟踪的恒定速度/加速度模型)。我们引入PO-MFL来解决这一潜在轨迹推断问题,并通过将arXiv:2102.09204的结果扩展到部分观测设置来提供理论保证。我们利用arXiv:2205.07146的MFL框架,提出了一种基于动力学调整相邻时间边际之间的熵传输(OT)的算法。实验证实了我们方法的稳健性以及MFL动力学的指数收敛,并在关键场景中展示了相对于arXiv:2205.07146中无潜在方法的显著优越性。

论文链接: https://arxiv.org/pdf/2406.07475

其他链接: https://arxiv.org/abs/2102.09204

cs.LG: 估计生成型人工智能的幻觉率

原标题: Estimating the Hallucination Rate of Generative AI

作者: Andrew Jesson, Nicolas Beltran-Velez, Quentin Chu, Sweta Karlekar, Jannik Kossen, Yarin Gal, John P. Cunningham, David Blei

机构:

摘要: 这项工作是关于使用生成式人工智能估计上下文学习(ICL)中的幻觉率。在ICL中,通过一个数据集提示条件生成模型(CGM),并要求基于该数据集进行预测。ICL的贝叶斯解释假设CGM正在计算一个潜在参数和数据的未知贝叶斯模型上的后验预测分布。从这个角度来看,我们将\textit{幻觉}定义为在真实潜在参数下概率较低的生成预测。我们开发了一种新方法,该方法接受一个ICL问题 – 即一个CGM、一个数据集和一个预测问题 – 并估计CGM生成幻觉的概率。我们的方法只需要从模型生成查询和响应,并评估其响应的对数概率。我们在合成回归和自然语言ICL任务上,使用大语言模型对我们的方法进行了实证评估。

论文链接: https://arxiv.org/pdf/2406.07457

cs.LG: 更快的核范数中的谱密度估计和稀疏化

原标题: Faster Spectral Density Estimation and Sparsification in the Nuclear Norm

作者: Yujia Jin, Ishani Karmarkar, Christopher Musco, Aaron Sidford, Apoorv Vikram Singh

机构: 斯坦福大学 纽约大学

摘要: 我们考虑估计 n n n-节点无向图的归一化邻接矩阵的谱密度的问题。我们提供了一个随机算法,通过对度和邻居预言进行 O ( n ϵ − 2 ) O(n\epsilon^{-2}) O(nϵ2) 次查询,在 O ( n ϵ − 3 ) O(n\epsilon^{-3}) O(nϵ3) 的时间内,以 Wasserstein-1 距离中的 ϵ \epsilon ϵ 精度估计谱。这改进了先前的最先进方法,包括 [Braverman et al., STOC 2022] 中的 O ( n ϵ − 7 ) O(n\epsilon^{-7}) O(nϵ7) 时间算法,以及对于足够小的 ϵ \epsilon ϵ,[Cohen-Steiner et al., KDD 2018] 中的 2 O ( ϵ − 1 ) 2^{O(\epsilon^{-1})} 2O(ϵ1) 时间方法。为了实现这一结果,我们引入了一种新的图稀疏化概念,称为核稀疏化。我们提供了一个用于计算 O ( n ϵ − 2 ) O(n\epsilon^{-2}) O(nϵ2) 稀疏核稀疏化器的 O ( n ϵ − 2 ) O(n\epsilon^{-2}) O(nϵ2)-查询和 O ( n ϵ − 2 ) O(n\epsilon^{-2}) O(nϵ2)-时间算法。我们展示了这个界限在稀疏性和查询复杂性方面是最优的,并且我们将我们的结果与相关的加法谱稀疏化概念分开。在独立的兴趣方面,我们展示了我们的稀疏化方法也提供了第一个随着 n n n 线性扩展的(在图的表示大小中是次线性的)谱密度估计的确定性算法。

论文链接: https://arxiv.org/pdf/2406.07521

cs.LG: fKAN: 具有可训练Jacobi基函数的分数Kolmogorov-Arnold网络

原标题: fKAN: Fractional Kolmogorov-Arnold Networks with trainable Jacobi basis functions

作者: Alireza Afzal Aghaei

机构: 独立研究者

摘要: 最近神经网络设计的进展催生了 Kolmogorov-Arnold Networks (KANs) 的发展,这些网络增强了速度、可解释性和精度。本文介绍了Fractional Kolmogorov-Arnold Network (fKAN),这是一种新颖的神经网络架构,它将KANs的独特属性与可训练的自适应分数正交Jacobi函数作为其基函数相结合。通过利用分数Jacobi函数的独特数学属性,包括简单的导数公式、非多项式行为以及对正负输入值均有活性,这种方法确保了高效的学习和增强的准确性。所提出的架构在深度学习和基于物理的深度学习的一系列任务中进行了评估。精度在合成回归数据、图像分类、图像去噪和情感分析上进行了测试。此外,性能还在各种微分方程上进行了测量,包括普通微分方程、偏微分方程和分数延迟微分方程。结果表明,将分数Jacobi函数整合到KANs中显著提高了训练速度和性能,适用于各种领域和应用。

论文链接: https://arxiv.org/pdf/2406.07456

Github: https://github.com/alirezaafzalaghaei/fKAN

cs.LG: 规模化的低秩多字典选择

原标题: Low Rank Multi-Dictionary Selection at Scale

作者: Boya Ma, Maxwell McNeil, Abram Magner, Petko Bogdanov

机构: 纽约州立大学奥尔巴尼分校 计算机科学系

摘要: 稀疏字典编码框架将信号表示为少量预定义字典原子的线性组合。它已被用于图像、时间序列、图信号,最近也用于使用联合时间和空间字典的二向(或2D)时空数据。大型和过完备的字典可以实现高质量的模型,但也带来了在多字典设置下加剧的可扩展性挑战。因此,本文要解决的一个重要问题是:如何为大型字典和数据集扩展多字典编码?
我们提出了一种用于低秩稀疏编码的多字典原子选择技术,名为LRMDS。为了实现对大型字典和数据集的可扩展性,它逐步选择基于其与数据对齐情况的行-列原子对,并通过相应的子字典执行凸松弛编码。我们在理论上和实验上都证明,当数据具有稀疏原子子集的低秩编码时,LRMDS能够在温和假设下提供强有力的选择保证。此外,我们在合成和真实数据集上展示了LRMDS的可扩展性和质量,并针对一系列编码字典进行了测试。与基线相比,它在一些真实世界数据集上实现了3倍到10倍的加速,同时在给定固定目标原子数的情况下,在表示质量上获得了高达两个数量级的改进。

论文链接: https://arxiv.org/pdf/2406.06960

cs.LG: 物理引导的弱形式发现用于困住的超冷流体动力学的降阶模型

原标题: Physics-guided weak-form discovery of reduced-order models for trapped ultracold hydrodynamics

作者: Reuben R. W. Wang, Daniel Messenger

机构: JILA, NIST, 科罗拉多大学博尔德分校 应用数学系

摘要: 我们研究高度碰撞的、超冷但非简并极性分子气体的弛豫过程。气体被限制在谐振陷阱内,受到流体-气态耦合动力学的影响,导致一阶流体力学的崩溃。先前曾尝试用高斯猜想和粗粒化模型参数[R. R. W. Wang & J. L. Bohn, Phys. Rev. A 108, 013322 (2023)]处理这些高阶流体力学效应,从而得到了适用于实验可观测的少数集体可观测量的近似方程组。在这里,我们提出了针对这些相同可观测量的大幅改进的降阶模型,超越了先前的参数范围,直接从使用WSINDy算法(Weak-form Sparse Identification of Nonlinear Dynamics)的粒子模拟中发现。学习算法的可解释性使得能够估计先前未知的物理量,并发现具有候选物理机制的模型项,揭示了混合碰撞区域的新物理。我们的方法构成了一个利用已知物理的数据驱动模型识别的通用框架。

论文链接: https://arxiv.org/pdf/2406.07519

cs.LG: 无需奖励推断的人类反馈强化学习:无模型算法和实例相关分析

原标题: Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis

作者: Qining Zhang, Honghao Wei, Lei Ying

机构: 密西根大学 安娜堡 华盛顿州立大学

摘要: 在这篇论文中,我们研究了在具有一般轨迹-wise奖励模型的情节马尔可夫决策过程下从人类反馈中进行强化学习(RLHF)。我们开发了一种无模型RLHF最佳策略识别算法,称为 B S A D \mathsf{BSAD} BSAD,无需显式奖励模型推断,这是当代RLHF范式中训练大语言模型(LLM)的关键中间步骤。该算法以一种向后的方式直接从人类偏好信息中识别最优策略,采用一种不断进行动作对决以识别优越动作的对决强化子程序。 B S A D \mathsf{BSAD} BSAD采用无奖励探索和类似最佳臂识别的自适应停止标准,以在同一决策步骤中均衡访问所有状态的访问量,并在可识别最优动作时尽快转移到上一个步骤,从而导致可证明的,实例相关的样本复杂度 O ~ ( c M S A 3 H 3 M log ⁡ 1 δ ) \tilde{\mathcal{O}}(c_{\mathcal{M}}SA^3H^3M\log\frac{1}{\delta}) O~(cMSA3H3Mlogδ1),这类似于经典RL中的结果,其中 c M c_{\mathcal{M}} cM是实例相关常数, M M M是批量大小。此外, B S A D \mathsf{BSAD} BSAD可以通过采用基于帧的方法转换为具有对数遗憾的探索-然后-承诺算法,并且可以推广到使用基于帧的方法的折扣MDPs。我们的结果表明:(i)在样本复杂度方面,RLHF并不比经典RL更加困难,(ii)端到端RLHF可以通过避免诸如过度拟合和分布转移等奖励推断中的陷阱来提供改进的性能。

论文链接: https://arxiv.org/pdf/2406.07455

cs.LG: 分布式 MIPLIB:用于推进基于 ML 引导的 MILP 方法的多领域库

原标题: Distributional MIPLIB: a Multi-Domain Library for Advancing ML-Guided MILP Methods

作者: Weimin Huang, Taoan Huang, Aaron M Ferber, Bistra Dilkina

机构: 南加州大学 康奈尔大学

摘要: 混合整数线性规划(MILP)是建模组合优化问题的基本工具。最近,越来越多的研究利用机器学习来加速MILP求解。尽管这种方法越来越受欢迎,但缺乏一个提供不同领域、不同难度级别、带有标准化测试集的类似MILP实例分布的共同存储库。在本文中,我们介绍了Distributional MIPLIB,这是一个用于推进ML引导的MILP方法的多领域问题分布库。我们从这一领域的现有工作以及未被使用过的现实世界问题中策划MILP分布,并将它们分类为不同的难度级别。它将通过在不同和现实领域上进行全面评估来促进这一领域的研究。我们通过两种方式实证说明了使用Distributional MIPLIB作为研究工具的好处。我们评估了先前未使用的分布上ML引导的变量分支的性能,以确定改进的潜在领域。此外,我们建议从各种分布中学习分支策略,表明混合分布在数据有限且对更大实例具有良好泛化能力时比同质分布表现更好。

论文链接: https://arxiv.org/pdf/2406.06954

cs.LG: 比较使用高分辨率卫星图像在不丹进行水稻制图的深度学习模型。

原标题: Comparing Deep Learning Models for Rice Mapping in Bhutan Using High Resolution Satellite Imagery

作者: Biplov Bhandari, Timothy Mayer

机构: Bhutanese government

摘要: 不丹政府正在增加对技术方法的利用,例如在决策过程中包括基于遥感的知识。该研究侧重于不丹产量最高的稻米种植区之一Paro的作物类型和作物范围,并利用来自Planet的NICFI高分辨率卫星图像。两种深度学习(DL)方法,基于点的(DNN)和基于补丁的(U-Net)模型与云计算平台一起使用。针对每种DL方法(DNN和U-Net)训练了三种不同的模型:1)来自Planet的RGBN通道;2)RGBN和高程数据(RGBNE);3)RGBN和Sentinel-1(S1)数据(RGBNS),以及RGBN与E和S1数据(RGBNES)。通过这种全面分析,U-Net在模型训练和模型验证方面显示出更高的性能指标。在U-Net模型集中,RGBN、RGBNE、RGBNS和RGBNES模型的F1分数分别为0.8546、0.8563、0.8467和0.8500。进行了独立模型评估,并发现在所有指标上性能变化较大。对于这种独立模型评估,U-Net RGBN、RGBNE、RGBNES和RGBN模型显示的F1分数分别为0.5935、0.6154、0.5882和0.6582,表明U-Net RGBNES是最佳模型。该研究表明DL方法可以预测稻米。此外,DL方法可以与不丹农业部目前使用的基于调查的方法结合使用。此外,该研究展示了区域土地覆盖产品的使用,例如SERVIR的RLCMS作为一种弱标签方法,以捕捉不同地层,解决类别不平衡问题,并改善DL应用的抽样设计。最后,通过初步模型测试和比较,结果显示使用额外特征如NDVI、EVI和NDWI并未显著提高模型性能。

论文链接: https://arxiv.org/pdf/2406.07482

cs.LG: 一种基于乐观主义的生成模型在线评估方法

原标题: An Optimism-based Approach to Online Evaluation of Generative Models

作者: Xiaoyan Hu, Ho-fung Leung, Farzan Farnia

机构: 清华大学 西北工业大学

摘要: 现有的用于评估和比较生成模型的框架通常针对离线设置,评估者可以访问模型生成的完整数据批次。然而,在许多实际场景中,目标是使用尽可能少的生成样本来识别最佳模型,以最小化从模型查询数据的成本。使用当前的离线评估方法在在线比较中具有挑战性。在这项工作中,我们提出了一个在线评估框架,以找到在一组可用模型中最大化标准评估分数的生成模型。我们的方法使用基于乐观主义的多臂老虎机框架来识别产生具有最高评估分数的模型,量化生成数据的质量和多样性。具体来说,我们研究基于Fréchet Inception Distance(FID)和Inception Score(IS)指标的生成模型的在线评估,并提出了利用上置信界方法的FID-UCB和IS-UCB算法。我们证明了这些算法的次线性遗憾界,并在标准图像数据集上呈现了数值结果,展示了它们在识别最大化分数的生成模型方面的有效性。

论文链接: https://arxiv.org/pdf/2406.07451

cs.LG: 使用主动学习量化本地模型的有效性

原标题: Quantifying Local Model Validity using Active Learning

作者: Sven Lämmle, Can Bogoclu, Robert Voßhall, Anselm Haselhoff, Dirk Roos

机构: 尤里希海因应用科学大学 德国 弗里德里希港ZF公司 应用科学大学 尼德莱茵分校 柏林Zalando公司 辅助金融有限公司 鲁尔西应用科学大学

摘要: 机器学习模型在现实世界的应用通常受到法律或基于政策的规定的约束。其中一些规定要求确保模型的有效性,即逼近误差小于一个阈值。通常全局指标对于确定特定预测的有效性过于不敏感,而评估局部有效性成本高昂,因为需要收集额外数据。我们提出学习模型误差,通过主动学习减少所需数据量,以获取局部有效性估计。通过使用模型验证基准,我们提供了实证证据,表明所提出的方法可以通过相对较少的数据量产生具有足够区分性能的误差模型。此外,相对于替代方法,还展示了对有效性边界的局部变化增加了敏感性。

论文链接: https://arxiv.org/pdf/2406.07474

cs.LG: 非自回归个性化捆绑生成

原标题: Non-autoregressive Personalized Bundle Generation

作者: Wenchuan Yang, Cheng Yang, Jichao Li, Yuejin Tan, Xin Lu, Chuan Shi

机构: 国防科技大学 系统工程学院 北京邮电大学 计算机科学学院

摘要: 个性化捆绑生成问题旨在为用户从众多候选项目中创建首选捆绑,并在推荐中受到越来越多的关注。然而,现有的作品忽略了捆绑的无序性质,并采用顺序建模方法作为解决方案,这可能引入归纳偏差并导致预测中的大延迟。为了解决这个问题,我们提出通过非自回归机制执行捆绑生成,并设计了一个名为BundleNAT的新型编码器-解码器框架,可以在不依赖任何固有顺序的情况下有效地一次性输出目标捆绑。具体而言,我们提出采用预训练技术和图神经网络来充分嵌入基于用户的偏好和基于项目的兼容性信息,而不是学习顺序依赖关系,并使用基于自注意力的编码器进一步提取全局依赖模式。然后,我们设计了一个置换等变解码架构,能够以一次性方式直接输出所需的捆绑。在来自Youshu和Netease的三个真实数据集上的实验表明,所提出的BundleNAT在Precision、Precision+和Recall方面平均显著优于当前最先进的方法,分别提高了35.92%、10.97%和23.67%。

论文链接: https://arxiv.org/pdf/2406.06925

cs.LG: DeformTime:使用可变形注意力捕获时间序列预测的变量依赖关系

原标题: DeformTime: Capturing Variable Dependencies with Deformable Attention for Time Series Forecasting

作者: Yuxuan Shu, Vasileios Lampos

机构: 伦敦大学学院

摘要: 在多变量时间序列(MTS)预测中,现有的最先进深度学习方法往往专注于自回归公式,并忽视外生指标中的信息。为了解决这一局限性,我们提出了DeformTime,这是一种神经网络架构,旨在捕捉输入空间中相关的时间模式,从而提高预测准确性。它采用由可变形注意力块(DABs)执行的两个核心操作:学习来自不同时间步的变量之间的依赖关系(变量DAB),以及保留数据中来自先前时间步的时间依赖关系(时间DAB)。输入数据转换明确设计为增强从经过DAB的变形信息系列中学习。我们对6个MTS数据集进行了广泛实验,使用先前建立的基准以及具有更多外生变量的具有挑战性的传染病建模任务。结果表明,DeformTime在绝大多数MTS预测任务中提高了准确性,平均减少了10%的平均绝对误差。值得注意的是,性能增益在更长的预测时间范围内保持一致。

论文链接: https://arxiv.org/pdf/2406.07438

cs.LG: 基准测试视觉-语言对比方法,用于医学表征学习

原标题: Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning

作者: Shuvendu Roy, Yasaman Parhizkar, Franklin Ogidi, Vahid Reza Khazaie, Michael Colacci, Ali Etemad, Elham Dolatabadi, Arash Afkanpour

机构: 矢量研究所 皇后大学 约克大学 多伦多大学

摘要: 我们在医学领域执行了对学习多模态表示的对比框架的全面基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可迁移性?(ii)多模态对比训练是否足够,还是也需要从单模态训练中受益?(iii)特征粒度对多模态医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下研究了八种对比学习方法,并在来自四个数据集的280万个图像-文本对上对它们进行训练,并在25个下游任务上进行评估,包括分类(零样本和线性探针)、图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明对第一个问题给出了积极的答案,对第二个问题给出了否定的答案,并且学习细粒度特征是有益的。最后,我们将我们的代码公开提供。

论文链接: https://arxiv.org/pdf/2406.07450

cs.LG: 在高维极限下的非线性对比学习模型的训练动态

原标题: Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit

作者: Lineghuan Meng, Chuang Wang

机构: 清华大学

摘要: 这封信介绍了对单层非线性对比学习模型的训练动态进行高维分析。模型权重的经验分布收敛到由McKean-Vlasov非线性偏微分方程(PDE)控制的确定性度量。在L2正则化下,这个PDE简化为一组闭合的低维常微分方程(ODEs),反映了训练过程中模型性能的演变。我们分析了ODEs的定点位置及其稳定性,揭示了几个有趣的发现。首先,在具有无信息初始化状态时,只有隐藏变量的二阶矩会影响特征的可学习性。其次,更高阶矩通过控制吸引区域影响特征选择的概率,而不影响局部稳定性。最后,添加到数据增强中的独立噪声会降低性能,但负相关噪声可以减少梯度估计的方差,从而提高性能。尽管所分析模型的简单性,但它展示了丰富的训练动态现象,为理解实际大型模型背后更复杂的机制铺平了道路。

论文链接: https://arxiv.org/pdf/2406.06909

cs.LG: 小心别名 - 信号保留对于稳健的图像恢复至关重要

原标题: Beware of Aliases – Signal Preservation is Crucial for Robust Image Restoration

作者: Shashank Agnihotri, Julia Grabinski, Janis Keuper, Margret Keuper

机构: 曼海姆大学 Fraunhofer ITWM 凯撒斯劳滕分部 机器学习与分析研究所 (IMLA) 奥芬堡大学 马普信息学研究所 萨尔布吕肯信息学校

摘要: 图像恢复网络通常由编码器和解码器组成,分别负责从嘈杂、扭曲的数据中聚合图像内容并恢复清晰、未扭曲的图像。数据聚合以及高分辨率图像生成通常会涉及到别名的风险,即标准架构将其重构模型输入的能力置于危险之中,以在验证数据上达到高PSNR值。要付出的代价是模型的鲁棒性较低。在这项工作中,我们展示了在最先进的重建Transformer中提供无别名路径可以支持改善模型的鲁棒性,而在恢复性能上成本较低。我们通过提出BOA-Restormer来实现这一点,这是一个基于Transformer的图像恢复模型,它在频域部分执行下采样和上采样操作,以确保整个模型沿着无别名路径,同时可能保留所有相关的高频信息。

论文链接: https://arxiv.org/pdf/2406.07435

cs.LG: 非线性时间序列嵌入通过单调变分不等式

原标题: Nonlinear time-series embedding by monotone variational inequality

作者: Jonathan Y. Zhou, Yao Xie

机构: 佐纪亚理工学院

摘要: 在野外,我们经常遇到诸如心电图、动作捕捉、基因组和自然语言等序列数据集,序列可能是多通道的或符号化的,具有非线性动态。我们介绍了一种新方法,可以在没有监督的情况下学习非线性时间序列的低维表示,并可以提供可证明的恢复保证。学习到的表示可以用于下游机器学习任务,如聚类和分类。该方法基于这样一个假设,即观察到的序列来自一个共同的领域,但每个序列遵循其自己的自回归模型,这些模型通过低秩正则化相互关联。我们将问题表述为一个计算效率高的凸矩阵参数恢复问题,使用单调变分不等式,并通过跨学习表示的低秩约束对共同领域假设进行编码,这可以学习整个领域的几何结构,以及使用总体领域信息为每个单独序列的动态学习忠实表示。我们展示了我们的方法在真实世界时间序列数据上与基线的竞争性表现,并展示了它在符号文本建模和RNA序列聚类方面的有效性。

论文链接: https://arxiv.org/pdf/2406.06894

cs.LG: 在不断增长的图中进行增量学习的整体记忆多样化

原标题: Holistic Memory Diversification for Incremental Learning in Growing Graphs

作者: Ziyue Qiao, Junren Xiao, Qingqiang Sun, Meng Xiao, Hui Xiong

机构: 大湾大学 香港科技大学(广州) 中国科学院计算机网络信息中心

摘要: 本文解决了在不断增长的图中进行增量学习以处理日益复杂任务的挑战。其目标是持续训练一个图模型以处理新任务,同时保留其对先前任务的推理能力。现有方法通常忽视记忆多样性的重要性,限制了有效地从先前任务中选择高质量记忆,并在图上稀缺的记忆中记住广泛的先前知识。为了解决这个问题,我们引入了一种新颖的全面的分散式记忆选择和生成(DMSG)框架,用于图中的增量学习。该框架首先引入了一个考虑类内和类间多样性的缓冲区选择策略,使用高效的贪婪算法从图中选择代表性的训练节点放入内存缓冲区,以便在学习每个新任务后。然后,为了在学习新任务时充分回忆保留在内存缓冲区中的知识,我们提出了一种多样化的记忆生成重放方法。该方法首先利用变分层生成缓冲区节点嵌入的分布,并对其进行合成采样以进行重放。此外,提出了一种对抗变分嵌入学习方法和基于重建的解码器,以分别维护合成节点嵌入的完整性和巩固泛化能力。最后,我们在涉及不断增加的类别数量的节点分类任务上评估了我们的模型。公开可访问数据集上的大量实验结果表明,DMSG相对于最先进的方法具有优越性。

论文链接: https://arxiv.org/pdf/2406.07413

cs.LG: 加速病态 Hankel 矩阵恢复通过结构化类牛顿下降

原标题: Accelerating Ill-conditioned Hankel Matrix Recovery via Structured Newton-like Descent

作者: HanQin Cai, Longxiu Huang, Xiliang Lu, Juntao You

机构: 清华大学 西安交通大学 百度

摘要: 本文研究了韩克尔恢复问题,该问题同时去除稀疏异常值并完成部分观测中的缺失条目。我们提出了一种新颖的非凸算法,称为韩克尔结构牛顿样式下降(HSNLD),用于解决韩克尔恢复问题。HSNLD具有线性收敛的高效率,其收敛速度与底层韩克尔矩阵的条件数无关。在一些温和条件下已经建立了恢复保证。对合成和真实数据集的数值实验显示了HSNLD相对于最先进算法的卓越性能。

论文链接: https://arxiv.org/pdf/2406.07409

cs.LG: 私有几何中位数

原标题: Private Geometric Median

作者: Mahdi Haghifam, Thomas Steinke, Jonathan Ullman

机构:

摘要: 在这篇论文中,我们研究了用于计算数据集的几何中位数(GM)的差分隐私(DP)算法:给定 n n n个点 x 1 , … , x n x_1,\dots,x_n x1,,xn R d \mathbb{R}^d Rd中,目标是找到一个点 θ \theta θ,使得该点到这些点的欧几里得距离之和最小,即 ∑ i = 1 n ∥ θ − x i ∥ 2 \sum_{i=1}^{n} \|\theta - x_i\|_2 i=1nθxi2。现成的方法,如DP-GD,需要强大的先验知识,将数据定位在半径为 R R R的球内,并且算法的过度风险与 R R R线性相关。在这篇论文中,我们提出了一个问题:我们是否可以设计一个高效且私密的算法,其过度误差保证随着包含大多数数据点的(未知)半径而缩放?我们的主要贡献是一对用于私密GM任务的多项式时间DP算法,其过度误差保证随着数据点的有效直径而缩放。此外,我们提出了一种基于逆平滑敏感性机制的低效算法,满足更严格的纯DP概念。我们通过一个下界来补充我们的结果,并展示了我们的多项式时间算法在样本复杂度方面的最优性。

论文链接: https://arxiv.org/pdf/2406.07407

cs.LG: FLUX: 通过内核融合在 GPU 上实现快速基于软件的通信重叠

原标题: FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion

作者: Liwen Chang, Wenlei Bao, Qi Hou, Chengquan Jiang, Ningxin Zheng, Xuanrun Zhang, Zuquan Song, Ziheng Jiang, Haibin Lin, Xin Liu

机构: 字节跳动有限公司 北京大学

摘要: 大型深度学习模型已经展示出在广泛应用领域解决许多任务的强大能力。这些大型模型通常需要分布式进行训练和推断。张量并行是一种常见的技术,将操作或层的计算在设备之间进行分区,以克服单个处理器的内存容量限制,和/或加速计算以满足某种延迟要求。然而,这种并行性引入了额外的通信,可能会占整体运行时间的相当大部分。因此,在具有高速互连的设备组中(例如在一个节点中具有 NVLink 的 GPU),这种技术的可扩展性受到限制。本文提出了一种新颖的方法 Flux,通过依赖计算显著隐藏 GPU 的通信延迟。Flux 将通信和计算操作过度分解为更细粒度的操作,然后将它们融合成一个更大的内核,以有效地隐藏通信而不影响内核效率。给定一个融合内核,Flux 可以潜在地重叠高达 96% 的通信。总体而言,它可以在拥有各种 GPU 世代和互连的 128 个 GPU 集群上,相对于 Megatron-LM,实现高达 1.24 倍的训练加速,并在拥有各种 GPU 世代和互连的 8 个 GPU 集群上,相对于 vLLM,实现高达 1.66 倍和 1.30 倍的预填充和解码推断加速。

论文链接: https://arxiv.org/pdf/2406.06858

cs.LG: 通过一种灵活的基于图的强化探索策略增强表格数据优化

原标题: Enhancing Tabular Data Optimization with a Flexible Graph-based Reinforced Exploration Strategy

作者: Xiaohan Huang, Dongjie Wang, Zhiyuan Ning, Ziyue Qiao, Qingqing Long, Haowei Zhu, Min Wu, Yuanchun Zhou, Meng Xiao

机构: 中国科学院计算机网络信息中心 中国科学院 中国科学院大学 中国科学院大学 中国科学院大学 清华大学 星展大学 I2R, A*STAR

摘要: 表格数据优化方法旨在自动找到一个生成高价值特征并改善下游机器学习任务性能的最佳特征转换过程。当前用于自动特征转换的框架依赖于迭代序列生成任务,通过来自下游任务的性能反馈来优化决策策略。然而,这些方法未能有效利用历史决策经验,并忽视生成特征之间的潜在关系,从而限制了知识提取的深度。此外,决策过程的粒度缺乏针对单个特征的动态回溯能力,导致在遇到低效路径时适应性不足,从而对整体稳健性和探索效率产生不利影响。为了解决当前自动特征工程框架中观察到的限制,我们引入了一种新方法,该方法利用特征状态转换图来有效保存整个特征转换过程,其中每个节点代表一个特定的转换状态。在探索过程中,三个级联代理迭代地选择节点和数学操作来生成新的转换状态。这种策略利用了图结构的固有属性,允许保存和重用有价值的转换。它还通过图修剪技术实现了回溯能力,可以纠正低效的转换路径。为了验证我们方法的功效和灵活性,我们进行了全面的实验和详细的案例研究,展示了在不同场景中的优越性能。

论文链接: https://arxiv.org/pdf/2406.07404

cs.LG: 最近关于基于随机游走的方法用于嵌入知识图的调查

原标题: A Survey on Recent Random Walk-based Methods for Embedding Knowledge Graphs

作者: Elika Bozorgi, Sakher Khalil Alqaiidi, Afsaneh Shams, Hamid Reza Arabnia, Krzysztof Kochut

机构: 乔治亚大学

摘要: 机器学习、深度学习和自然语言处理方法在知识图上广泛应用于不同领域,并在从自动驾驶汽车到社交媒体平台上的好友推荐等各种领域中发挥着重要作用。然而,要将这些方法应用于知识图,通常需要数据具有可接受的大小和格式。事实上,知识图通常具有高维度,因此我们需要将它们转换为低维向量空间。嵌入是一个低维空间,您可以将高维向量翻译为其中,以保留输入数据的内在特征。在本综述中,我们首先解释知识图及其嵌入,然后回顾一些最近开发的基于随机游走的嵌入方法。

论文链接: https://arxiv.org/pdf/2406.07402

cs.LG: 通过注入基于学习的估计误差来提高机器人手术模拟的逼真度

原标题: Improving the realism of robotic surgery simulation through injection of learning-based estimated errors

作者: Juan Antonio Barragan, Hisashi Ishida, Adnan Munawar, Peter Kazanzides

机构: 约翰·安东尼奥·巴拉甘、久石久、阿德南·穆纳瓦尔和彼得·卡赞齐德斯 - 穆尔根大学(Morgan State University)

摘要: 手术机器人手术子任务自动化算法的开发可以通过现实仿真环境的可用性加快。在这项工作中,我们关注手术模拟器真实性的一个方面,即机器人的位置精度。在当前的模拟器中,机器人具有完美或接近完美的精度,这并不代表它们的物理对应物。因此,我们提出了一对神经网络,通过从物理机器人收集的数据进行训练,来估计控制器误差以及运动学和非运动学误差。然后将这些误差估计注入到模拟器中,以产生一个具有物理机器人特性表现的模拟机器人。在这种情况下,我们认为在模拟中使用的估计误差具有与物理机器人实际误差统计上相似的分布就足够了。这比要求物理机器人的误差补偿更为宽松,因此更为可行,其中估计误差应等于实际误差。我们的结果表明,误差注入将模拟和物理机器人之间的平均位置和方向差异从分别为 5.0 毫米 / 3.6 度减少到 1.3 毫米 / 1.7 度,分别减少了 3.8 倍和 2.1 倍。

论文链接: https://arxiv.org/pdf/2406.07375

cs.LG: 缩小并行随机凸优化中的计算-查询深度差距

原标题: Closing the Computational-Query Depth Gap in Parallel Stochastic Convex Optimization

作者: Arun Jambulapati, Aaron Sidford, Kevin Tian

机构: 密歇根大学 斯坦福大学 德克萨斯大学奥斯汀分校

摘要: 我们开发了一种新的并行算法,用于最小化具有随机次梯度预言的Lipschitz、凸函数。所做的查询总数和查询深度,即查询的并行轮数,与之前的最先进技术[CJJLLST23]相匹配,同时在足够小的精度下通过多项式因子改进了计算深度。当与之前的最先进方法结合时,我们的结果填补了已知的查询深度和并行算法已知的计算深度之间的差距。
我们的方法始于先前并行方法的球加速框架,即[CJJJLST20,ACJJS21],这些方法将问题简化为最小化约束在欧几里得球上的函数的正则化高斯卷积。通过开发和利用这个诱导函数的Hessian的新稳定性属性,我们脱离了先前的并行算法,并将这些受球约束的优化问题简化为随机无约束二次最小化问题。尽管我们无法证明我们用来近似这个Hessian的非对称矩阵的集中性,但我们仍然开发了一种有效的并行方法来解决这些二次问题。有趣的是,我们的算法可以利用快速矩阵乘法进行改进,并且如果矩阵乘法指数为2,则几乎可以线性工作。

论文链接: https://arxiv.org/pdf/2406.07373

cs.LG: 指导大语言模型时间逻辑生成,明确将数据和控制分离。

原标题: Guiding LLM Temporal Logic Generation with Explicit Separation of Data and Control

作者: William Murphy, Nikolaus Holzer, Nathan Koenig, Leyi Cui, Raven Rothkopf, Feitong Qiao, Mark Santolucito

机构: 哥伦比亚大学 巴纳德学院

摘要: 时间逻辑是广泛用于合成和验证反应系统的强大工具。大语言模型(LLMs)的最新进展有可能使编写这类规范的过程更易于访问。然而,对于除了最专业的用户之外的所有人来说,使用时间逻辑编写规范仍然具有挑战性。在使用LLMs进行时间逻辑规范工程时的一个关键问题是了解对LLM和用户最有帮助的指导方式,以便轻松生成规范。具体针对反应程序合成问题,我们探讨了为LLM提供关于控制和数据分离的指导的影响——明确告知LLM哪些功能对规范是相关的,并将其余功能视为一系列预定义函数和谓词的实现细节。我们提出了一个基准集,并发现这种关注点的分离改善了规范生成。我们的基准提供了一个测试集,用于验证LLM生成时间逻辑规范的未来工作。

论文链接: https://arxiv.org/pdf/2406.07400

cs.LG: 重新定义汽车雷达成像:一种基于领域知识的1D深度学习方法,实现高分辨率和高效性能。

原标题: Redefining Automotive Radar Imaging: A Domain-Informed 1D Deep Learning Approach for High-Resolution and Efficient Performance

作者: Ruxin Zheng, Shunqiao Sun, Holger Caesar, Honglei Chen, Jian Li

机构: 阿拉巴马大学 大学的科技

摘要: 毫米波(mmWave)雷达对自动驾驶车辆的感知任务至关重要,因为它们在恶劣天气条件下具有很强的韧性。然而,它们的部署通常受到空间分辨率不足以进行精确语义场景解释的限制。从光学成像中改编的经典超分辨率技术未能充分解决雷达信号数据的独特特征。为此,我们的研究将雷达成像超分辨率重新定义为一维(1D)信号超分辨率谱估计问题,通过利用雷达信号处理领域知识,引入创新的数据归一化和基于信噪比(SNR)的损失函数。我们为汽车雷达成像量身定制的深度学习网络表现出卓越的可扩展性、参数效率和快速推理速度,同时在雷达成像质量和分辨率方面表现出更好的性能。广泛的测试证实,我们的SR-SPECNet在生成高分辨率雷达距离-方位图像方面创造了新的基准,优于现有方法,适用于各种天线配置和数据集大小。源代码和新的雷达数据集将公开提供在线。

论文链接: https://arxiv.org/pdf/2406.07399

cs.LG: 深度隐式优化用于稳健灵活的图像配准

原标题: Deep Implicit Optimization for Robust and Flexible Image Registration

作者: Rohit Jena, Pratik Chaudhari, James C. Gee

机构: 宾夕法尼亚大学

摘要: 图像配准中的深度学习(DLIR)方法由于其速度和在训练时能够整合弱标签监督而取得了巨大成功。然而,DLIR 方法放弃了许多基于经典优化的方法的优点。深度网络的功能性质并不保证预测的变换是配准目标的局部最小值,变换的表示(位移/速度场/仿射)是固定的,网络对领域转移不具有鲁棒性。我们的方法旨在通过将优化作为深度网络中的一层来弥合经典方法和学习方法之间的差距。通过训练深度网络来预测多尺度密集特征图像,这些图像使用黑盒迭代优化求解器进行配准。然后使用这个最优变形来最小化图像和标签对齐误差。通过隐式地通过迭代优化求解器进行端到端的微分,我们学到的特征是配准和标签感知的,变形函数保证是特征空间中配准目标的局部最小值。我们的框架在领域内数据集上表现出色,并且对领域转移(如各向异性和不同强度配置文件)不可知。我们的方法首次允许在测试时在零重新训练的情况下在任意变换表示之间切换(从自由形式到微分同胚)。端到端特征学习还促进了特征的可解释性,并且在推断时使用额外的标签保真度项。

论文链接: https://arxiv.org/pdf/2406.07361

cs.LG: 为外科手术器械的6D姿态估计生成逼真数据

原标题: Realistic Data Generation for 6D Pose Estimation of Surgical Instruments

作者: Juan Antonio Barragan, Jintan Zhang, Haoying Zhou, Adnan Munawar, Peter Kazanzides

摘要: 在外科机器人技术中的自动化有潜力提高患者安全和手术效率,但由于需要强大的感知算法,实现起来很困难。特别是外科器械的6D姿态估计对于基于视觉反馈实现手术操作的自动化执行至关重要。近年来,监督式深度学习算法在6D姿态估计任务上表现越来越好;然而,它们的成功取决于大量带标注数据的可用性。在家庭和工业环境中,使用3D计算机图形软件生成的合成数据已被证明是减少6D姿态数据集注释成本的替代方法。然而,这种策略在外科领域并不适用,因为商业图形软件的工具有限,无法生成描绘逼真器械与组织相互作用的图像。为了解决这些限制,我们提出了一个改进的外科机器人仿真环境,可以自动生成用于外科器械6D姿态估计的大规模和多样化数据集。在改进中,我们开发了一个自动化数据生成流水线和一个改进的外科场景。为了展示我们系统的适用性,我们生成了一个包含7.5k张图像的数据集,其中包含了一根外科缝合针的姿态标注,用于评估一种最先进的姿态估计网络。训练模型在一个具有不同遮挡级别的具有挑战性数据集上获得了2.59mm的平均平移误差。这些结果突显了我们流水线在为外科机器人应用训练和评估新颖视觉算法方面的成功。

论文链接: https://arxiv.org/pdf/2406.07328

cs.LG: 将大型基础模型的知识转移给小型下游模型

原标题: Transferring Knowledge from Large Foundation Models to Small Downstream Models

作者: Shikai Qiu, Boran Han, Danielle C. Maddix, Shuai Zhang, Yuyang Wang, Andrew Gordon Wilson

机构: 清华大学 百度 普林斯顿大学

摘要: 如何将来自越来越大的基础模型的相关知识转移到可以以更低成本运行的小型、特定任务的下游模型中?使用预训练权重作为初始化的标准迁移学习转移了有限信息,并且经常要求我们使用庞大的预训练架构。这一过程还排除了结合多个学习互补信息的预训练模型的可能性。为了解决这些缺点,我们引入了自适应特征转移(AFT)。AFT不是转移权重,而是纯粹基于特征操作,从而使预训练模型的选择与较小的下游模型分离。与不加选择地压缩所有预训练特征不同,AFT通过简单的正则化,自适应地转移对执行下游任务最有用的预训练特征,增加了最小的开销。在多个视觉、语言和多模态数据集上,与具有类似计算成本的替代方案相比,AFT实现了显着更好的下游性能。此外,AFT可靠地将预训练模型的改进转化为下游性能的改进,即使下游模型小了50倍以上,也能有效地转移多个预训练模型学习的互补信息。

论文链接: https://arxiv.org/pdf/2406.07337

cs.LG: 重新思考图分类中嘈杂标签的影响:从实用性和隐私角度出发

原标题: Rethinking the impact of noisy labels in graph classification: A utility and privacy perspective

作者: De Li, Xianxian Li, Zeming Gan, Qiyu Li, Bin Qu, Jinyan Wang

机构: 广西师范大学 计算机科学与工程学院 教育区块链与智能技术重点实验室

摘要: 基于消息传递机制的图神经网络在图分类任务中取得了先进的结果。然而,当训练数据中存在嘈杂的标签时,它们的泛化性能会下降。大多数现有的嘈杂标记方法侧重于视觉领域或图节点分类任务,并仅从实用性角度分析嘈杂标签的影响。与现有工作不同,在本文中,我们从数据隐私和模型实用性的角度衡量了噪声标签对图分类的影响。我们发现,噪声标签会降低模型的泛化性能,并增强对图数据隐私的成员推断攻击能力。为此,我们提出了一种具有嘈杂标记图分类的鲁棒图神经网络方法。具体而言,我们首先通过高置信度样本和每个类别的第一个特征主成分向量准确过滤噪声样本。然后,利用鲁棒主成分向量和数据增强下的模型输出来实现由双空间信息引导的噪声标签校正。最后,引入监督图对比学习来增强模型的嵌入质量并保护训练图数据的隐私。通过在八个真实图分类数据集上比较十二种不同方法,验证了所提方法的实用性和隐私性。与最先进的方法相比,RGLC方法在30%的嘈杂标记率下,性能提升最多和最少分别为7.8%和0.8%,并将隐私攻击的准确率降低到60%以下。

论文链接: https://arxiv.org/pdf/2406.07314

cs.LG: 关于DCASE 2024挑战赛任务2的描述和讨论:用于机器状态监测的首次无监督异常声音检测。

原标题: Description and Discussion on DCASE 2024 Challenge Task 2: First-Shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring

作者: Tomoya Nishida, Noboru Harada, Daisuke Niizumi, Davide Albertini, Roberto Sannino, Simone Pradolini, Filippo Augusti, Keisuke Imoto, Kota Dohi, Harsh Purohit, Takashi Endo, Yohei Kawaguchi

机构: 日本研究机构:日立公司、NTT公司、同志社大学
意大利研究机构:STMicroelectronics

摘要: 我们介绍了声学场景和事件检测与分类(DCASE)2024挑战任务2的任务描述:用于机器状态监测的首次无监督异常声音检测(ASD)。延续去年的DCASE 2023挑战任务2,我们将任务组织为在需要领域泛化的设置下的首次问题。首次问题的主要目标是实现对新类型机器的快速部署ASD系统,无需进行特定于机器的超参数调整。这个问题设置通过(1)为每种机器类型仅提供一个部分,以及(2)在开发和评估数据集中使用完全不同的机器类型来实现。对于DCASE 2024挑战任务2,完全新的机器类型数据已经收集并提供作为评估数据集。此外,为了模拟信息不可用的情况,对于几种机器类型,机器操作条件等属性信息被隐藏。在挑战提交截止日期后,我们将添加挑战结果和提交的分析。

论文链接: https://arxiv.org/pdf/2406.07250

cs.LG: 自注意力神经网络的动力学均场理论

原标题: Dynamical Mean-Field Theory of Self-Attention Neural Networks

作者: Ángel Poc-López, Miguel Aguilera

机构: 巴斯克应用数学中心(BCAM) 萨拉戈萨大学

摘要: 基于Transformer的模型在各个领域展现出了出色的性能,成为解决序列机器学习问题的最先进解决方案。尽管我们对Transformer架构中的基本组件有一般性的理解,但对它们的操作方式或预期动态了解甚少。最近,人们越来越感兴趣地探索注意力机制和霍普菲尔德网络之间的关系,有望揭示Transformer网络的统计物理学。然而,迄今为止,类似Transformer的模型的动力学状态尚未深入研究。在本文中,我们通过使用用于研究非平衡状态下的不对称霍普菲尔德网络的方法–即通过生成泛函的路径积分方法,得到由并发均场变量主导的动力学。假设为1比特的token和权重,我们推导了大型自注意力神经网络与softmax输出耦合的行为的解析近似,这在大尺寸极限下变得精确。我们的研究结果揭示了非平凡的动力学现象,包括与混沌分叉相关的非平衡相变,即使对于具有少量编码特征和非常短上下文窗口的非常简单配置也是如此。最后,我们讨论了我们的分析方法提高对Transformer模型内部运作方式理解的潜力,可能降低计算训练成本并增强模型的可解释性。

论文链接: https://arxiv.org/pdf/2406.07247

cs.LG: 从AI反馈中进行多目标强化学习

原标题: Multi-objective Reinforcement learning from AI Feedback

作者: Marcus Williams

摘要: 本文介绍了来自AI反馈的多目标强化学习(MORLAIF),这是一种改进语言模型对齐和性能的新方法,该方法使用来自AI反馈的强化学习(RLAIF)进行训练。与训练单个偏好模型来表示所有人类偏好的标准方法相比,MORLAIF将这一任务分解为多个更简单的原则,如毒性、事实性和谄媚。针对每个原则使用来自GPT-3.5-Turbo的反馈训练单独的偏好模型。然后,使用不同的标量化函数将这些偏好模型分数组合起来,为目标语言模型的Proximal Policy Optimization(PPO)训练提供奖励信号。我们的实验表明,MORLAIF优于标准的RLAIF基线,并且MORLAIF可以用于使用较小语言模型对齐较大语言模型。令人惊讶的是,标量化函数的选择似乎并不显著影响结果。

论文链接: https://arxiv.org/pdf/2406.07295

cs.LG: 抗体亲和力预测的主动学习

原标题: Active learning for affinity prediction of antibodies

作者: Alexandra Gessner, Sebastian W. Ober, Owen Vickery, Dino Oglić, Talip Uçar

机构: 穆尼黑工业大学

摘要: 大多数主导优化活动的主要目标是增强配体的结合亲和力。对于抗体等大分子,鉴定增强抗体亲和力的突变特别具有挑战性,因为潜在突变的组合爆炸。当抗体-抗原复合物的结构可用时,相对结合自由能(RBFE)方法可以提供有价值的见解,说明不同突变将如何影响药物候选物的效力和选择性,从而减少对昂贵且耗时的湿实验的依赖。然而,准确模拟大分子的物理性质是计算密集型的。我们提出了一个主动学习框架,该框架迭代地提出有希望的序列供模拟器评估,从而加速寻找改进的结合物。我们探索不同的建模方法,以确定对于这一任务最有效的代理模型,并使用预先计算的数据池以及在现实的完整循环设置中评估我们的框架。

论文链接: https://arxiv.org/pdf/2406.07263

cs.LG: 关于训练性和去量化变分量子学习模型之间的关系

原标题: On the relation between trainability and dequantization of variational quantum learning models

作者: Elies Gil-Fuster, Casper Gyurik, Adrián Pérez-Salinas, Vedran Dunjko

机构: 自由大学柏林、Fraunhofer Heinrich赫尔兹研究所、莱顿大学、莱顿大学洛伦兹研究所、莱顿大学LIACS

摘要: 寻求成功的变分量子机器学习(QML)的探索依赖于设计适合的参数化量子电路(PQCs),类似于经典机器学习中的神经网络。成功的QML模型必须满足可训练性和非量子化等属性。最近的研究强调了这些模型的可训练性和非量子化之间复杂的相互作用,这仍未得到解决。在这项工作中,我们从机器学习的角度为这场辩论做出贡献,证明了一些结果,其中包括了当可训练性和非量子化不是互斥的情况。我们首先提供了一些新的相对广泛的相关概念定义,与其他文献中的定义相比更具操作动机,并与先前的研究一致。在给出并激励这些精确定义后,我们研究了变分QML的可训练性和非量子化之间的关系。接下来,我们还讨论了QML模型的“变分性”程度,我们区分了硬件高效参数和量子核方法等模型。最后,我们介绍了构建基于PQC的QML模型的方法,这些模型既可训练又不可量子化,并对不同程度的“变分性”进行了相应的说明。我们没有讨论这些模型的实际效用。然而,我们的工作确实指向了寻找更一般构造的方法,从而可能实现应用的可行性。

论文链接: https://arxiv.org/pdf/2406.07072

cs.LG: 仅通过离线观察实现的混合强化学习

原标题: Hybrid Reinforcement Learning from Offline Observation Alone

作者: Yuda Song, J. Andrew Bagnell, Aarti Singh

机构: 卡内基梅隆大学 创新极光公司

摘要: 我们考虑混合强化学习设置,其中智能体可以访问离线数据和在线交互式访问。虽然强化学习(RL)研究通常假设离线数据包含完整的动作、奖励和转移信息,但仅包含状态信息的数据集(也称为仅观测数据集)更为普遍、丰富和实用。这促使我们研究了具有仅观测离线数据集框架的混合RL。如果提供了环境的重置模型(即可以重置到任何状态的模型),则可以解决与离线数据中“覆盖”最佳策略的任务,但我们展示了当仅提供较弱的跟踪模型(即只能重置到初始状态并必须通过环境生成完整的轨迹)时的困难证据,而不需要进一步假设离线数据的可接受性。在可接受性假设下–即离线数据实际上可以由我们考虑的策略类生成–我们提出了在跟踪模型设置中的第一个算法,可以证明与利用重置模型的算法的性能相匹配。我们还进行了概念验证实验,表明我们的算法在实践中的有效性。

论文链接: https://arxiv.org/pdf/2406.07253

cs.LG: 电信RAG:通过检索增强生成和LLMs驯服电信标准

原标题: TelecomRAG: Taming Telecom Standards with Retrieval Augmented Generation and LLMs

作者: Girma M. Yilma, Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xavier Costa-Perez

机构: IEEE、TelecomRAG、3GPP、O-RAN、ETSI

摘要: 大语言模型(LLMs)具有巨大潜力来改变电信行业。它们可以帮助专业人士理解复杂的标准,生成代码,并加速开发。然而,传统的LLMs在电信工作中所需的精度和源验证方面存在困难。为了解决这个问题,需要定制的基于LLM的解决方案来适应电信标准。检索增强生成(RAG)提供了一种创建精确、基于事实的答案的方法。本文提出了TelecomRAG,这是一个用于提供准确、详细和可验证响应的电信标准助手框架。我们的实现使用从3GPP Release 16和Release 18规范文档构建的知识库,展示了这个助手如何超越通用LLMs,提供了更高的准确性、技术深度和可验证性,从而为电信领域带来了重要价值。

论文链接: https://arxiv.org/pdf/2406.07053

cs.LG: 边缘一致的可分离流混合模型用于概率不规则时间序列预测

原标题: Marginalization Consistent Mixture of Separable Flows for Probabilistic Irregular Time Series Forecasting

作者: Vijaya Krishna Yalavarthi, Randolf Scholz, Kiran Madhusudhanan, Stefan Born, Lars Schmidt-Thieme

机构: 哈尔德斯海姆大学 柏林工业大学

摘要: 概率预测模型用于不规则时间序列中目标的联合分布是机器学习中一个研究较少的领域,据我们所知,迄今为止只有三种模型得到研究:GPR,即高斯过程回归模型(Durichen2015.Multitask),TACTiS,即用于时间序列的Transformer-Attentional Copulas(Drouin2022.Tactis, ashok2024tactis)和ProFITi(Yalavarthi2024.Probabilistica),这是一种基于可逆注意力层的多变量归一化流模型。虽然由于使用多变量归一化流,ProFITi是更具表现力且具有更好预测性能的模型,但我们将展示它存在边缘化不一致性:它不能保证其预测分布中某些变量子集的边缘分布与这些变量的直接预测分布一致。此外,TACTiS也不能保证边缘化一致性。我们开发了一种新颖的概率不规则时间序列预测模型,称为Marginization Consistent Mixtures of Separable Flows(moses),它将几个归一化流与(i)具有完整协方差矩阵的高斯过程作为源分布和(ii)可分离可逆变换相结合,旨在将归一化流的表现力与高斯的边缘化一致性结合起来。在四个不同数据集上的实验中,我们展示了moses优于其他最先进的边缘化一致模型,在性能上与ProFITi相当,但与ProFITi不同的是,它保证了边缘化一致性。

论文链接: https://arxiv.org/pdf/2406.07246

cs.LG: GridPE: 使用基于网格单元启发的框架统一Transformer中的位置编码

原标题: GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework

作者: Boyang Li, Yulin Wu, Nuoxian Huang

机构: 北京大学深圳研究生院

摘要: 理解空间位置和关系是现代人工智能系统的基本能力。人类空间认知的见解为该领域提供了宝贵的指导。最近的神经科学发现突显了网格细胞作为空间表示的基本神经组成部分的作用,包括距离计算、路径整合和尺度识别。在本文中,我们介绍了一种新颖的位置编码方案,灵感来自傅立叶分析和有关网格细胞的计算神经科学最新发现。假设网格细胞通过傅立叶基函数的求和来编码空间位置,我们展示了网格表示在内积计算过程中的平移不变性。此外,我们根据生物效率原则推导出多维欧几里得空间的最佳网格比例。利用这些计算原则,我们开发了一种受网格细胞启发的位置编码技术,称为GridPE,用于在高维空间中编码位置。我们将GridPE集成到金字塔视觉Transformer架构中。我们的理论分析表明,GridPE为任意高维空间中的位置编码提供了统一框架。实验结果表明,GridPE显著提升了Transformer的性能,强调了将神经科学见解纳入人工智能系统设计的重要性。

论文链接: https://arxiv.org/pdf/2406.07049

cs.LG: DecoR: 使用稳健回归进行时间序列去混淆

原标题: DecoR: Deconfounding Time Series with Robust Regression

作者: Felix Schur, Jonas Peters

机构: 瑞士苏黎世联邦理工学院 ETH Zurich 瑞士

摘要: 时间序列数据上的因果推断是一个具有挑战性的问题,特别是在存在未观察到的混杂因素的情况下。这项工作侧重于估计两个时间序列之间的因果效应,这两个时间序列受到第三个未观察到的时间序列的混杂。假设混杂因素在频谱上是稀疏的,我们展示了在频域中如何将这个问题构建为一个对抗性异常值问题。我们引入了一种名为Deconfounding by Robust regression (DecoR)的新方法,该方法使用频域中的鲁棒线性回归来估计因果效应。考虑到两种不同的鲁棒回归技术,我们首先改进了对这些技术的估计误差的现有界限。关键的是,我们的结果不需要对协变量进行分布假设。因此,我们可以将它们用于时间序列设置。将这些结果应用于DecoR,我们在适当的假设下证明了DecoR的估计误差的上界,这意味着一致性。我们通过对合成数据的实验展示了DecoR的有效性。我们的实验进一步表明,我们的方法对于模型错误规范是健壮的。

论文链接: https://arxiv.org/pdf/2406.07005

cs.LG: 将多视角生成提升到未知姿势的3D:在扩散中包裹NeRF

原标题: Generative Lifting of Multiview to 3D from Unknown Pose: Wrapping NeRF inside Diffusion

作者: Xin Yuan, Rana Hanocka, Michael Maire

机构: 芝加哥大学

摘要: 我们将从未知姿势的多视角重建视为一个生成建模问题。通过一组未注释的场景2D图像,我们的方法同时学习从2D图像输入预测相机姿势的网络,以及用于3D场景的神经辐射场(NeRF)的参数。为了推动学习,我们将姿势预测网络和NeRF包装在一个去噪扩散概率模型(DDPM)中,并通过标准去噪目标训练系统。我们的框架要求系统通过预测姿势并从该姿势渲染NeRF来完成去噪输入2D图像的任务。学习去噪因此迫使系统同时学习基础3D NeRF表示和从图像到相机外参参数的映射。为了促进后者,我们设计了一个自定义网络架构来表示姿势作为一个分布,从而在仅用于去噪的端到端训练中隐含地具有发现视图对应关系的能力。这种技术使我们的系统能够成功构建NeRF,而无需姿势知识,适用于其他方法失败的复杂场景。在训练结束时,我们学到的NeRF可以被提取并用作3D场景模型;我们的完整系统可以用于采样新的相机姿势并生成新视图图像。

论文链接: https://arxiv.org/pdf/2406.06972

cs.LG: 放下你的标签,进行无监督迁移。

原标题: Let Go of Your Labels with Unsupervised Transfer

作者: Artyom Gadetsky, Yulun Jiang, Maria Brbic

机构: EPFL

摘要: 基于视觉-语言模型的基础使得预训练表示在各种下游任务中具有显著的零样本可迁移性。然而,要解决一个新任务,零样本迁移仍然需要人类指导来定义数据中出现的视觉类别。在这里,我们展示了当搜索诱导不同基础模型表示空间中的最大间隔分类器的数据集的标签时,完全无监督的迁移会出现。我们提出了TURTLE,这是一种完全无监督的方法,有效地利用这一指导原则,揭示下游数据集的潜在标签,而无需任何监督和任务特定的表示学习。我们在一个包含26个数据集的多样化基准套件上评估了TURTLE,并展示它实现了新的无监督性能最佳。此外,尽管完全无监督,TURTLE在各种数据集上的表现优于零样本迁移基线。特别是,通过利用相同的表示空间,跨越各种架构和模型大小,TURTLE在26个数据集上的表现与CLIP零样本的平均表现相匹配。通过利用两个基础模型的表示空间引导搜索潜在标签,TURTLE超越了零样本迁移和无监督提示调整基线,展示了无监督迁移的惊人力量和有效性。

论文链接: https://arxiv.org/pdf/2406.07236

cs.LG: ElasticRec:一种基于微服务的模型服务架构,实现了推荐模型的弹性资源扩展。

原标题: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models

作者: Yujeong Choi, Jiin Kim, Minsoo Rhu

机构: 韩国科学技术院 (KAIST)

摘要: 随着推荐系统(RecSys)日益普及,数据中心对计算资源的需求激增。然而,当前RecSys模型服务架构中采用的基于模型的资源分配在有效利用资源方面存在不足,导致总拥有成本不佳。我们提出了ElasticRec,这是一种为RecSys提供资源弹性和高内存效率的模型服务架构。ElasticRec基于微服务架构,用于细粒度资源分配,可根据RecSys的异构资源需求进行定制。此外,ElasticRec通过我们基于效用的资源分配实现了高内存效率。总体而言,与最先进的RecSys推理服务系统相比,ElasticRec实现了平均内存分配大小减少3.3倍,内存效用增加8.1倍,导致部署成本平均降低1.6倍。

论文链接: https://arxiv.org/pdf/2406.06955

cs.LG: 关于特征选择中核依赖最大化的局限性

原标题: On the Limitation of Kernel Dependence Maximization for Feature Selection

作者: Keli Liu, Feng Ruan

机构:

摘要: 一个简单直观的特征选择方法是选择最大化响应和特征之间非参数依赖度量的特征子集。文献中一个流行的提议使用Hilbert-Schmidt独立准则(HSIC)作为非参数依赖度量。这种特征选择方法背后的原理是,重要特征将表现出与响应的高度依赖,并且它们包含在所选特征集中将增加HSIC。通过反例,我们证明了这种原理是有缺陷的,通过HSIC最大化进行特征选择可能会忽略关键特征。

论文链接: https://arxiv.org/pdf/2406.06903

cs.LG: OPFData: 具有拓扑扰动的交流最优潮流大规模数据集

原标题: OPFData: Large-scale datasets for AC optimal power flow with topological perturbations

作者: Sean Lovett, Miha Zgubic, Sofia Liguori, Sephora Madjiheurem, Hamish Tomlinson, Sophie Elster, Chris Apps, Sims Witherspoon, Luis Piloto

机构: 谷歌DeepMind

摘要: 解决交流最优潮流问题(AC-OPF)对于电力系统的高效和安全规划与运行至关重要。在这一领域的小幅效率改进有可能带来数十亿美元的成本节约,以及减少化石燃料发电机排放的显著减少。最近针对AC-OPF的数据驱动解决方法显示出与传统求解器相比的大幅速度提升潜力;然而,目前尚无针对该问题的大规模开放数据集。我们呈现迄今为止最大的可获得的已解决AC-OPF问题集合。这一集合的规模比现有的可获得数据集大数个数量级,可以用于训练高容量的数据驱动模型。独特之处在于,它包括拓扑扰动 - 这是在实际电力系统运行中使用的关键要求。我们希望这一资源能够激励社区将研究扩展到具有可变拓扑结构的更大电网规模。

论文链接: https://arxiv.org/pdf/2406.07234

cs.LG: Transformer可以明确地学习稀疏Token选择,而全连接网络则无法。

原标题: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

作者: Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee

机构: 普林斯顿大学 哥伦比亚大学

摘要: Transformer架构在各种深度学习场景中占主导地位,因为它具有选择和组合结构信息的卓越能力。受到这些能力的启发,Sanford等人提出了稀疏Token选择任务,在这个任务中,Transformer在最坏情况下表现出色,而全连接网络(FCNs)则失败。在此基础上,我们将FCN的下界加强到平均情况设置,并建立了Transformer相对于FCNs的算法分离。具体而言,使用梯度下降训练的一个层的Transformer可以可靠地学习稀疏Token选择任务,并且令人惊讶的是,它表现出强大的超出分布长度的泛化能力。我们提供经验模拟来证明我们的理论发现。

论文链接: https://arxiv.org/pdf/2406.06893

cs.LG: 设计和调度基于人工智能的排队系统

原标题: Design and Scheduling of an AI-based Queueing System

作者: Jiung Lee, Hongseok Namkoong, Yibo Zeng

机构: 哥伦比亚大学

摘要: 为了利用预测模型在服务系统中做出最佳调度决策,我们必须了解预测误差如何影响由外部性导致其他作业延迟的拥塞情况。受到预测模型与人类服务器(例如内容审核)交互的应用的启发,我们考虑一个包含许多单服务器队列的大队列系统,其中作业的类别是使用预测模型估计的。通过表征误差对重负载下拥塞成本的影响,我们设计了一种基于指标的策略,以一种接近最优的方式整合了预测的类别信息。我们的理论结果通过提供一个简单的模型选择过程,以下游队列性能为中心关注点,指导了预测模型的设计,并提供了关于如何设计基于人工智能分诊的队列系统的新颖见解。我们在基于真实在线评论的内容审核任务上展示了我们的框架,通过对大型语言模型进行微调来构建毒性分类器。

论文链接: https://arxiv.org/pdf/2406.06855

cs.LG: 基于深度强化学习的物联网车辆中的语义感知频谱共享

原标题: Semantic-Aware Spectrum Sharing in Internet of Vehicles Based on Deep Reinforcement Learning

作者: Zhiyu Shao, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief

机构: 清华大学 西安交通大学 华为 Technologies Co. Ltd.

摘要: 这项工作旨在研究高速移动车联网(IoV)环境中的语义通信,重点关注车辆间(V2V)和车辆基础设施(V2I)通信之间的频谱共享。我们特别关注频谱稀缺和网络流量,然后提出了基于深度强化学习(DRL)软演员-评论家(SAC)方法的语义感知频谱共享算法(SSS)。首先,我们深入挖掘语义信息的提取。其次,我们重新定义了IoV环境中V2V和V2I频谱共享的语义信息度量标准,引入了高速语义频谱效率(HSSE)和语义传输速率(HSR)。最后,我们利用SAC算法基于语义信息进行V2V和V2I频谱共享的决策优化。这种优化涵盖了V2V和V2I共享策略的最佳链接、发送语义信息的车辆传输功率以及传输的语义符号长度,旨在最大化V2I的HSSE并提高V2V有效语义信息传输成功率(SRS)。实验结果表明,SSS算法优于其他基准算法,包括基于传统通信的频谱共享算法和使用其他强化学习方法的频谱共享算法。SSS算法的HSSE增加了15%,SRS增加了约7%。

论文链接: https://arxiv.org/pdf/2406.07213

cs.LG: 三元LLM: 三元化大语言模型

原标题: TernaryLLM: Ternarized Large Language Model

作者: Tianqi Chen, Zhe Li, Weixiang Xu, Zeyu Zhu, Dong Li, Lu Tian, Emad Barsoum, Peisong Wang, Jian Cheng

机构: 中国科学院自动化研究所 中国科学院大学 美国微软公司 AIRIA5Maicro.ai

摘要: 大语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的性能,但受到高计算成本和内存需求的限制。三值化,作为一种极端的量化形式,通过减少内存使用量并实现能效浮点加法,提供了一种解决方案。然而,将三值化应用于LLMs面临着来自权重和激活中的异常值的挑战。在这项工作中,观察到权重中的不对称异常值和非零均值,我们引入了双可学习三值化(DLT),它使得尺度和位移都可以学习。我们还提出了友好异常值特征知识蒸馏(OFF)来恢复在极低位量化中丢失的信息。所提出的OFF可以整合语义信息,并且对异常值不敏感。OFF的核心是通过余弦相似度最大化三值化模型和浮点模型中特征之间的互信息。大量实验证明,我们的TernaryLLM在标准文本生成和零样本基准测试中超越了先前的低位量化方法,适用于不同LLM系列。具体而言,对于最强大的开源模型之一LLaMA-3,我们的方法(W1.58A16)在C4的困惑度上比先前的最先进方法(W2A16)提高了5.8,在零样本任务的平均准确率上提高了8.2%。

论文链接: https://arxiv.org/pdf/2406.07177

cs.LG: 基于深度学习的无授权随机接入下的小区无线 massive MIMO 用户活动检测方法

原标题: Deep Learning-Based Approach for User Activity Detection with Grant-Free Random Access in Cell-Free Massive MIMO

作者: Ali Elkeshawy, HaÏfa Farès, Amor Nafkha

机构:

摘要: 现代无线网络必须可靠地支持各种连接需求,涵盖了不同场景下各种用户需求。机器类型通信(mMTC)在这些网络中至关重要,特别是考虑到大规模连接和间歇性设备激活模式所带来的挑战。传统的基于授权的随机接入(GB-RA)协议由于受限的正交前导资源而面临限制。作为应对,采用无授权随机接入(GF-RA)协议提供了一个有前途的解决方案。本文探讨了在考虑非正交前导设计的情况下,应用监督式机器学习模型来解决活动检测问题。我们引入了一个专门设计用于在采用GF-RA协议运行的无小区大规模多输入多输出(CF-mMIMO)网络中进行用户活动检测的数据驱动算法。此外,本研究提出了一种新颖的聚类策略,简化和增强了活动检测的准确性,评估了算法对输入扰动的韧性,并调查了采用浮点到定点转换对算法性能的影响。进行的模拟符合3GPP标准,确保准确的信道建模,并采用深度学习方法来提升mMTC GF-RA设备的检测能力。结果令人信服:该算法实现了卓越的99%准确率,证实了其在实际应用中的有效性。

论文链接: https://arxiv.org/pdf/2406.07160

cs.LG: 失败是命中注定的,但可以被淡化:对大规模视觉和语言模型中的不良行为进行表征和缓解

原标题: Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models

作者: Som Sagar, Aditya Taparia, Ransalu Senanayake

机构: 清华大学 印度理工学院

摘要: 在看似在许多任务上表现出色的大型深度神经网络中,我们也观察到一些与准确性、社会偏见以及与人类价值观一致性等相关的失败。因此,在部署这些模型之前,对于工程师来说,对这种失败情况进行表征是至关重要的,以便进行调试,并由立法机构对模型进行审计。然而,耗尽地测试所有可能导致模型失败的因素组合是不可行的。在本文中,我们介绍了一种后续方法,利用深度强化学习来探索和构建预训练的判别性和生成性模型中的失败模式。借助有限的人类反馈,我们展示了如何通过远离发现的失败模式来重构失败模式,使其更加理想。我们在常见的计算机视觉、自然语言处理和视觉-语言任务中实证展示了所提出方法的有效性。

论文链接: https://arxiv.org/pdf/2406.07145

cs.LG: 不可知的锐度感知最小化

原标题: Agnostic Sharpness-Aware Minimization

作者: Van-Anh Nguyen, Quyen Tran, Tuan Truong, Thanh-Toan Do, Dinh Phung, Trung Le

机构: 莫纳什大学 澳大利亚 VinAI 越南 University of British Columbia 加拿大

摘要: 锐度感知最小化(SAM)在改善深度神经网络训练方面发挥了重要作用,通过最小化训练损失和损失景观的锐度,使模型进入与更好泛化特性相关的更平坦的最小值。在另一个方面,模型无关元学习(MAML)是一个旨在提高模型适应性的框架。MAML 优化一组特别设计用于快速适应多个任务的元模型,只需最少的微调步骤即可很好地泛化有限数据。在这项工作中,我们探讨了 SAM 和 MAML 之间的联系,特别是在增强模型泛化方面。我们引入了无关-SAM,这是一种结合了 SAM 和 MAML 原则的新方法。无关-SAM 通过使用训练数据优化模型朝着更宽的局部最小值的核心思想,同时在验证数据上保持低损失值。通过这样做,它寻求不仅对小扰动稳健的更平坦的最小值,而且对数据分布转移问题更不易受到影响。我们的实验结果表明,无关-SAM 在一系列数据集和诸如嘈杂标签和数据限制等具有挑战性的条件下显著改善了泛化能力。

论文链接: https://arxiv.org/pdf/2406.07107

cs.LG: 利用大语言模型进行游戏开发中高效的故障分析

原标题: Leveraging Large Language Models for Efficient Failure Analysis in Game Development

作者: Leonardo Marini, Linus Gisslén, Alessandro Sestini

机构: Frostbite SEED Electronic Arts EA

摘要: 在游戏中,以及在软件开发领域,及早发现错误对于保持最终产品的高质量至关重要。自动化测试是一个强大的工具,可以通过定期执行来更早地发现问题。例如,当新代码提交到代码库时,一个新的自动化测试会验证这些更改。然而,在处理一批更改时,特别是在像 AAA 游戏这样的大型项目中,识别导致测试失败的具体更改变得更加困难,因为成千上万的人为单个代码库做出贡献。本文提出了一种新方法,自动识别导致测试失败的代码中的哪个更改。该方法利用大语言模型(LLMs)将错误消息与导致失败的相应代码更改相关联。我们通过定量和定性评估来研究我们的方法的有效性。我们的方法在我们新创建的数据集中达到了71%的准确率,该数据集包括 EA 开发人员在一年内报告的问题。我们通过用户研究进一步评估了我们的模型,以评估工具从开发者角度的效用和可用性,结果显示在调查问题上花费的时间显著减少,最多可达60%。

论文链接: https://arxiv.org/pdf/2406.07084

cs.LG: 在黑盒变分推断中的高效混合学习

原标题: Efficient Mixture Learning in Black-Box Variational Inference

作者: Alexandra Hotti, Oskar Kviman, Ricky Molén, Víctor Elvira, Jens Lagergren

摘要: 混合变分分布在黑盒变分推断(BBVI)中展现出在挑战性密度估计任务中的令人印象深刻的结果。然而,目前扩展混合成分的数量可能导致可学习参数数量的线性增加,以及由于评估证据下界(ELBO)而导致推断时间的二次增加。我们的两个关键贡献解决了这些限制。首先,我们引入了新颖的多重重要性采样变分自动编码器(MISVAE),它通过使用独热编码来分摊从输入到混合参数空间的映射。幸运的是,使用MISVAE,每增加一个混合成分只会导致网络参数的微不足道增加。其次,我们构建了两个新的混合ELBO估计器,使得在BBVI中混合物的推断时间大大减少,同时对性能的影响微乎其微甚至有所改善。总的来说,我们的贡献使得能够扩展到数百个混合成分,并在更短的时间内提供了更优越的估计性能,与之前的混合VAE相比,网络参数更少。通过对MISVAE进行实验,我们在MNIST数据集上取得了惊人的最先进结果。此外,我们在其他BBVI设置中经验验证了我们的估计器,包括贝叶斯系统发生推断,在那里我们改善了八个数据集上SOTA混合模型的推断时间。

论文链接: https://arxiv.org/pdf/2406.07083

cs.LG: 公平感知元学习通过纳什谈判

原标题: Fairness-Aware Meta-Learning via Nash Bargaining

作者: Yi Zeng, Xuelin Yang, Li Chen, Cristian Canton Ferrer, Ming Jin, Michael I. Jordan, Ruoxi Jia

机构: 弗吉尼亚理工大学 美国 加利福尼亚大学伯克利分校 美国 Meta AI 美国

摘要: 为了解决机器学习中的群体级公平性问题,根据敏感属性验证集上的特定公平性目标调整模型参数是很自然的。这样的调整过程可以在元学习框架内进行。然而,通过元学习天真地整合公平性目标可能会导致子群体的超梯度冲突,导致不稳定的收敛并损害模型性能和公平性。为了解决这个问题,我们将超梯度冲突的解决框架构建为一个多人合作博弈。我们引入了一个两阶段元学习框架,第一阶段涉及使用纳什谈判解(NBS)来解决超梯度冲突并引导模型走向帕累托前沿,第二阶段则针对特定的公平性目标进行优化。我们的方法得到了理论结果的支持,特别是梯度聚合的NBS证明不受线性独立性假设的限制,帕累托改进的证明,以及验证损失的单调改进的证明。我们还展示了在六个关键公平性数据集和两个图像分类任务中各种公平性目标的实证效果。

论文链接: https://arxiv.org/pdf/2406.07029

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值