隐式模型的外推能力
原标题: The Extrapolation Power of Implicit Models
作者: Juliette Decugis, Alicia Y. Tsai, Max Emerling, Ashwin Ganesh, Laurent El Ghaoui
机构: 加州大学伯克利分校 VinUniversity
摘要: 在这篇论文中,我们研究了隐式深度学习模型在处理未观测数据时的外推能力,传统深度神经网络可能会失败。隐式模型以其在层深度上的适应性和在计算图中引入反馈的特点而脱颖而出,在各种外推场景中进行了测试:分布之外、地理和时间转移。我们的实验始终表明隐式模型具有显著的性能优势。与非隐式对应物不同,后者通常依赖于每个任务的细致架构设计,隐式模型展示了学习复杂模型结构的能力,无需特定于任务的设计,突显了它们在处理未见数据时的稳健性。
论文链接: https://arxiv.org/abs/2407.14430
专家混合模型与精度混合模型的混合,用于调整服务质量。
原标题: Mixture of Experts with Mixture of Precisions for Tuning Quality of Service
作者: HamidReza Imani, Abdolah Amirany, Tarek El-Ghazawi
机构: 乔治华盛顿大学
摘要: 在资源受限环境中部署大型专家混合模型(MoE)的需求不断增加,需要有效的方法来解决其高内存和计算需求挑战。此外,考虑到任务具有不同的用户定义约束,并且在多租户环境中可用资源随时间变化,有必要设计一种提供灵活配置空间的方法。本文提出了一种自适应服务方法,用于高效部署MoE模型,利用专家的部分量化。通过动态确定量化专家的数量以及它们在CPU和GPU上的分布,我们的方法探索帕累托前沿,并为调整吞吐量和模型质量提供了精细的配置范围。我们在NVIDIA A100 GPU上评估了一个Mixtral 8x7B MoE模型,针对三个语言建模基准测试,结果表明令牌生成的吞吐量可以从每秒0.63个调整到13.00个。在最大量化下,WikiText2、PTB和C4数据集的困惑度分别从2.62增加到2.80,从6.48增加到7.24,从3.24增加到3.53。这些结果突显了我们方法在动态和精度敏感应用中的实际适用性,其中内存使用和输出质量都很重要。
论文链接: https://arxiv.org/abs/2407.14417
KoMA:基于大语言模型的知识驱动多智能体自动驾驶框架
原标题: KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models
作者: Kemou Jiang, Xuan Cai, Zhiyong Cui, Aoyong Li, Yilong Ren, Haiyang Yu, Hao Yang, Daocheng Fu, Licheng Wen, Pinlong Cai
机构: 北京航空航天大学 约翰斯·霍普金斯大学 上海人工智能实验室
摘要: 大语言模型(LLMs)作为自主智能体,通过知识驱动的方式为解决现实世界中的挑战提供了一种新颖途径。这些LLM增强的方法在泛化和可解释性方面表现出色。然而,驾驶任务的复杂性通常需要多个异构智能体的协作,强调了这些LLM驱动的智能体需要进行合作知识共享和认知协同的必要性。尽管LLMs具有潜力,但当前的应用主要集中在单一智能体场景中。为了拓宽知识驱动策略的视野,并增强自主智能体的泛化能力,我们提出了KoMA框架,包括多智能体交互、多步规划、共享记忆和基于排名的反思模块,以增强多智能体在复杂驾驶场景中的决策能力。基于框架生成的驾驶场景文本描述,多智能体交互模块使LLM智能体能够分析和推断周围车辆的意图,类似于人类认知。多步规划模块使LLM智能体能够逐层分析和获取最终行动决策,以确保短期行动决策的一致目标。共享记忆模块可以积累集体经验以做出更优决策,而基于排名的反思模块可以评估和改进智能体行为,旨在提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶智能体的稳健性和适应性,还显著提升了它们在各种场景中的泛化能力。实证结果表明,我们的方法在处理复杂、不可预测的驾驶环境方面优于传统方法,尤其在无需进行大量重新训练的情况下。
论文链接: https://arxiv.org/abs/2407.14239
处理:为大语言模型解释概念级别的解释并定位
原标题: DEAL: Disentangle and Localize Concept-level Explanations for VLMs
作者: Tang Li, Mengmeng Ma, Xi Peng
机构: 特拉华大学
摘要: 大型预训练视觉语言模型(VLMs)已成为其他模型和下游任务的普遍基础组件。尽管功能强大,但我们的实证结果显示,这种模型可能无法识别细粒度概念。具体而言,关于细粒度概念的VLMs解释是混乱的并且定位错误。为解决这一问题,我们提出了一种无需人工注释的DEAL(DisEntAngle and Localize)概念级解释方法。关键思想是鼓励概念级解释具有独特性,同时与类别级解释保持一致。我们在广泛的基准数据集和视觉语言模型上进行了大量实验和消融研究。我们的实证结果表明,所提出的方法显著改善了模型的概念级解释,提高了解缠性和可定位性。令人惊讶的是,改进的可解释性减轻了模型对虚假相关性的依赖,进一步有益于预测准确性。
论文链接: https://arxiv.org/abs/2407.14412
A3Rank:增强对齐分析,用于为深度学习模型优先考虑过度自信的失败样本
原标题: A3Rank: Augmentation Alignment Analysis for Prioritizing Overconfident Failing Samples for Deep Learning Models
作者: Zhengyuan Wei, Haipeng Wang, Qilin Zhou, W.K. Chan
机构: 香港城市大学 港大
摘要: 通过训练接近决策边界的示例来提升深度学习模型是一个众所周知的最佳实践。然而,这些模型在生成预测时仍然容易出错。在实践中,深度学习模型在许多应用系统中的推理是由一个拒绝器来保护的,比如基于置信度的拒绝器,以过滤出预测置信度不足的样本。这种基于置信度的拒绝器无法有效地防范置信度高的失败样本。现有的测试用例优先技术有效区分混淆样本和自信样本,以识别在混淆样本中的失败样本,但是在许多自信样本中将失败样本优先考虑是具有挑战性的。在本文中,我们提出了一种新颖的测试用例优先技术 A 3 A^3 A3Rank,通过增强对齐分析来解决这个问题。 A 3 A^3 A3Rank生成每个测试用例的增强版本,并评估与这些增强版本不一致的测试用例的预测结果程度,反之亦然。我们的实验证明, A 3 A^3 A3Rank能够有效地对逃脱基于置信度拒绝器检查的失败样本进行排名,其在排名前几个样本的检测比率方面比同行技术高出163.63%。我们还提供了一个框架,用于构建一个专门用于增强这些拒绝器以保护这些失败样本的检测器,我们的检测器可以实现显著更高的防御成功率。
论文链接: https://arxiv.org/abs/2407.14114
用于足球图的识别码集的基数及其在遥感中的应用
原标题: The Cardinality of Identifying Code Sets for Soccer Ball Graph with Application to Remote Sensing
作者: Anna L.D. Latour, Arunabha Sen, Kaustav Basu, Chenyang Zhou, Kuldeep S. Meel
机构: 新加坡国立大学 亚利桑那州立大学
摘要: 在卫星监测地球的背景下,我们可以假设地球表面被划分为一组区域。我们假设一个重大的社会/环境事件的影响会波及到相邻的区域。通过使用识别码集(ICSes),我们可以部署传感器,以便在事件发生的区域可以被唯一识别,即使传感器数量少于区域数量。由于地球几乎是一个球体,我们以足球为模型。我们构建了一个足球图(SBG),并提供了面向人类的分析证明:1)SBG至少有26个基数为十的ICSes,这意味着至少有26种不同的方式可以部署十颗卫星来监测地球;2)SBG的最小识别码集(MICS)的基数至少为九。然后,我们提供了一个面向机器的形式化证明,证明了SBG的MICS的基数实际上是十,这意味着必须至少部署十颗卫星来监测SBG模型中的地球。我们还提供了一个面向机器的证明,证明了SBG确实有26个基数为十的ICSes。
论文链接: https://arxiv.org/abs/2407.14120
关于可持续开放式RAN中PRB负载不确定性预测的影响
原标题: On the Impact of PRB Load Uncertainty Forecasting for Sustainable Open RAN
作者: Vaishnavi Kasuluru, Luis Blanco, Cristian J. Vaca-Rubio, Engin Zeydan
机构: 加泰罗尼亚电信技术中心 (CTTC/CERCA)
摘要: 可持续开放式无线接入网络(O-RAN)架构的过渡为资源管理带来了新挑战,特别是在预测物理资源块(PRB)利用率方面。本文提出了一种使用概率预测技术表征PRB负载的新方法。首先,我们提供了关于O-RAN架构和组件的背景信息,并强调能源/功耗模型对于可持续实施的重要性。问题陈述突出了准确的PRB负载预测对于优化资源分配和功耗效率的需求。然后,我们调查了概率预测技术,包括简单前馈(SFF)、DeepAR和Transformer,并讨论它们的可能性模型假设。模拟结果显示,DeepAR估计器相对于基于SFF和Transformer的模型,以更少的不确定性预测PRB,并有效捕捉数据集中的时间依赖关系,从而实现节能。不同的百分位数选择也可以增加节能,但会以过度/不足配置为代价。同时,长短期记忆(LSTM)的性能显示出相对于所有误差指标而言劣于概率估计器。最后,我们概述了基于概率、基于预测的表征对于可持续O-RAN实施的重要性,并强调了未来研究的方向。
论文链接: https://arxiv.org/abs/2407.14400
TorchGT:用于大规模图Transformer训练的整体系统
原标题: TorchGT: A Holistic System for Large-scale Graph Transformer Training
作者: Meng Zhang, Jie Sun, Qinghao Hu, Peng Sun, Zeke Wang, Yonggang Wen, Tianwei Zhang
机构: 南洋理工大学 上海人工智能实验室 浙江大学 SenseTime Research
摘要: Graph Transformer 是一种新的架构,超越了图神经网络在图学习中的表现。虽然出现了令人振奋的算法进展,但它们在实际应用中仍然受到限制,特别是在涉及数百万节点的真实世界图中。我们观察到现有的图转换器在大规模图上失败主要是由于计算量大、可扩展性有限和模型质量较差。受到这些观察的启发,我们提出了 TorchGT,这是第一个高效、可扩展且准确的图转换器训练系统。TorchGT 在不同层面上优化训练。在算法层面上,通过利用图的稀疏性,TorchGT 引入了一种双交错注意力机制,这种机制既高效又能保持准确性。在运行时层面上,TorchGT 通过一种通信轻量级的集群感知图并行性,实现跨工作节点的训练扩展。在内核层面上,一种弹性计算重构进一步优化计算,通过动态方式减少内存访问延迟。大量实验证明,TorchGT 可以将训练提升高达 62.7 倍,并支持长达 1M 的图序列长度。
论文链接: https://arxiv.org/abs/2407.14106
ParamsDrag:通过图像空间拖动进行交互式参数空间探索
原标题: ParamsDrag: Interactive Parameter Space Exploration via Image-Space Dragging
作者: Guan Li, Yang Liu, Guihua Shan, Shiyu Cheng, Weiqun Cao, Junpeng Wang, Ko-Chih Wang
机构: 清华大学 哈尔滨工业大学 百度 深圳大学
摘要: 数值模拟在科学建模中扮演着重要角色,然而微调模拟参数的过程存在着重大挑战。传统上,参数调整依赖于大量的数值模拟、数据分析和专家见解,导致计算成本高昂且效率低下。近年来深度学习的出现为更高效地探索参数空间提供了希望。然而,现有方法通常缺乏直观的精确参数调整和优化方法。为了解决这些挑战,我们引入了ParamsDrag,这是一个通过与可视化直接交互促进参数空间探索的模型。受DragGAN启发,我们的ParamsDrag模型分为三个步骤。首先,ParamsDrag的生成组件根据输入的模拟参数生成可视化。其次,用户可以通过直接拖动可视化中与结构相关的特征,直观地理解不同参数的控制效果。第三,通过前一步的理解,用户可以引导ParamsDrag产生动态的可视化结果。通过在真实世界模拟上进行的实验以及与最先进的基于深度学习的方法进行比较,我们展示了我们解决方案的有效性。
论文链接: https://arxiv.org/abs/2407.14100
优化农业订单履约系统:一种混合树搜索方法
原标题: Optimizing Agricultural Order Fulfillment Systems: A Hybrid Tree Search Approach
作者: Pranay Thangeda, Hoda Helmi, Melkior Ornik
机构: 伊利诺伊大学厄巴纳-香槟分校 美国 科特瓦农业科学公司 印第安纳州 印第安纳波利斯
摘要: 高效的订单履行对农业行业至关重要,特别是由于种子供应链的季节性特点。本文解决了优化中央仓库种子订单履行的挑战,其中订单按波次处理,考虑到种子库存的不可预测到货和严格的订单截止日期。我们将波次调度问题建模为马尔可夫决策过程,并提出了一种自适应混合树搜索算法,将蒙特卡洛树搜索与领域特定知识相结合,以有效地应对种子分配的复杂、动态环境。通过利用历史数据和随机建模,我们的方法实现了基于预测的调度决策,平衡了即时需求和长期运营效率。关键思想是,我们可以利用问题特定的辅助信息来增强蒙特卡洛树搜索算法,动态减少每个决策步骤的候选动作数量,以处理大状态和动作空间,从而使传统解决方法在计算上难以处理。通过使用真实参数进行广泛的模拟,包括各种产品、大量订单和真实季节持续时间,证明了所提出的方法明显优于现有的行业标准方法。
论文链接: https://arxiv.org/abs/2407.13968
TTT:一种用于微妙可行的离散时间可达性问题的时间细化启发式算法
原标题: TTT: A Temporal Refinement Heuristic for Tenuously Tractable Discrete Time Reachability Problems
作者: Chelsea Sidrane, Jana Tumova
机构: 切尔西·西德兰(Chelsea Sidrane):暂时难以处理的离散时间可达性问题的时间细化启发式
亚纳·图莫娃(Jana Tumova):
摘要: 可达集计算是分析控制系统的重要工具。模拟控制系统可以显示系统通常按预期运行,但像可达性分析这样的形式工具可以提供正确性的保证。对于线性系统,可达性分析是直接且快速的,但是当控制系统添加了更复杂的组件,如非线性动力学或神经网络控制器时,可达性分析可能会变慢或变得过于保守。为了解决这些挑战,许多文献都集中在空间细化上,例如调整输入集和中间可达集的离散化。然而,本文讨论了一个不同的维度:时间细化。时间细化的基本思想是自动选择在可达性问题的时间范围内何时执行慢速符号查询,这些查询产生较少的近似误差,而快速具体查询则产生更多的近似误差。时间细化可以与其他细化方法结合,并提供了一个额外的“调节旋钮”,用于在近似可达集计算中权衡可处理性和紧密性。在这里,我们介绍了一个用于执行时间细化的自动框架,并展示了这种技术在计算具有神经网络控制策略的非线性系统的近似可达集时的有效性。我们演示了在不同计算预算下计算具有不同近似误差的可达集,并展示了我们的算法能够在比基准方法少 20-70% 的时间内生成具有类似误差量的近似可达集。
论文链接: https://arxiv.org/abs/2407.14394
GLAudio听到了图形的声音
原标题: GLAudio Listens to the Sound of the Graph
作者: Aurelio Sulser, Johann Wenckstern, Clara Kuempel
摘要: 我们提出了GLAudio:基于节点特征和连接结构的音频表示的图学习。这种新颖的架构通过图网络根据离散波动方程传播节点特征,然后采用序列学习架构从音频波形信号中学习目标节点函数。这导致了一种新的图结构数据学习范式,其中信息传播和信息处理被分为两个不同的步骤。我们在理论上表征了我们模型的表达能力,引入了顶点的感受域的概念,并在各种图数据集上从理论和实验上研究了我们模型对过度平滑和过度压缩的敏感性。
论文链接: https://arxiv.org/abs/2407.14387
关于在开放世界场景中使用仅前向学习算法的全脉冲神经网络的稳健性
原标题: On the Robustness of Fully-Spiking Neural Networks in Open-World Scenarios using Forward-Only Learning Algorithms
作者: Erik B. Terres-Escudero, Javier Del Ser, Aitor Martínez-Seras, Pablo Garcia-Bringas
机构: 德乌斯托大学 技术研究中心 泰克纳利亚
摘要: 在过去的十年中,人工智能(AI)模型以其出色的建模性能迅速融入生产流程。然而,这些模型的发展并未得到算法方面的进展,未能确保针对其学习领域之外的超出分布(OoD)输入的稳健行为。此外,人们越来越关注AI模型的可持续性以及在训练和推理阶段所需的能源消耗。为了缓解这些问题,本研究探讨了前向-前向算法(FFA)的使用,这是一种适用于脉冲领域的生物学合理的反向传播替代方案,旨在提高模型的整体能源效率。通过利用使用FFA训练的模型的潜在空间中出现的高度表达拓扑结构,我们开发了一种新颖的用于OoD检测的FF-SCP算法。我们的方法通过使用样本的潜在表示与类代表流形之间的距离来衡量样本属于分布内(ID)数据的可能性。此外,为了更深入地了解我们的OoD流程,我们提出了一种无梯度归因技术,突出显示推动样本远离任何类别分布的特征。使用我们的脉冲FFA适应性进行的多个实验表明,所达到的准确性水平与通过反向传播训练的模拟网络中看到的水平相当。此外,在多个数据集上进行的OoD检测实验证明,FF-SCP在几个在这一领域使用的指标方面优于尖端的OoD检测器。我们还对我们的可解释性技术进行了定性分析,揭示了该方法检测OoD特征(如嵌入式工件或缺失区域)的精度。
论文链接: https://arxiv.org/abs/2407.14097
通往表达式查询的粘性路径:存在规则下导航查询的可决定性
原标题: The Sticky Path to Expressive Querying: Decidability of Navigational Queries under Existential Rules
作者: Piotr Ostropolski-Nalewaja, Sebastian Rudolph
机构: 图雷斯登工业大学 布雷斯劳大学 可扩展数据分析与人工智能中心
摘要: 在基于本体的查询回答领域进行了大量研究,已经确定了许多存在性规则片段(也称为元组生成依赖关系),这些片段表现出对原子和合取查询的可决答。受到对导航查询日益增加的理论和实际兴趣的推动,本文考虑了这些片段中哪些片段的查询可决性扩展到正则路径查询(RPQs)。事实上,最近已经证明了对于具有通用模型保证合理形状(即有限团宽度)的所有片段的综合家族,RPQs的可决性通常成立。然而,对于第二个主要片段家族,即基于一阶可重写性的有限统一集(简称:fus),相应的结果迄今为止在很大程度上仍然难以捉摸。我们通过展示在任意fus规则集上的RPQ回答是不可判定的来完成这一画面。在积极的一面,我们建立了对于著名的fus子类别粘性规则集,该问题是可判定的,但有一个警告,即RPQ形式主义的一个非常轻微的扩展会再次使问题变得不可判定。
论文链接: https://arxiv.org/abs/2407.14384
人们使用快速、目标导向的模拟来推理新颖游戏。
原标题: People use fast, goal-directed simulation to reason about novel games
作者: Cedegao E. Zhang, Katherine M. Collins, Lionel Wong, Adrian Weller, Joshua B. Tenenbaum
机构: 麻省理工学院 剑桥大学 图灵研究所
摘要: 在我们有效解决问题之前,我们可以很好地评估问题及其潜在解决方案的特征。例如,考虑一个我们从未玩过的游戏,我们可能会仅通过听游戏规则就推断出它可能是具有挑战性、公平性或趣味性的,然后再决定是否值得花时间学习这个游戏或尝试玩得好。许多游戏研究侧重于最优性和专业性,描述了人们和计算模型如何基于中等到广泛的搜索以及在玩了几十次(甚至成千上万次)游戏之后进行游戏。在这里,我们研究人们如何推理一系列简单但新颖的连连看风格棋盘游戏。我们要求人们在几乎没有经验的情况下就判断这些游戏的公平性和趣味性:只是花一两分钟思考游戏,而不是实际与其他人玩过之后,我们提出了一个资源有限的模型,仅使用少量部分游戏模拟和几乎没有前瞻搜索来捕捉他们的判断。
论文链接: https://arxiv.org/abs/2407.14095
利用概率预测技术增强 O-RAN 中的云原生资源分配
原标题: Enhancing Cloud-Native Resource Allocation with Probabilistic Forecasting Techniques in O-RAN
作者: Vaishnavi Kasuluru, Luis Blanco, Engin Zeydan, Albert Bel, Angelos Antonopoulos
机构: 加泰罗尼亚电信技术中心(CTTC) 近邻计算有限公司
摘要: 随着电信业向6G时代的发展,对于在现实场景中对资源进行智能高效的配置管理的需求与日俱增。诸如开放式无线接入网络(O-RAN)等技术可以帮助构建用于管理复杂系统的可互操作解决方案。与确定性单点估计器相比,概率预测可以通过量化生成预测的不确定性来提供资源分配的不同方法。本文研究了O-RAN的云原生方面以及无线应用(rApp)部署选项。强调了将概率预测技术作为rApp集成到O-RAN中,以及实际应用案例的案例研究。通过使用误差度量对预测模型进行比较分析,我们展示了深度自回归循环网络(DeepAR)相对于其他确定性概率估计器的优势。此外,简单前馈(SFF)的简单性导致运行时快,但无法捕捉输入数据的时间依赖性。最后,我们介绍了与云原生O-RAN和概率预测的实际适用性相关的一些方面。
论文链接: https://arxiv.org/abs/2407.14377
目标导向有效沟通的集成推拉更新模型
原标题: Integrated Push-and-Pull Update Model for Goal-Oriented Effective Communication
作者: Pouya Agheli, Nikolaos Pappas, Petar Popovski, Marios Kountouris
机构: IEEE 组织 Pouya Agheli 研究生,Nikolaos Pappas 高级会员,Petar Popovski 会士,Marios Kountouris 会士。
摘要: 这篇论文研究了面向目标的有效沟通的决策制定。我们考虑了一个端到端的状态更新系统,其中一个感知智能体(SA)观察一个信息源,生成并传输更新给一个执行智能体(AA),而AA则采取行动来实现端点的目标。我们将推送和拉取更新通信模型整合在一起,得到一个推拉模型,允许SA的传输控制器决定向AA推送更新,而AA的查询控制器则通过在特定时间点提出查询来拉取更新。为了衡量有效性,我们利用一个包含更新新鲜度、有用性和行动及时性等定性属性的有效性评分(GoE)指标。然后,我们推导出考虑效果的策略,以最大化预期折现更新有效性之和,同时受到引发成本的限制。SA处的效果感知策略考虑了在端点传达的更新的潜在有效性,而在AA处,它考虑了信息源的概率演变和生成更新的重要性。我们的结果显示,所提出的推拉模型在效率和有效性方面均优于仅基于推送或拉取更新的模型。此外,两个智能体使用考虑效果的策略比在任一或两个智能体处使用周期性和/或概率效果不可知策略能够增强有效性。
论文链接: https://arxiv.org/abs/2407.14092
DEPICT:用于图像分类任务的扩散启用的排列重要性
原标题: DEPICT: Diffusion-Enabled Permutation Importance for Image Classification Tasks
作者: Sarah Jabbour, Gregory Kondas, Ella Kazerooni, Michael Sjoding, David Fouhey, Jenna Wiens
机构: 密歇根大学 纽约大学
摘要: 我们提出了一种基于排列的图像分类器解释方法。当前的图像模型解释方法,如激活图,局限于基于实例的像素空间解释,这使得理解全局模型行为变得困难。相比之下,基于排列的表格数据分类器解释方法通过比较在对特征进行排列之前和之后的数据上模型的表现来衡量特征重要性。我们提出了一种针对基于图像的模型的解释方法,该方法在数据集图像之间对可解释概念进行排列。给定一个带有特定概念标签的图像数据集,比如标题,我们在文本空间中对示例中的概念进行排列,然后通过文本条件扩散模型生成图像。特征重要性随后通过与未排列数据相比的模型性能变化来反映。当应用于一组概念时,该方法生成特征重要性的排名。我们展示了这种方法在合成和真实世界的图像分类任务中恢复了潜在的模型特征重要性。
论文链接: https://arxiv.org/abs/2407.14509
关于在开放式无线接入网络中利用概率预测进行网络分析的研究
原标题: On the use of Probabilistic Forecasting for Network Analysis in Open RAN
作者: Vaishnavi Kasuluru, Luis Blanco, Engin Zeydan
机构: 加泰罗尼亚电信技术中心 (CTTC/CERCA)
摘要: 与其他基于单点的人工智能(AI)预测技术(如长短期记忆(LSTM))不同,概率预测技术(例如DeepAR和Transformer)提供了一系列可能的结果及相关概率,使决策者能够做出更加明智和稳健的决策。与此同时,开放式无线接入网(Open RAN)的架构已经成为移动网络的一种革命性方法,旨在实现无障碍、互操作性和创新。在本文中,我们提议将概率预测技术作为一种无线应用(rApp)应用于Open RAN架构中。我们研究并比较了不同的概率和单点预测方法以及算法,以估计蜂窝基站的物理资源块(PRB)的利用率和资源需求。通过我们的评估,我们展示了概率预测技术相对于传统的单点预测方法的数值优势,并表明它们能够提供更准确和可靠的估算。特别是,DeepAR明显优于诸如LSTM和季节性朴素(SN)基线以及其他概率预测技术(如简单前馈(SFF)和Transformer神经网络)的单点预测技术。
论文链接: https://arxiv.org/abs/2407.14375
DisenSemi:通过解耦表示学习的半监督图分类
原标题: DisenSemi: Semi-supervised Graph Classification via Disentangled Representation Learning
作者: Yifan Wang, Xiao Luo, Chong Chen, Xian-Sheng Hua, Ming Zhang, Wei Ju
机构: 清华大学 腾讯AI Lab
摘要: 图分类是许多多媒体应用中的关键任务,在这些应用中,图被用来表示各种类型的多媒体数据,包括图像、视频和社交网络。然而,在现实场景中,带标签的图数据可能是有限或稀缺的。为了解决这个问题,我们关注半监督图分类问题,该问题涉及监督和无监督模型从带标签和未标记数据中学习。与最近的方法相比,这些方法将整个无监督模型的知识转移到监督模型中,我们认为有效的转移应该只保留与监督任务良好对齐的相关语义。在本文中,我们提出了一个名为DisenSemi的新框架,该框架学习半监督图分类的解耦表示。具体而言,我们提出了一个解耦图编码器,用于为监督和无监督模型生成基于因子的图表示。然后,我们通过监督目标和基于互信息(MI)的约束分别训练两个模型。为了确保从无监督编码器到监督编码器的知识有意义地转移,我们进一步定义了两个模型之间基于MI的解耦一致性正则化,并确定了与当前图分类任务良好对齐的相应基础。在一系列公开可访问的数据集上的实验结果显示了我们的DisenSemi的有效性。
论文链接: https://arxiv.org/abs/2407.14081
SCoPE:评估用于软件漏洞检测的大语言模型
原标题: SCoPE: Evaluating LLMs for Software Vulnerability Detection
作者: José Gonçalves, Tiago Dias, Eva Maia, Isabel Praça
机构: ISEP (Porto School of Engineering) GECAD (Research Group on Intelligent Engineering and Computing for Advanced Innovation and Development)
摘要: 近年来,代码安全变得越来越重要,特别是随着互联技术的兴起。在软件开发过程中早期检测漏洞已经证明了许多好处。因此,科学界开始使用机器学习来自动检测源代码漏洞。这项工作探讨并完善了CVEFixes数据集,该数据集通常用于训练与代码相关的模型,特别是C/C++子集。为此,提出了Source Code Processing Engine(SCoPE),这是一个由策略化技术组成的框架,可用于减小并规范化C/C++函数。SCoPE生成的输出被用来创建CVEFixes的新版本。然后,这个经过精细调整的数据集被用于特征表示分析,以评估工具的代码处理技术的有效性,包括对三个预训练的大语言模型进行微调,用于软件漏洞检测。结果显示,SCoPE成功帮助识别了评估子集中的905个重复项。大语言模型的结果与文献中关于它们适用于软件漏洞检测的观点一致,最佳模型实现了53%的F1分数。
论文链接: https://arxiv.org/abs/2407.14372
通过音乐相似度度量在原始音频上评估音乐生成中的数据复制
原标题: Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
作者: Roser Batlle-Roca, Wei-Hisang Liao, Xavier Serra, Yuki Mitsufuji, Emilia Gómez
机构: 西班牙龙普拉大学音乐技术组 索尼人工智能 日本 索尼人工智能 美国 欧洲委员会联合研究中心 西班牙
摘要: 最近音乐生成领域的进展引发了人们对人工智能在创意音乐过程、当前商业模式以及知识产权管理影响的多重关注。一个相关的挑战是人工智能生成音乐中训练集的潜在复制和抄袭,这可能导致数据滥用和侵犯知识产权。为了解决这个问题,我们提出了音乐复制评估(MiRA)工具:这是一个基于多样的音频音乐相似度指标的模型无关的开放评估方法,用于评估训练集数据复制情况。我们通过在不同音乐流派的合成样本上进行受控复制实验,评估了五种指标识别精确复制的能力。我们的结果显示,所提出的方法可以估计高于10%的精确数据复制比例。通过引入MiRA工具,我们旨在鼓励研究人员、开发人员和用户对音乐生成模型进行开放评估,关注数据复制问题,突出了人工智能在音乐领域的伦理、社会、法律和经济后果的重要性。
论文链接: https://arxiv.org/abs/2407.14364
LoAS:用于双稀疏脉冲神经网络的完全时空并行数据流
原标题: LoAS: Fully Temporal-Parallel Datatflow for Dual-Sparse Spiking Neural Networks
作者: Ruokai Yin, Youngeun Kim, Di Wu, Priyadarshini Panda
机构: 耶鲁大学 中佛罗里达大学
摘要: 在过去的十年中,脉冲神经网络(SNNs)由于其推动资源受限边缘设备的潜力而受到了重视。尽管现有的SNN加速器在处理稀疏脉冲和密集权重方面效率很高,但在具有稀疏权重的SNN中,即双稀疏性方面的机会较少被探索。在这项工作中,我们研究了双稀疏SNN的加速,重点放在它们的核心操作上,即稀疏矩阵-稀疏矩阵乘法(spMspM)。我们观察到,在现有为双稀疏人工神经网络(ANNs)设计的spMspM加速器上天真地运行双稀疏SNN表现出次优效率。主要挑战在于处理时间步,这是SNN的一个自然属性,会为ANN spMspM引入额外的循环,导致更长的延迟和更多的内存流量。为了解决这个问题,我们提出了一个完全时序并行(FTP)数据流,它最小化了跨时间步的数据移动和双稀疏SNN的端到端延迟。为了最大化FTP数据流的效率,我们提出了一种FTP友好的脉冲压缩机制,可以高效地压缩单比特脉冲并确保连续的内存访问。我们进一步提出了一种FTP友好的内连接电路,可以降低昂贵的前缀和电路的成本,几乎没有吞吐量惩罚。所有上述用于FTP数据流的技术都封装在LoAS中,这是一个用于双稀疏SNN的低延迟推断加速器。通过FTP数据流、压缩和内连接,将双稀疏SNN工作负载在LoAS上运行,相比于在先前的双稀疏加速器上运行,可以实现显著的加速(最高可达8.51倍)和节能(最高可达3.68倍)。
论文链接: https://arxiv.org/abs/2407.14073
FuzzTheREST:一个智能的自动化黑盒 RESTful API Fuzzer
原标题: FuzzTheREST: An Intelligent Automated Black-box RESTful API Fuzzer
作者: Tiago Dias, Eva Maia, Isabel Praça
机构: 波尔图工程学院(GECAD),波尔图(Porto),葡萄牙
摘要: 在数字转型时代,软件的普遍影响和日益增加的依赖引发了对漏洞的担忧,强调了对软件安全的需求。模糊测试是一种动态分析软件测试技术,包括向被测系统(SUT)提供错误的输入数据并观察其行为。特别是在黑盒 RESTful API 测试方面,最近的文献尝试使用启发式方法自动化这种技术,以执行输入搜索,并使用 HTTP 响应状态码进行分类。然而,大多数方法并未跟踪代码覆盖率,而这对于验证解决方案至关重要。本文介绍了一种利用强化学习(RL)进行漏洞检测的黑盒 RESTful API 模糊测试工具。该模糊器通过 OpenAPI 规范(OAS)文件和一个场景文件运行,其中包括与 SUT 通信的信息以及要测试的功能序列。为了评估其有效性,该工具在 Petstore API 上进行了测试。该工具发现了总共六个独特的漏洞,并实现了 55% 的代码覆盖率。
论文链接: https://arxiv.org/abs/2407.14361
发现-命名:通过自动概念发现实现任务不可知的概念瓶颈
原标题: Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery
作者: Sukrut Rao, Sweta Mahajan, Moritz Böhle, Bernt Schiele
机构: 马克思·普朗克信息学研究所 萨尔兰信息学园 萨尔布吕肯 神经显式模型研究培训组
摘要: 最近提出了概念瓶颈模型(CBMs),旨在解决深度神经网络的“黑盒”问题,首先将图像映射到人类可理解的概念空间,然后线性组合概念进行分类。这种模型通常需要首先确定与任务相关的一组概念,然后调整特征提取器的表示以映射到这些概念。然而,即使使用像CLIP这样功能强大的基础特征提取器,也不能保证指定的概念是可检测的。在这项工作中,我们利用了机械解释性方面的最新进展,提出了一种新颖的CBM方法——称为Discover-then-Name-CBM(DN-CBM)——颠倒了典型的范式:我们不是基于下游分类任务预先选择概念,而是使用稀疏自动编码器首先发现模型学到的概念,然后对其命名并训练线性探测器进行分类。我们的概念提取策略高效,因为它对下游任务是不可知的,并且使用模型已知的概念。我们在多个数据集和CLIP架构上进行了全面评估,并展示了我们的方法产生了语义上有意义的概念,为这些概念分配了适当的名称,使它们易于解释,并产生了性能良好且可解释的CBMs。代码可在此https URL找到。
论文链接: https://arxiv.org/abs/2407.14499
Github: https://github.com/neuroexplicit-saar/discover-then-name
稳定音频开放
原标题: Stable Audio Open
作者: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
摘要: 开放的生成模型对社区至关重要,可以进行微调,并在提出新模型时作为基准。然而,大多数当前的文本转音频模型是私有的,艺术家和研究人员无法构建在其基础上。在这里,我们描述了一个新的开放权重文本转音频模型的架构和训练过程,该模型是使用知识共享数据进行训练的。我们的评估表明,该模型在各种指标上的性能与最先进的模型相媲美。值得注意的是,报告的FDopenl3结果(衡量生成物的真实性)展示了其在44.1kHz下进行高质量立体声合成的潜力。
论文链接: https://arxiv.org/abs/2407.14358
深度强化学习智能体的可解释的事后投资组合管理金融策略
原标题: Explainable Post hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning agent
作者: Alejandra de la Rica Escudero, Eduardo C. Garrido-Merchan, Maria Coronado-Vaca
机构: 康普拉斯教宗大学,马德里,西班牙
摘要: 金融投资组合管理投资策略是通过现代投资组合理论技术(如马科维茨模型)定量计算的,但这些技术依赖一系列在高波动市场中未得到数据支持的假设。因此,定量研究人员正在寻找替代模型来解决这一问题。具体而言,投资组合管理是一个近期成功应用深度强化学习(DRL)方法来解决的问题。特别是,DRL算法通过估计代理在模拟器中对任何金融状态执行的每个动作的预期奖励分布来训练代理。然而,这些方法依赖于深度神经网络模型来表示这种分布,尽管它们是通用逼近模型,但不能解释其行为,因为其由一组不可解释的参数给定。关键是,金融投资者的策略要求预测是可解释的,因此DRL代理不适合遵循特定策略或解释其行为。在这项工作中,我们开发了一种新颖的可解释深度强化学习(XDRL)方法用于投资组合管理,将近端策略优化(PPO)与特征重要性、SHAP和LIME等模型无关的可解释技术集成在一起,以增强预测时的透明度。通过执行我们的方法,我们可以在预测时解释代理的行动,以评估它们是否符合投资政策的要求或评估遵循代理建议的风险。据我们所知,我们提出的方法是首个解释性后期投资组合管理金融政策的DRL代理。我们通过成功识别影响投资决策的关键特征来实证说明我们的方法,这表明了解释代理在预测时行动的能力。
论文链接: https://arxiv.org/abs/2407.14486
图像的量子哈密顿嵌入用于数据重新上传分类器
原标题: Quantum Hamiltonian Embedding of Images for Data Reuploading Classifiers
作者: Peiyong Wang, Casey R. Myers, Lloyd C. L. Hollenberg, Udaya Parampalli
机构: 墨尔本大学 悉尼科技大学 UNSW Sydney Silicon Quantum Computing Pty Ltd
摘要: 在将量子计算应用于机器学习任务时,首要考虑的是量子机器学习模型的设计。传统上,量子机器学习算法的设计依赖于对经典学习算法的“量子化”,例如使用量子线性代数来实现经典算法的重要子程序,甚至整个算法,以通过量子计算带来的可能的运行时加速来实现量子优势。然而,最近的研究开始质疑通过加速获得量子优势是否是量子机器学习的正确目标。研究还利用量子系统独特的性质,如量子上下文性,来更好地设计量子机器学习模型。在本文中,我们采用一种替代方法,将经典深度学习算法的设计中的启发和经验证据纳入到量子神经网络的设计中。我们首先基于数据重新上传电路构建了一个模型,其中包括量子哈密顿数据嵌入酉矩阵。通过对图像数据集进行数值实验,包括著名的MNIST和FashionMNIST数据集,我们证明我们的模型在性能上远远优于量子卷积神经网络(QCNN)(在MNIST测试集上高达40%以上)。基于模型设计过程和数值结果,我们提出了六项设计量子机器学习模型的原则,特别是量子神经网络。
论文链接: https://arxiv.org/abs/2407.14055
OCTrack:对开放语料库多目标跟踪进行基准测试
原标题: OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking
作者: Zekun Qian, Ruize Han, Wei Feng, Junhui Hou, Linqi Song, Song Wang
机构: 天津大学 深圳先进技术研究院 香港城市大学 南卡罗来纳大学
摘要: 我们研究了一个新颖但实用的问题,即开放语料库多目标跟踪(OCMOT),它将MOT扩展到定位、关联和识别已见(基础)和未见(新颖)类别的通用类别对象,但不使用类别文本列表作为提示。为了研究这个问题,首要任务是建立一个基准。在这项工作中,我们建立了OCTrackB,一个大规模且全面的基准,为OCMOT问题提供了一个标准评估平台。与先前的数据集相比,OCTrackB具有更丰富和平衡的基础/新颖类别以及相应的评估样本,减少了偏见。我们还提出了一种新的多粒度识别度量标准,以更好地评估OCMOT中的生成对象识别。通过进行广泛的基准评估,我们报告并分析了各种最先进方法的结果,展示了OCMOT的合理性,以及OCTrackB的实用性和优势。
论文链接: https://arxiv.org/abs/2407.14047
乳房X线照片的全景分割与文本到图像扩散模型
原标题: Panoptic Segmentation of Mammograms with Text-To-Image Diffusion Model
作者: Kun Zhao, Jakub Prokop, Javier Montalt Tordera, Sadegh Mohammadi
机构: 拜耳公司 德国
摘要: 乳腺X线摄影对于乳腺癌监测和早期诊断至关重要。然而,分析乳腺X线摄影图像对放射科医师来说是一项繁重的任务,他们经常每天审查数百张乳腺X线摄影,导致过度诊断和过度治疗。已经开发了计算机辅助诊断(CAD)系统来协助这一过程,但它们的能力,特别是在病变分割方面,仍然有限。随着深度学习的当代进展,它们的性能可能会得到改善。最近,出现了视觉-语言扩散模型,展示了在图像生成和可转移性到各种下游任务方面出色的性能。我们的目标是利用它们在全景设置中对乳腺病变分割的能力,该设置包括语义级和实例级预测。具体而言,我们建议利用来自稳定扩散模型的预训练特征作为输入到最先进的全景分割架构,从而准确勾画出单个乳腺病变。为了弥合自然和医学成像领域之间的差距,我们将乳腺X线摄影特定的MAM-E扩散模型和BiomedCLIP图像和文本编码器纳入到这一框架中。我们在两个最近发布的乳腺X线摄影数据集CDD-CESM和VinDr-Mammo上评估了我们的方法。对于实例分割任务,我们注意到AP0.1为40.25,AP0.05为46.82,PQ0.1为25.44,PQ0.05为26.92。对于语义分割任务,我们分别实现了38.86和40.92的Dice分数。
论文链接: https://arxiv.org/abs/2407.14326
EmoCAM: 朝向理解驱动基于CNN的情绪识别的方向
原标题: EmoCAM: Toward Understanding What Drives CNN-based Emotion Recognition
作者: Youssef Doulfoukar, Laurent Mertens, Joost Vennekens
机构: 鲁汶大学 比利时 智能系统研究所 比利时 佛兰德斯制造@鲁汶大学
摘要: 卷积神经网络特别适用于图像分析任务,如图像分类、物体识别或图像分割。然而,与所有人工神经网络一样,它们是“黑盒”模型,缺乏解释性。这项工作关注于从图像中识别情绪的具体下游任务,并提出了一个框架,将基于CAM的技术与对象检测在语料级别上结合起来,以更好地理解特定模型(在我们的案例中是EmoNet)依赖于哪些图像线索来为图像分配特定情绪。我们展示了该模型主要关注人类特征,同时也探讨了特定图像修改的显著影响。
论文链接: https://arxiv.org/abs/2407.14314
TTA-OOD:用于改善胃肠视觉领域外分布检测的测试时间增强
原标题: TTA-OOD: Test-time Augmentation for Improving Out-of-Distribution Detection in Gastrointestinal Vision
作者: Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Tryphon Lambrou, Prashnna Gyawali, Binod Bhattarai
机构: 尼泊尔应用数学和信息研究所(NAAMII) 西弗吉尼亚大学 苏格兰阿伯丁大学 自然与计算科学学院
摘要: 深度学习在胃肠视觉领域取得了显著进展,增强了疾病诊断能力。在胃肠环境中自动诊断的一个主要挑战是在内窥镜图像中检测异常病例。由于数据稀缺,区分正常和异常病例的过程面临着重大挑战,特别是对于罕见和未知条件。为了解决这个问题,我们将异常检测视为一种超出分布(OOD)检测问题。在这种设置中,一个在分布(ID)数据上训练的模型,代表了健康的胃肠道,可以准确识别健康病例,而异常被检测为OOD,而不考虑它们的类别。我们在OOD检测流程中引入了一个测试时间增强段,增强了ID和OOD示例之间的区分,从而提高了使用相同模型的现有OOD方法的有效性。这种增强改变了像素空间,从而使OOD示例相对于ID示例具有更明显的语义表示。我们将我们的方法与现有的最先进的OOD分数进行了评估,结果显示测试时间增强比基线方法有所改进。
论文链接: https://arxiv.org/abs/2407.14024
用于实际模型故障检测的互补学习
原标题: Complementary Learning for Real-World Model Failure Detection
作者: Daniel Bogdoll, Finn Sartoris, Vincent Geppert, Svetlana Pavlitska, J. Marius Zöllner
摘要: 在现实世界的自动驾驶中,深度学习模型可能会因训练数据与遇到的驾驶条件之间的分布偏移而出现性能下降。与机器学习中的典型情况一样,很难获取一个大规模且可能具有代表性的标记测试集,以验证模型在准备部署到实际环境中之前的性能。在这项工作中,我们引入了互补学习,通过利用不同训练范式中学到的特征来检测模型错误。我们通过以监督和自监督方式学习点云中的语义和预测运动标签,并随后检测和分类模型差异来展示我们的方法。我们进行了大规模的定性分析,并提出了 LidarCODA,这是第一个带有激光雷达点云中异常标记的数据集,用于进行广泛的定量分析。
论文链接: https://arxiv.org/abs/2407.14306
多模态关系蒸馏用于统一的3D表示学习
原标题: Multi-modal Relation Distillation for Unified 3D Representation Learning
作者: Huiqun Wang, Yiping Bao, Panwang Pan, Zeming Li, Xiao Liu, Ruijie Yang, Di Huang
机构: 北航大学 PICO
摘要: 最近在多模态预训练方面取得的进展针对3D点云展现出了令人期待的结果,通过对齐3D形状、对应的2D图像和语言描述之间的异构特征。然而,当前直接的解决方案往往忽视了样本之间复杂的结构关系,可能限制了多模态学习的全部能力。为了解决这个问题,我们引入了Multi-modal Relation Distillation(MRD),这是一个三模态预训练框架,旨在有效地将知名的大视觉-语言模型(VLM)蒸馏到3D骨干中。MRD旨在捕捉每个模态内部的关系以及不同模态之间的交叉关系,并产生更具辨识性的3D形状表示。值得注意的是,MRD在下游零样本分类任务和跨模态检索任务中取得了显著的改进,提供了新的最先进性能。
论文链接: https://arxiv.org/abs/2407.14007
如何在扩散模型中融合概念
原标题: How to Blend Concepts in Diffusion Models
作者: Giorgio Longari, Lorenzo Olearo, Simone Melzi, Rafael Peñaloza, Alessandro Raganato
机构: 米兰-比科卡大学
摘要: 在过去的十年中,人们一直在推动使用多维(潜在)空间来表示概念;然而如何操作这些概念或进行推理仍然大部分不清楚。一些最近的方法利用多个潜在表示及它们之间的连接,使得这个研究问题变得更加纠缠复杂。我们的目标是理解潜在空间中的操作如何影响基础概念。为此,我们通过扩散模型探索概念融合的任务。扩散模型基于文本提示的潜在表示与一个能够进行图像重建和生成的潜在空间之间的联系。这个任务使我们能够尝试不同的基于文本的组合策略,并通过视觉分析轻松评估。我们的结论是,通过空间操作进行概念融合是可能的,尽管最佳策略取决于融合的背景。
论文链接: https://arxiv.org/abs/2407.14280
LLAssist:使用大语言模型自动化文献综述的简单工具
原标题: LLAssist: Simple Tools for Automating Literature Review Using Large Language Models
作者: Christoforus Yoga Haryanto
机构: 皇家墨尔本理工大学(LLAssist: Simple Tools for Automating Literature Review Using Large Language Models, Christoforus Yoga Haryanto)
摘要: 这篇论文介绍了LLAssist,这是一个旨在简化学术研究文献综述的开源工具。在科学出版物呈指数增长的时代,研究人员面临着处理大量文献的挑战。LLAssist通过利用大语言模型(LLMs)和自然语言处理(NLP)技术来自动化综述过程的关键方面,从而解决了这一问题。具体而言,它从研究文章中提取重要信息,并评估其与用户定义的研究问题的相关性。LLAssist的目标是显著减少进行全面文献综述所需的时间和精力,使研究人员能够更多地专注于分析和综合信息,而不是最初的筛选任务。通过自动化文献综述工作流的部分内容,LLAssist旨在帮助研究人员更高效地管理不断增长的学术出版物量。
论文链接: https://arxiv.org/abs/2407.13993
在 RISC-V 核上的混合精度神经网络:用于多泵软 SIMD 操作的 ISA 扩展
原标题: Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations
作者: Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris
机构: 希腊雅典国立技术大学
摘要: 最近在量化和混合精度方法方面取得的进展为改善神经网络(NN)的速度和能效提供了重大机遇。研究表明,具有不同低精度的单个参数可以达到与全精度对应物相媲美的准确性。然而,现代嵌入式微处理器对于混合精度NN提供的支持非常有限,无论是指令集架构(ISA)扩展还是它们的硬件设计,都会导致性能瓶颈,因为需要大量指令进行数据打包和解包,算术单元利用不足等。在这项工作中,我们首次将针对节能型RISC-V CPU架构的混合精度硬件优化定制的ISA扩展与混合精度量化、ISA扩展和推断相结合。为此,我们引入了一种硬件-软件协同设计框架,实现了协同硬件设计、混合精度量化、ISA扩展和基于周期精确仿真的推断。在硬件层面上,我们首先扩展了我们的概念验证微架构中的ALU单元,以支持可配置的细粒度混合精度算术运算。随后,我们实现了多泵送以最小化执行延迟,并应用了额外的软SIMD优化来进行2位操作。在ISA层面上,我们编码了三个不同的MAC指令,扩展了RISC-V ISA,并将其暴露到编译器级别,每个指令对应不同的混合精度操作模式。我们对广泛使用的DNN和数据集(如CIFAR10和ImageNet)进行了广泛的实验评估,结果表明我们的框架平均可以实现15倍的能量减少,准确度损失不到1%,并且优于不考虑ISA的最先进的RISC-V核心。
论文链接: https://arxiv.org/abs/2407.14274
知识蒸馏方法用于准确高效的推荐系统
原标题: Knowledge Distillation Approaches for Accurate and Efficient Recommender System
作者: SeongKu Kangx
摘要: 尽管在分类问题上取得了突破,但知识蒸馏(KD)在推荐模型和排名问题上的研究在先前的文献中并不充分。本论文致力于开发适用于推荐系统的知识蒸馏方法,以充分提高紧凑模型的性能。我们提出了专为推荐系统设计的新型蒸馏方法。根据它们的知识来源,所提出的方法被分类如下:(1)潜在知识:我们提出了两种方法,用于转移用户/物品表示的潜在知识。它们通过平衡的蒸馏策略有效地转移了小众口味的知识,防止了知识蒸馏过程偏向于少数大型偏好群体。此外,我们提出了一种新方法,用于在表示空间中转移用户/物品关系。所提出的方法有选择地转移了基本关系,考虑到了紧凑模型的有限容量。(2)排名知识:我们提出了三种方法,用于从推荐结果中转移排名知识。它们将知识蒸馏过程形式化为一个排名匹配问题,并通过列表学习策略转移知识。此外,我们提出了一个新的学习框架,用于压缩异构推荐模型的排名知识。所提出的框架旨在减轻模型集成的计算负担,后者是许多推荐应用的主要解决方案。我们通过大量实验证实了我们提出的方法和框架的益处。总之,本论文为推荐模型的准确性和效率之间的权衡提供了知识蒸馏方法的启示。
论文链接: https://arxiv.org/abs/2407.13952
超启发式算法可以从全局变异算子中获益。
原标题: Hyper-Heuristics Can Profit From Global Variation Operators
作者: Benjamin Doerr, Johannes F. Lutzeyer
机构: 约翰内斯·F·卢策尔
摘要: 在最近的研究中,Lissovoi、Oliveto和Warwicker(《人工智能》(2023年))证明了移动接受超启发式(MAHH)以显著的效率离开了多模态CLIFF基准的局部最优解。对于几乎所有悬崖宽度
d
≥
2
d\ge 2
d≥2,MAHH的
O
(
n
3
)
O(n^3)
O(n3)运行时间明显优于CLIFF上简单精英进化算法(EAs)的
Θ
(
n
d
)
\Theta(n^d)
Θ(nd)运行时间。
在这项研究中,我们首先展示了这一优势特定于CLIFF问题,并不适用于JUMP基准,JUMP基准是随机搜索启发式理论中最重要的多模态基准。我们证明,对于MAHH选择参数
p
p
p的任何选择,MAHH在具有间隙大小
m
=
O
(
n
1
/
2
)
m = O(n^{1/2})
m=O(n1/2)的JUMP函数上的期望运行时间至少为
Ω
(
n
2
m
−
1
/
(
2
m
−
1
)
!
)
\Omega(n^{2m-1} / (2m-1)!)
Ω(n2m−1/(2m−1)!)。这比简单精英EAs的
O
(
n
m
)
O(n^m)
O(nm)运行时间慢得多。令人鼓舞的是,我们还展示了将MAHH中的局部一位变异算子替换为全局位逐位变异算子(通常用于EAs)在JUMP函数上的运行时间为
min
{
1
,
O
(
e
ln
(
n
)
m
)
m
}
O
(
n
m
)
\min\{1, O(\frac{e\ln(n)}{m})^m\} \, O(n^m)
min{1,O(meln(n))m}O(nm)。这至少与简单精英EAs的运行时间一样好。对于较大的
m
m
m值,这个结果证明了相对于简单EAs的渐近性能增益。正如我们的证明所揭示的,MAHH受益于其能够以适中的步长穿越较低目标值的山谷,始终接受较差的解。这是第一次通过数学手段证明了这种优化行为。总的来说,我们的结果表明,结合两种处理局部最优解的方式,即全局变异和接受较差解,可以带来相当大的性能提升。
论文链接: https://arxiv.org/abs/2407.14237
Words2Contact:使用基础模型从口头指令中识别支持联系人
原标题: Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models
作者: Dionis Totsila, Quentin Rouxel, Jean-Baptiste Mouret, Serena Ivaldi
摘要: 这篇论文介绍了Words2Contact,这是一个利用大语言模型和视觉语言模型的语言引导多接触点放置管道。我们的方法是语言辅助远程操作和人机合作的关键组成部分,人类操作员可以用自然语言指导机器人在进行全身伸展或操作之前放置支撑接触点。Words2Contact将人类操作员的口头指令转换为接触点放置预测;它还处理迭代校正,直到人类满意于机器人视野中确定的接触位置。我们对最先进的大语言模型和视觉语言模型在接触点预测的大小和性能进行了基准测试。我们展示了迭代校正过程的有效性,表明用户,即使是天真的用户,也能快速学会如何指导系统以获得准确的位置。最后,我们在现实世界的实验中验证了Words2Contact,通过人类操作员指导Talos人形机器人在不同位置和表面放置支撑接触点,以避免在伸手取远处物体时摔倒。
论文链接: https://arxiv.org/abs/2407.14229
SHS: 蝎子狩猎策略群体算法
原标题: SHS: Scorpion Hunting Strategy Swarm Algorithm
作者: Abhilash Singh, Seyed Muhammad Hossein Mousavi, Kumar Gaurav
机构: 印度科学教育与研究学院博帕尔分校 SUPSI瑞士卢加诺
摘要: 我们介绍了蝎子狩猎策略(SHS),这是一种新颖的基于种群的、受自然启发的优化算法。该算法借鉴了蝎子的狩猎策略,通过alpha和beta振动算子来识别、定位和捕捉猎物。这些算子控制了SHS算法的开发和探索能力。为了制定一个优化方法,我们通过数学模拟这些动态事件和行为。我们通过使用20个基准函数(包括10个传统函数和10个CEC2020函数)进行定性和定量分析,评估了SHS算法的有效性。通过与12种最先进的元启发算法进行比较分析,我们证明了所提出的SHS算法产生了异常有前途的结果。这些发现得到了通过Wilcoxon秩和检验获得的具有统计学意义的结果的进一步支持。此外,通过Friedman检验得出的平均排名确定的SHS排名将其与其他算法相比置于前沿位置。除了理论验证之外,我们展示了SHS算法在六个不同的实际优化任务中的实用性。这些应用展示了该算法在解决复杂优化挑战中的潜力。总之,这项工作不仅介绍了创新的SHS算法,还通过严格的基准测试和实际问题解决方案证实了其有效性和多功能性。
论文链接: https://arxiv.org/abs/2407.14202