2024年7月19日Arxiv人工智能相关论文

推荐系统综述:从理论到实践的过渡

原标题: A Comprehensive Review of Recommender Systems: Transitioning from Theory to Practice

作者: Shaina Raza, Mizanur Rahman, Safiullah Kamawal, Armin Toroghi, Ananya Raval, Farshad Navah, Amirmohammad Kazemeini

机构: Vector Institute 皇家加拿大银行 蒙特利尔银行

摘要: 推荐系统(RS)通过提供个性化的物品建议,对增强用户体验起着至关重要的作用。本调查全面审视了从2017年到2024年的RS进展,有效地将理论进展与实际应用联系起来。我们探讨了从传统的RS技术(如基于内容和协同过滤)到涉及深度学习、基于图的模型、强化学习和大语言模型等先进方法的发展。我们还讨论了诸如上下文感知、基于评论、以及关注公平性的专门系统。本调查的主要目标是搭建理论与实践之间的桥梁。它解决了各个领域的挑战,包括电子商务、医疗保健和金融,强调了可扩展、实时和值得信赖解决方案的需求。通过本调查,我们促进学术研究与行业实践之间更紧密的合作关系。本调查提供的见解旨在指导行业专业人士优化RS部署,并激发未来研究方向,特别是在应对新兴技术和社会趋势方面。

论文链接: https://arxiv.org/abs/2407.13699

利用低置信度伪标签蒸馏增强无源域自适应目标检测

原标题: Enhancing Source-Free Domain Adaptive Object Detection with Low-confidence Pseudo Label Distillation

作者: Ilhoon Yoon, Hyeongjun Kwon, Jin Kim, Junyoung Park, Hyunsung Jang, Kwanghoon Sohn

机构: 延世大学 LIG Nex1 KIST

摘要: Source-Free domain adaptive Object Detection (SFOD) 是一种有前途的策略,可以在不访问源数据的情况下将训练过的检测器部署到新的、未标记的领域,解决了围绕数据隐私和效率的重大关注点。大多数 SFOD 方法利用 Mean-Teacher (MT) 自训练范式,严重依赖于高置信度伪标签 (HPL)。然而,这些 HPL 往往忽视了在领域转移中经历显著外观变化的小实例。此外,由于训练样本稀缺,HPL 忽略了低置信度的实例,导致偏向于从源领域熟悉实例的适应性偏见。为了解决这一局限性,我们在基于 Mean-Teacher 的 SFOD 框架中引入了低置信度伪标签蒸馏 (LPLD) 损失。这种新颖方法旨在利用区域建议网络 (RPN) 中的提案,该网络可能包含在陌生领域中难以检测的对象。最初,我们使用标准伪标记技术提取 HPL,并从 RPN 生成的提案中挖掘一组低置信度伪标签 (LPL),留下那些与 HPL 重叠不显著的提案。通过利用类关系信息并减少 LPLD 损失计算中固有噪声的影响,进一步完善这些 LPL。此外,我们使用特征距离来自适应加权 LPLD 损失,以便集中在包含更大前景区域的 LPL 上。我们的方法在四个跨领域目标检测基准上优于先前的 SFOD 方法。大量实验证明,我们的 LPLD 损失通过减少误报和促进源模型中的领域不变知识的使用,实现了有效的适应。代码可在此 https URL 获取。

论文链接: https://arxiv.org/abs/2407.13524

Github: https://github.com/junia3/LPLD

用于橄榄油生产监测的协作实时视觉设备

原标题: Collaborative real-time vision-based device for olive oil production monitoring

作者: Matija Šuković, Igor Jovančević

机构: 黑山大学 自然科学与数学学院

摘要: 这篇论文提出了一种创新方法,用于改善橄榄油制造的质量控制,并防止由异物引起的机械损坏。我们开发了一个基于计算机视觉的系统,监控橄榄研磨机的进料,并在检测到异物时及时通过引导激光、音频和视觉提示向操作员发出警报。

论文链接: https://arxiv.org/abs/2407.13285

机器人也能多任务处理:整合记忆架构和大语言模型以增强跨任务机器人动作生成

原标题: Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation

作者: Hassan Ali, Philipp Allgeuer, Carlo Mazzola, Giulia Belgiovine, Burak Can Kaplan, Stefan Wermter

机构: University of Hamburg

摘要: 最近,大语言模型(LLMs)已经被广泛应用于机器人应用中,用于将LLM常识推理与机器人的感知和物理能力相结合。在人形机器人中,记忆也在促进真实世界体现和促进长期互动能力方面发挥着关键作用,特别是在多任务设置中,机器人必须记住先前的任务状态、环境状态和执行的动作。在本文中,我们探讨了如何将记忆过程与LLMs相结合,以生成跨任务的机器人动作,同时使机器人在任务之间有效切换。我们提出的双层架构采用了两个LLMs,利用它们在推理和遵循指令方面的互补技能,结合了受人类认知启发的记忆模型。我们的结果显示,在五个机器人任务的基准上,性能有了显著改善,展示了将记忆与LLMs相结合以将机器人的动作和感知结合起来以适应任务执行的潜力。

论文链接: https://arxiv.org/abs/2407.13505

水声信号去噪算法:现有技术综述

原标题: Underwater Acoustic Signal Denoising Algorithms: A Survey of the State-of-the-art

作者: Ruobin Gao, Maohan Liang, Heng Dong, Xuewen Luo, P. N. Suganthan

摘要: 这篇论文全面审查了水下声学信号去噪的最新进展,这是改善水下通信和监测系统可靠性和清晰度的关键领域。尽管该领域取得了显著进展,但水下环境的复杂性带来了独特挑战,使去噪过程变得复杂。我们首先概述了与水下声学信号处理相关的基本挑战,包括信号衰减、噪声变异性以及环境因素的影响。然后系统地对各种去噪算法进行分类和讨论,包括传统方法、基于分解的方法和基于学习的技术,突出它们的应用、优势和局限性。评估指标和实验数据集也得到了审查。论文最后列出了一些未解决的问题,并对未来研究方向提出建议,强调了需要开发更加适应动态水下声学环境的更加稳健的去噪技术的必要性。

论文链接: https://arxiv.org/abs/2407.13264

时间序列数据的排序能力

原标题: Sortability of Time Series Data

作者: Christopher Lohse, Jonas Wahl

机构: IBM研究欧洲 都柏林研究实验室 三一学院 德国柏林工业大学 德国航空航天中心数据科学研究所

摘要: 评估旨在找到时间相关过程之间因果关系的因果发现算法的性能仍然是一个具有挑战性的课题。在本文中,我们展示了数据集的某些特征,比如varsortability(Reisach等人,2021年)和 R 2 R^2 R2-sortability(Reisach等人,2023年),也出现在自相关稳态时间序列的数据集中。我们通过四种类型的数据进行了实证研究:基于SVAR模型和Erdős-Rényi图的模拟数据,2019年因果-气候挑战中使用的数据(Runge等人,2019年),真实世界的河流数据集,以及由Causal Chamber(Gamella等人,2024年)生成的真实世界数据。为此,我们将var-和 R 2 R^2 R2-sortability调整为时间序列数据。我们还调查了基于分数的因果发现方法的性能在多大程度上与高可排序性相一致。可以说,我们最令人惊讶的发现是,调查的真实世界数据集表现出高的varsortability和低的 R 2 R^2 R2-sortability,表明尺度可能携带着大量的因果信息。

论文链接: https://arxiv.org/abs/2407.13313

利用主动分割和识别卫星图像进行阴影路线规划

原标题: Shaded Route Planning Using Active Segmentation and Identification of Satellite Images

作者: Longchao Da, Rohan Chhibba, Rushabh Jaiswal, Ariane Middel, Hua Wei

机构: 亚利桑那州立大学

摘要: 热浪对健康构成重大风险,尤其是由于长时间暴露在高夏季温度下。易受影响的群体,特别是暴露在阳光下的人行道上的行人和骑车者,促使开发一种通过考虑遮阴比考虑体感温度效应的路径规划方法。本文首次介绍了一种利用分割基础模型从高分辨率卫星图像中提取阴影区域的流程。然后将这些区域整合到多层道路地图中,使用户能够根据距离和遮阳曝露之间的平衡定制路线,从而增强户外活动中的舒适度和健康。具体而言,我们构建了基于图的道路地图表示,其中链接表示连接性,并根据遮阳比数据进行更新,用于动态路线规划。该系统已经在线实现,并配有视频演示,并将被专门调整以在2024年巴黎奥运会期间协助旅行者。

论文链接: https://arxiv.org/abs/2407.13689

将基础模型训练为数据压缩:关于信息、模型权重和版权法

原标题: Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

作者: Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi

摘要: 基础模型的训练过程与其他类别的深度学习系统一样,基于最小化训练集上的重构误差。因此,它们容易记忆并随后复制训练样本。在本文中,我们引入了一个训练即压缩的视角,其中模型的权重体现了训练数据的压缩表示。从版权的角度来看,这种观点意味着权重可以被视为对一组潜在受保护作品的复制或衍生作品。我们调查了由基础模型生成的输出的版权框架所带来的技术和法律挑战,包括对从业者和研究人员的影响。我们证明,采用以信息为中心的方法来解决这些新兴复杂的法律问题提供了一个有希望的途径。

论文链接: https://arxiv.org/abs/2407.13493

基于众包的多任务监督学习的专家混合模型

原标题: Mixture of Experts based Multi-task Supervise Learning from Crowds

作者: Tao Han, Huaixuan Shi, Xinyi Ding, Xiao Ma, Huamao Gu, Yili Fang

机构: 浙江工商大学

摘要: 现有的众包中的真实性推断方法旨在将冗余标签和项目映射到地面真相。它们将地面真相视为隐藏变量,并使用统计或基于深度学习的工作者行为模型来推断地面真相。然而,依赖于地面真相隐藏变量的工作者行为模型忽视了工作者在项目特征级别上的行为,导致对真实性推断的不精确描述,并对真实性推断的质量产生负面影响。本文提出了一种新的众包多任务监督学习范式,消除了在工作者行为模型中对项目地面真相建模的需要。在这种范式中,我们提出了一种在项目特征级别上的工作者行为模型,称为基于专家混合的众包多任务监督学习(MMLC)。在MMLC中提出了两种真实性推断策略。第一种策略称为MMLC-owf,利用工作者谱空间中的聚类方法来识别神谕工作者的投影向量。随后,基于这个向量生成的标签被视为推断的真相。第二种策略称为MMLC-df,利用MMLC模型填充众包数据,可以增强现有真实性推断方法的有效性。实验结果表明,MMLC-owf优于最先进的方法,而MMLC-df提高了现有真实性推断方法的质量。

论文链接: https://arxiv.org/abs/2407.13268

HPix:从卫星图像生成矢量地图

原标题: HPix: Generating Vector Maps from Satellite Images

作者: Aditya Taparia, Keshab Nath

机构: 印度信息技术博塔亚姆理工学院

摘要: 矢量地图在各个领域被广泛应用,因为它们不仅可以存储数据,还可以表示诸如建筑物轮廓、灾害影响分析、数字化、城市规划、位置点、交通链接等离散数据边界。尽管关于如何从卫星图像中识别建筑物轮廓和道路类型的研究已经很多,但从这些图像生成矢量地图仍然是一个探索有限的领域。此外,传统的地图生成技术依赖于劳动密集型的手动特征提取或基于规则的方法,这些方法存在固有的局限性。为了克服这些限制,我们提出了一种名为HPix的新方法,该方法利用修改后的生成对抗网络(GANs)从卫星图像生成矢量瓦片地图。HPix包含两个层次结构:一个在全局级别运行,另一个在局部级别运行,从而形成一个全面的模型。通过实证评估,我们提出的方法展示了其在生成高度准确且视觉吸引人的矢量瓦片地图方面的有效性。我们进一步扩展了研究的应用,包括基于区域对道路交叉口和建筑物轮廓集群进行映射。

论文链接: https://arxiv.org/abs/2407.13680

Github: https://github.com/aditya-taparia/Satellite-Image-to-Vector-Map

大语言模型增强的状态表示在强化学习中的应用

原标题: LLM-Empowered State Representation for Reinforcement Learning

作者: Boyuan Wang, Yun Qu, Yuhang Jiang, Jianzhun Shao, Chang Liu, Wenming Yang, Xiangyang Ji

机构: 清华大学

摘要: 在强化学习中,传统的状态表示通常省略了关键的与任务相关的细节,这给值网络在建立从状态到任务奖励的准确映射方面带来了重大挑战。传统方法通常依赖于大量的样本学习,以丰富状态表示中的任务特定信息,这导致了低样本效率和高时间成本。最近,兴起的知识丰富的大语言模型(LLM)为以往需要人工干预的注入提供了有希望的替代方案。受此启发,我们提出了LLM增强状态表示(LESR),这是一种利用LLM自动生成任务相关状态表示代码的新方法,有助于增强网络映射的连续性并促进高效训练。实验结果表明,LESR在Mujoco任务中累积奖励平均提高了29%,在Gym-Robotics任务中成功率提高了30%,表现出很高的样本效率,并且胜过了现有技术水平。

论文链接: https://arxiv.org/abs/2407.13237

NODER:基于神经常微分方程的图像序列回归

原标题: NODER: Image Sequence Regression Based on Neural Ordinary Differential Equations

作者: Hao Bai, Yi Hong

机构: 上海交通大学

摘要: 在医学图像序列上进行回归可以捕捉时间图像模式变化,并预测缺失或未来时间点的图像。然而,现有的测地线回归方法通过对线性动态的强烈基本假设限制了其回归性能,而基于扩散的方法具有很高的计算成本,并且缺乏保持图像拓扑的约束。在本文中,我们提出了一种基于优化的新框架 NODER,它利用神经常微分方程来捕捉复杂的基础动态,并通过引入潜在空间来减少处理高维图像体积的高计算成本。我们将我们的 NODER 与两种最近的回归方法进行了比较,ADNI 和 ACDC 数据集上的实验结果表明,我们的方法在 3D 图像回归中实现了最先进的性能。我们的模型仅需要序列中的几幅图像进行预测,这在临床情况下尤其实用,因为用于分析的图像时间序列非常有限。我们的源代码可在此 https URL 获取。

论文链接: https://arxiv.org/abs/2407.13241

Github: https://github.com/ZedKing12138/NODER-pytorch

PASTA: 具有自回归 Transformer 的可控部件感知形状生成

原标题: PASTA: Controllable Part-Aware Shape Generation with Autoregressive Transformers

作者: Songlin Li, Despoina Paschalidou, Leonidas Guibas

机构: 斯坦福大学

摘要: 对自动化3D内容创建过程的工具需求增加导致了深度生成模型取得了巨大进展,可以生成高保真度的多样化3D物体。在本文中,我们提出了PASTA,一种用于生成高质量3D形状的自回归Transformer架构。PASTA包括两个主要组件:一个自回归Transformer,将物体生成为一个立方体基元序列,以及一个混合网络,使用Transformer解码器实现,将立方体序列组合并为每个物体合成高质量网格。我们的模型经过两个阶段的训练:首先,我们仅使用带注释的立方体部件作为监督来训练我们的自回归生成模型,然后,我们使用显式的3D监督,以watertight网格的形式,来训练我们的混合网络。对各种ShapeNet物体的评估展示了我们的模型能够从不同的输入(例如从头开始,从部分物体,从文本和图像,以及根据尺寸引导生成,通过明确地在定义物体边界的边界框上进行条件化)中执行形状生成的能力。此外,由于我们的模型考虑了3D物体的基于部件的结构,我们能够选择特定部件并生成具有该部件有意义变化的形状。正如我们的实验所证明的那样,我们的模型生成的3D形状比现有的基于部件和非基于部件的方法更加真实和多样化,同时实现起来更简单,训练也更简单。

论文链接: https://arxiv.org/abs/2407.13677

LiNR: 在 LinkedIn 上基于模型的神经检索在 GPU 上进行

原标题: LiNR: Model Based Neural Retrieval on GPUs at LinkedIn

作者: Fedor Borisyuk, Qingquan Song, Mingzhou Zhou, Ganesh Parameswaran, Madhu Arun, Siva Popuri, Tugrul Bingol, Zhuotao Pei, Kuang-Hsuan Lee, Lu Zheng, Qizhan Shao, Ali Naqvi, Sen Zhou, Aman Gupta

机构: 领英公司

摘要: 这篇论文介绍了 LiNR,LinkedIn 的大规模、基于 GPU 的检索系统。LiNR 支持在 GPU 模型上建立一个十亿级别的索引。我们讨论了在生产规模下使用 TensorFlow 和 PyTorch 创建可扩展、可微分的搜索索引时的经验和挑战。在 LiNR 中,物品和模型权重都被集成到模型二进制文件中。将索引构建视为一种模型训练形式,我们描述了如何扩展我们的系统以支持大型索引,包括全面扫描和高效过滤。一个关键重点是实现基于属性的预过滤,用于详尽的 GPU 搜索,解决了 KNN 搜索中常见的后过滤挑战,后过滤通常会降低系统质量。我们还提供了多嵌入式检索算法和策略,用于解决检索中的冷启动问题。我们讨论了通过量化支持更大索引的先进技术。我们认为 LiNR 是行业中首批基于实时更新模型的检索索引之一。应用于 LinkedIn 动态消息推荐中的跨网络推荐,LiNR 已经为专业日活跃用户贡献了 3% 的相对增长。我们将 LiNR 视为将检索和排名整合到单个 GPU 模型中的一步,简化复杂的基础设施,并通过梯度下降实现整个可微分基础设施的端到端优化。

论文链接: https://arxiv.org/abs/2407.13218

在安全关键场景下的风险感知车辆轨迹预测

原标题: Risk-Aware Vehicle Trajectory Prediction Under Safety-Critical Scenarios

作者: Qingfan Wang, Dongyang Xu, Gaoyuan Kuang, Chen Lv, Shengbo Eben Li, Bingbing Nie

机构:

摘要: 轨迹预测对于智能车辆实现高级别自动驾驶至关重要,最近已取得许多相关研究成果。尽管发展迅速,大多数现有研究仅关注正常安全场景,而在很大程度上忽视了安全关键场景,特别是涉及即将发生碰撞的情况。这种疏忽可能导致自动驾驶车辆在这种情况下缺乏必要的预测能力,对安全构成重大威胁。为了解决这些问题,本文提出了一个针对安全关键场景量身定制的风险感知轨迹预测框架。利用独特的危险特征,我们开发了三个核心的风险感知组件。首先,我们引入了一个融入风险的场景编码器,通过将定量风险信息与传统编码器相结合,实现对危险场景背景的风险感知编码。接下来,在解码器中,我们将终点风险结合的意图查询作为预测先验,以确保预测的多模态轨迹涵盖各种空间意图和风险水平。最后,实施辅助风险预测任务以实现最终的风险感知预测。此外,为支持模型训练和性能评估,我们引入了一个安全关键轨迹预测数据集和量身定制的评估指标。我们进行了全面评估,并将我们的模型与几种最先进模型进行了比较。结果表明,我们的模型表现优异,在大多数指标上有显著改进。这种预测进步使得自动驾驶车辆能够在安全关键场景下执行正确的避碰机动,最终提升道路交通安全性。

论文链接: https://arxiv.org/abs/2407.13480

神经网络轮胎力建模用于自动漂移

原标题: Neural Network Tire Force Modeling for Automated Drifting

作者: Nicholas Drake Broadbent, Trey Weber, Daiki Mori, J. Christian Gerdes

机构: 斯坦福大学

摘要: 自动漂移对车辆控制提出了挑战问题,需要能够精确处理摩擦极限下的非线性耦合轮胎力的模型和控制算法。我们提出了一个神经网络架构,用于预测前轮侧向力,作为基于物理的方法的可替换方案。通过为漂移应用专门构建的全尺寸自动化车辆,我们将这些模型部署在一个非线性模型预测控制器中,该控制器经过调整以跟踪参考漂移轨迹,以直接比较模型性能。神经网络轮胎模型在前轴制动力被施加的情况下,表现出明显改善的路径跟踪性能,这表明神经网络能够表达漂移条件下先前未建模的潜在动力学。

论文链接: https://arxiv.org/abs/2407.13760

在线决策的自适应基础模型:具有快速增量不确定性估计的超级智能体

原标题: Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation

作者: Yingru Li, Jiawei Xu, Zhi-Quan Luo

机构: 香港中文大学深圳分校 深圳大数据研究院

摘要: 基础模型在面对在线决策中的新情况时常常面临不确定性,需要可扩展和高效的探索来解决这种不确定性。我们引入了GPT-HyperAgent,这是GPT与HyperAgent的增强版本,用于在涉及自然语言输入的上下文臂带中进行基于不确定性的可扩展探索。我们证明,在线性可实现假设下,HyperAgent实现了快速的增量不确定性估计,每步计算复杂度为 O ~ ( log ⁡ T ) \tilde{O}(\log T) O~(logT),其中 T T T表示周期。我们的分析表明,HyperAgent的遗憾顺序与线性上下文臂带中精确Thompson采样的顺序相匹配,填补了可扩展探索中的重要理论差距。在涉及人类反馈的实际内容自动调节等真实世界上下文臂带任务中的实证结果验证了GPT-HyperAgent在安全关键决策中的实际有效性。我们的代码已在\url{this https URL}上开源。

论文链接: https://arxiv.org/abs/2407.13195

Github: https://github.com/szrlee/GPT-HyperAgent/

具有时间窗口的多目标车辆路径优化:使用深度强化学习和NSGA-II的混合方法

原标题: Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II

作者: Rixin Wu, Ran Wang, Jie Hao, Qiang Wu, Ping Wang, Dusit Niyato

机构: 清华大学 新加坡国立大学

摘要: 本文提出了一种称为权重感知深度强化学习(WADRL)的方法,旨在解决带时间窗口的多目标车辆路径问题(MOVRPTW),旨在使用单个深度强化学习(DRL)模型来解决整个多目标优化问题。然后采用非支配排序遗传算法-II(NSGA-II)方法来优化WADRL产生的结果,从而减轻两种方法的局限性。首先,我们设计了一个MOVRPTW模型,以平衡旅行成本的最小化和客户满意度的最大化。随后,我们提出了一个将基于Transformer的策略网络纳入其中的新颖DRL框架。该网络由编码器模块、权重嵌入模块(其中包含目标函数的权重)和解码器模块组成。然后利用NSGA-II来优化WADRL生成的解决方案。最后,广泛的实验结果表明,我们的方法优于现有的传统方法。由于VRPTW中存在许多约束,生成NSGA-II算法的初始解可能会耗费时间。然而,使用WADRL生成的解作为NSGA-II的初始解显著减少了生成初始解所需的时间。同时,NSGA-II算法可以提高WADRL生成的解的质量,产生具有更好可扩展性的解决方案。值得注意的是,权重感知策略显著减少了DRL的训练时间,同时取得更好的结果,使单个DRL模型能够解决整个多目标优化问题。

论文链接: https://arxiv.org/abs/2407.13113

减少 AI 中边缘音乐流派使用的障碍

原标题: Reducing Barriers to the Use of Marginalised Music Genres in AI

作者: Nick Bryan-Kinns, Zijin Li

机构: 伦敦艺术大学 中央音乐学院 清华大学

摘要: 高质量音乐生成的 AI 系统通常依赖于极其庞大的音乐数据集来训练 AI 模型。这导致了在生成音乐方面存在障碍,超越了主导数据集中代表的流派,如西方古典音乐或流行音乐。我们进行了为期 4 个月的国际研究项目,总结在本文中,以探索与减少使用被边缘化音乐流派的障碍相关的可解释 AI(XAI)挑战和机遇。确定的 XAI 机会包括改善 AI 模型的透明度和控制,解释 AI 模型的伦理和偏见,用小数据集微调大模型以减少偏见,并解释与 AI 模型的风格转移机会。研究中的参与者强调,虽然使用小数据集(如被边缘化音乐和 AI)很困难,但这些方法加强了少数文化的文化代表性,并有助于解决深度学习模型的偏见问题。我们现在正在基于这个项目,建立一个全球国际责任 AI 音乐社区,并邀请人们加入我们的网络。

论文链接: https://arxiv.org/abs/2407.13439

关于强化学习推荐系统中因果分离状态表示学习的研究

原标题: On Causally Disentangled State Representation Learning for Reinforcement Learning based Recommender Systems

作者: Siyu Wang, Xiaocong Chen, Lina Yao

机构: 新南威尔士大学 澳大利亚 数据61、CSIRO

摘要: 在基于强化学习的推荐系统(RLRS)中,用户交互的复杂性和动态性经常导致高维且嘈杂的状态空间,使得难以确定状态的哪些方面真正影响了决策过程。用户偏好和行为的不断变化加剧了这一问题,要求推荐系统能够自适应地专注于决策所需的最相关信息,同时保持泛化能力。为了解决这个问题,我们引入了一种创新的因果方法,用于在RLRS中分解状态并提取\textbf{C}ausal-\textbf{I}n\textbf{D}ispensable \textbf{S}tate Representations(CIDS)。我们的方法集中于识别\textbf{D}irectly \textbf{A}ction-\textbf{I}nfluenced \textbf{S}tate Variables(DAIS)和\textbf{A}ction-\textbf{I}nfluence \textbf{A}ncestors(AIA),这些对于进行有效推荐至关重要。通过利用条件互信息,我们开发了一个框架,不仅能够识别生成过程中的因果关系,还能够从通常密集且高维的状态表示中分离出关键状态变量。我们提供了这些变量可辨识性的理论证据。然后,通过利用已识别的因果关系,我们构建了因果不可或缺的状态表示,使得能够在智能体状态空间的更有利子集上训练策略。我们通过大量实验证明了我们方法的有效性,展示了我们的方法胜过了最先进的方法。

论文链接: https://arxiv.org/abs/2407.13091

针对序列内部和序列间过渡性转变的稳健多变量时间序列预测

原标题: Robust Multivariate Time Series Forecasting against Intra- and Inter-Series Transitional Shift

作者: Hui He, Qi Zhang, Kun Yi, Xiaojun Xue, Shoujin Wang, Liang Hu, Longbing Cao

机构: IEEE

摘要: 真实世界中多变量时间序列(MTS)数据的非静止特性给预测模型带来了一个巨大挑战,即时间序列的时变分布,也称为分布转移。现有关于分布转移的研究主要遵循自适应归一化技术,以减轻时间均值和协方差的转移或者用于捕捉时间转移的时变建模。尽管这些基于归一化的方法提高了模型的泛化能力,但通常假设输出和输入之间存在时间不变的转换,但忽略了特定的序列内/间相关性,而时变模型则忽略了分布转移的内在原因。这限制了模型在处理MTS预测中的分布转移时的表达能力和可解释性。为了缓解这种困境,我们提出了一个统一的概率图模型,用于联合捕捉序列内/间相关性和建模时变的过渡分布,并实例化了一个名为JointPGM的神经框架,用于非静止MTS预测。具体而言,JointPGM首先采用多个傅立叶基函数来学习动态时间因素,并设计了两种不同的学习器:序列内学习器和序列间学习器。序列内学习器通过利用时间门有效地捕捉时间动态,而序列间学习器则通过多跳传播明确地建模空间动态,结合了Gumbel-softmax采样。这两种序列动态随后融合成一个潜变量,该潜变量被逆向应用于推断时间因素、生成最终预测和执行重构。我们通过对六个高度非静止的MTS数据集进行广泛实验,验证了JointPGM的有效性和效率,实现了MTS预测的最新预测性能。

论文链接: https://arxiv.org/abs/2407.13194

通过多项式表示改进自动驾驶轨迹预测的超出分布泛化

原标题: Improving Out-of-Distribution Generalization of Trajectory Prediction for Autonomous Driving via Polynomial Representations

作者: Yue Yao, Shengchao Yan, Daniel Goehring, Wolfram Burgard, Joerg Reichardt

机构: 清华大学 德国马普智能系统研究所

摘要: 对抗分布外(OoD)样本的鲁棒性是轨迹预测模型的关键性能指标。然而,最先进模型的开发和排名是由它们在各个竞赛数据集上的分布内(ID)性能驱动的。我们提出了一种OoD测试协议,通过在两个大规模运动数据集上对数据集和预测任务进行同质化处理。我们引入了一种基于多项式表示的新型预测算法,用于模型的输入和输出端的智能体轨迹和道路几何。在模型尺寸、训练工作量和推理时间大大减少的情况下,我们在ID测试中达到了接近SotA性能,并显著提高了OoD测试中的鲁棒性。在我们的OoD测试协议中,我们进一步研究了两种SotA模型的增强策略及其对模型泛化的影响。突出了ID和OoD性能之间的对比,我们建议将OoD测试纳入轨迹预测模型评估标准中。

论文链接: https://arxiv.org/abs/2407.13431

增强时间动作定位:使用循环机制进行高级 S6 建模

原标题: Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism

作者: Sangyoun Lee, Juho Jung, Changdae Oh, Sunghee Yun

机构: 西江大学 松坡大学 威斯康星大学麦迪逊分校 Erudio Bio

摘要: 时间动作定位(TAL)是视频分析中的关键任务,用于确定动作的精确开始和结束时间。现有的方法如CNNs、RNNs、GCNs和Transformers在捕捉长距离依赖性和时间因果关系方面存在局限性。为了解决这些挑战,我们提出了一种新颖的TAL架构,利用选择性状态空间模型(S6)。我们的方法集成了特征聚合双S6块、双重双S6结构和循环机制,以增强时间和通道依赖建模,同时不增加参数复杂性。在基准数据集上进行了大量实验,结果表明在THUMOS-14上的mAP得分为74.2%,在ActivityNet上为42.9%,在FineAction上为29.6%,在HACS上为45.8%,达到了最先进的水平。消融研究验证了我们方法的有效性,表明在Stem模块中的双重结构和循环机制优于传统方法。我们的研究结果展示了基于S6的模型在TAL任务中的潜力,为未来研究铺平了道路。

论文链接: https://arxiv.org/abs/2407.13078

股票相似性的时间表示学习及其在投资管理中的应用

原标题: Temporal Representation Learning for Stock Similarities and Its Applications in Investment Management

作者: Yoontae Hwang, Stefan Zohren, Yongjae Lee

机构: 乌山国立科学技术大学 牛津大学

摘要: 在快速全球化和数字化的时代,由于金融市场的非平稳性和传统区域和行业分类的模糊性,准确识别相似股票变得越来越具挑战性。为了解决这些挑战,我们研究了SimStock,这是一种新颖的时间自监督学习框架,结合了自监督学习(SSL)和时间域泛化技术,以学习金融时间序列数据的稳健和信息丰富的表示。我们研究的主要重点是从更广泛的视角理解股票之间的相似性,考虑到全球金融格局的复杂动态。我们在四个真实数据集上进行了大量实验,涉及数千只股票,并展示了SimStock在发现相似股票方面的有效性,优于现有方法。SimStock的实际效用通过其在各种投资策略(如配对交易、指数跟踪和投资组合优化)中的应用得到展示,相比传统方法,它表现出更优异的性能。我们的研究结果从经验上考察了数据驱动方法在利用时间自监督学习的力量增强投资决策和风险管理实践的潜力,以适应不断变化的全球金融格局。

论文链接: https://arxiv.org/abs/2407.13751

SpaDiT:使用 scRNA-seq 进行空间基因表达预测的扩散 Transformer

原标题: SpaDiT: Diffusion Transformer for Spatial Gene Expression Prediction using scRNA-seq

作者: Xiaoyu Li, Fangfang Zhu, Wenwen Min

机构: 云南大学 学校护理健康科学学院 开放大学

摘要: 空间转录组学(ST)技术的快速发展正在彻底改变我们对生物组织空间结构的理解。当前的ST方法分为基于下一代测序(seq-based)和基于原位杂交荧光(image-based)的方法,为我们提供了对生物组织功能动态的创新见解。然而,这些方法受细胞分辨率和能够检测的基因数量的限制。为了解决这些限制,我们提出了SpaDiT,这是一种利用扩散生成模型来整合scRNA-seq和ST数据以预测未检测到基因的深度学习方法。通过使用基于Transformer的扩散模型,SpaDiT不仅可以准确预测未知基因,还可以有效地生成ST基因的空间结构。我们通过对基于seq和基于image的ST数据进行大量实验证明了SpaDiT的有效性。SpaDiT通过其创新方法显著促进了ST基因预测方法。与八种主流基准方法相比,SpaDiT在多个指标上取得了最先进的性能,突显了其在生物信息学领域的重要贡献。

论文链接: https://arxiv.org/abs/2407.13182

通过最大化条件互信息实现医学时间序列上的动态特征获取

原标题: Towards Dynamic Feature Acquisition on Medical Time Series by Maximizing Conditional Mutual Information

作者: Fedor Sergeev, Paola Malsot, Gunnar Rätsch, Vincent Fortuin

机构: 瑞士苏黎世联邦理工学院 德国慕尼黑赫尔姆霍兹人工智能 德国慕尼黑工业大学 德国慕尼黑机器学习中心

摘要: 在医学、可穿戴设备和机器人领域,知道应该何时测量多变量时间序列的特征是一项关键任务。更好的获取策略可以降低成本,同时保持甚至提高下游预测器的性能。受条件互信息最大化的启发,我们提出了一种方法,通过仅使用下游损失来训练获取者端到端。我们展示了我们的方法优于随机获取策略,与一个预算不受限制的模型相匹配,但尚未超越静态获取策略。我们强调了假设,并概述了未来工作的途径。

论文链接: https://arxiv.org/abs/2407.13429

使用稀疏线性函数逼近的 Q Q Q-学习误差规定不当:逼近误差的严格界限

原标题: Misspecified Q Q Q-Learning with Sparse Linear Function Approximation: Tight Bounds on Approximation Error

作者: Ally Yalei Du, Lin F. Yang, Ruosong Wang

机构: 卡内基梅隆大学 加州大学洛杉矶分校 北京大学

摘要: Dong & Yang(2023)最近的研究表明,对于错误规定的稀疏线性赌臂问题,当稀疏度是一个常数时,可以使用多项式数量的样本获得 O ( ϵ ) O\left(\epsilon\right) O(ϵ)-最优策略,其中 ϵ \epsilon ϵ是错误规定误差。这一结果与没有稀疏性的错误规定线性赌臂形成鲜明对比,后者需要指数数量的样本才能获得相同的保证。为了研究在强化学习环境中是否可能获得类似的结果,我们考虑以下问题:假设最优 Q Q Q-函数是一个具有稀疏度 k k k和误差规定 ϵ \epsilon ϵ d d d维线性函数,我们是否可以使用与特征维度 d d d多项式相关的样本数量获得 O ( ϵ ) O\left(\epsilon\right) O(ϵ)-最优策略。我们首先阐明了为什么基于贝尔曼备份或现有的乐观值函数消除方法(如OLIVE(Jiang等,2017))的标准方法对于这个问题实现了次优保证。然后,我们设计了一种新颖的基于消除的算法,以展示可以使用与特征维度 d d d和规划时域 H H H多项式相关的样本复杂度获得 O ( H ϵ ) O\left(H\epsilon\right) O()-最优策略。最后,我们将我们的上界与 Ω ~ ( H ϵ ) \widetilde{\Omega}\left(H\epsilon\right) Ω ()次优下界相结合,给出了这个问题的完整图景。

论文链接: https://arxiv.org/abs/2407.13622

Unified-EGformer:用于混合曝光图像增强的曝光引导轻量级Transformer

原标题: Unified-EGformer: Exposure Guided Lightweight Transformer for Mixed-Exposure Image Enhancement

作者: Eashan Adhikarla, Kai Zhang, Rosaura G. VidalMata, Manjushree Aithal, Nikhil Ambha Madhusudhana, John Nicholson, Lichao Sun, Brian D. Davison

机构: 理工大学 联想研究

摘要: 尽管人工智能在图像处理方面取得了近期的进展,但在许多实际场景中如监控和摄影中至关重要的混合曝光问题仍未得到充分解决。传统的图像增强技术和当前的Transformer模型在主要关注过曝或欠曝方面存在局限性。为了弥合这一差距,我们引入了统一曝光引导Transformer(Unified-EGformer)。我们提出的解决方案基于先进的Transformer架构,配备了用于颜色校正和整体调整的局部像素级细化和全局细化块。我们采用引导式注意机制精确识别曝光受损区域,确保其适应各种实际条件。U-EGformer采用轻量级设计,内存占用仅为约1134 MB(0.1百万参数),推理时间为95毫秒(比平均值快9.61倍),是监控和自主导航等实时应用的可行选择。此外,我们的模型具有高度泛化能力,只需进行最少的微调即可处理多个任务和数据集,使用单一架构。

论文链接: https://arxiv.org/abs/2407.13170

神经切向核回归中的差分隐私机制

原标题: Differential Privacy Mechanisms in Neural Tangent Kernel Regression

作者: Jiuxiang Gu, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

摘要: 在现代人工智能(AI)应用中,如人脸识别、推荐系统、语言生成等,训练数据隐私是一个基本问题,因为它可能包含与法律问题相关的敏感用户信息。为了从根本上理解隐私机制在AI应用中的工作原理,我们研究了神经切向核(NTK)回归设置中的差分隐私(DP),其中DP是衡量统计学习下隐私的最强大工具之一,而NTK是研究深度神经网络学习机制的最流行分析框架之一。在我们的工作中,我们可以为NTK回归的差分隐私和测试准确性提供可证明的保证。此外,我们在基本图像分类数据集CIFAR10上进行实验,以证明NTK回归可以在适度的隐私预算下保持良好的准确性,支持我们分析的有效性。据我们所知,这是第一项为NTK回归提供DP保证的工作。

论文链接: https://arxiv.org/abs/2407.13621

DeepClair:利用市场预测进行有效的投资组合选择

原标题: DeepClair: Utilizing Market Forecasts for Effective Portfolio Selection

作者: Donghee Choi, Jinkyu Kim, Mogan Gim, Jinho Lee, Jaewoo Kang

机构: 帝国理工学院 韩国大学 韩国外国语大学 信汉银行

摘要: 利用市场预测对优化投资组合选择策略至关重要。我们引入了DeepClair,这是一个用于投资组合选择的新颖框架。DeepClair利用基于Transformer的时间序列预测模型来预测市场趋势,从而促进更明智和灵活的投资组合决策。为了将预测模型整合到基于深度强化学习驱动的投资组合选择框架中,我们引入了一个两步策略:首先,在市场数据上对时间序列模型进行预训练,然后利用该模型对投资组合选择架构进行微调。此外,我们还研究了优化技术Low-Rank Adaptation(LoRA),以增强预训练的预测模型在投资场景中的微调效果。这项工作架起了市场预测和投资组合选择之间的桥梁,促进了投资策略的进步。

论文链接: https://arxiv.org/abs/2407.13427

CellularLint:一种系统化方法,用于识别蜂窝网络规范中的不一致行为

原标题: CellularLint: A Systematic Approach to Identify Inconsistent Behavior in Cellular Network Specifications

作者: Mirza Masfiqur Rahman, Imtiaz Karim, Elisa Bertino

机构: 普渡大学

摘要: 近年来,人们越来越关注对蜂窝网络安全性的审查,通常将安全漏洞归因于底层协议设计描述中的问题。这些协议设计规范通常是数千页长的详尽文件,可能存在不准确、规范不足、隐含假设和内部矛盾。鉴于不断变化的格局,我们引入了CellularLint——一个用于检测4G和5G标准中不一致性的半自动框架,利用一套自然语言处理技术。我们提出的方法在经过领域自适应的大型语言模型上使用了一种更新的少样本学习机制。在大量蜂窝网络协议语料库上进行预训练,这种方法使CellularLint能够同时检测各种语义层面和实际用例中的不一致性。通过这样做,CellularLint在可扩展的方式上显著推进了协议规范的自动化分析。在我们的调查中,我们专注于4G和5G网络的非接入层(NAS)和安全规范,最终揭示了157个不一致性,准确率为82.67%。在对这些不一致性在开源实现和17个商用设备上进行验证后,我们确认它们确实对设计决策产生了重大影响,可能引发与隐私、完整性、可用性和互操作性相关的担忧。

论文链接: https://arxiv.org/abs/2407.13742

无需训练的复合场景生成用于布局到图像合成

原标题: Training-free Composite Scene Generation for Layout-to-Image Synthesis

作者: Jiaqi Liu, Tao Huang, Chang Xu

机构: 悉尼大学

摘要: 最近,在文本到图像扩散模型方面取得了重大突破,显著推动了从文本描述生成高保真、逼真的图像。然而,这些模型通常在从文本中解释空间布局方面存在困难,从而阻碍了它们生成具有精确空间配置的图像的能力。为了弥合这一差距,布局到图像生成已经成为一个有前途的方向。然而,基于训练的方法受到对大量注释数据集的需求限制,导致高昂的数据获取成本和受限的概念范围。相反,无需训练的方法在准确定位和生成复杂构图中语义相似对象方面面临挑战。本文介绍了一种新颖的无需训练的方法,旨在克服扩散调节阶段中的对抗语义交叉。通过利用选择性采样来完善内部标记损失,并通过注意力重新分配来增强扩散过程,我们提出了两个创新的约束:1)解决标记冲突以确保准确概念合成的标记间约束;2)改进像素间关系的自注意力约束。我们的评估证实了利用布局信息引导扩散过程的有效性,生成内容丰富、保真度和复杂性增强的图像。代码可在此 https URL 获取。

论文链接: https://arxiv.org/abs/2407.13609

Github: https://github.com/Papple-F/csg.git

理解基于强化学习的扩散模型微调:教程与综述

原标题: Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review

作者: Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, Sergey Levine

机构: 罗奇基因科技 普林斯顿大学 加州大学伯克利

摘要: 本教程全面调查了微调扩散模型以优化下游奖励函数的方法。虽然扩散模型被广泛认为具有出色的生成建模能力,但在生物学等领域的实际应用中,需要生成最大化某些期望指标的样本(例如,RNA 中的翻译效率,分子中的对接得分,蛋白质的稳定性)。在这些情况下,扩散模型可以被优化,不仅生成逼真的样本,还可以明确地最大化感兴趣的度量。这些方法基于强化学习(RL)的概念。我们解释了各种 RL 算法的应用,包括 PPO、可微优化、奖励加权极大似然估计、价值加权抽样和路径一致性学习,专门为微调扩散模型而设计。我们旨在探讨不同基于 RL 的微调算法在各种情景下的优势和局限性,基于 RL 的微调相对于非 RL 方法的优势,以及基于 RL 的微调的正式目标(目标分布)。此外,我们旨在研究它们与相关主题的联系,如分类器引导、Gflownets、基于流的扩散模型、路径积分控制理论以及从未归一化分布(如 MCMC)中抽样。本教程的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.13734

Github: https://github.com/masa-ue/RLfinetuning_Diffusion_Bioseq

发现:一种基于数据驱动的交互式系统,用于全面观察、可视化和探索人类行为。

原标题: DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour

作者: Dominik Schiller, Tobias Hallmen, Daksitha Withanage Don, Elisabeth André, Tobias Baur

机构: 奥格斯堡大学 拜仁州 德国

摘要: 理解人类行为是社会科学的一个基本目标,然而其分析面临着重大挑战。传统的用于研究行为的方法学,以劳动密集型的数据收集过程和复杂的分析为特征,往往由于其对时间和资源的需求而频繁阻碍了全面的探索。针对这些挑战,计算模型已被证明是有希望的工具,可以帮助研究人员通过自动识别重要的行为指标(如社交信号)来分析大量数据。然而,这些最先进的计算模型的广泛采用受到了其固有复杂性和运行所需的大量计算资源的限制,从而限制了对没有技术专长和适当设备的研究人员的可访问性。为了解决这些障碍,我们介绍了 DISCOVER – 一个模块化和灵活的、同时用户友好的软件框架,专门开发用于简化人类行为分析的计算驱动数据探索。我们的主要目标是使先进的计算方法对研究人员更加民主化,从而使跨学科的研究人员能够进行详细的行为分析,而无需广泛的技术熟练度。在本文中,我们使用四个示例数据探索工作流展示了 DISCOVER 的能力,这些工作流相互衔接:交互式语义内容探索、视觉检查、辅助注释和多模态场景搜索。通过展示这些工作流,我们旨在强调 DISCOVER 作为一个全面框架的多功能性和可访问性,并提出一套可以作为探索性数据分析的一般起点的蓝图。

论文链接: https://arxiv.org/abs/2407.13408

CoDefeater:使用大语言模型在保证案例中查找推翻者

原标题: CoDefeater: Using LLMs To Find Defeaters in Assurance Cases

作者: Usman Gohar, Michael C. Hunter, Robyn R. Lutz, Myra B. Cohen

机构: 爱荷华州立大学

摘要: 构建保证案例是一种广泛使用且有时是必需的过程,旨在证明安全关键系统将在其计划环境中安全运行。为了减轻错误和遗漏边缘情况的风险,引入了挑战保证案例中的主张的论据或证据的“挑战者”概念。挑战者可以及时发现论据中的弱点,促使进一步调查和及时的缓解措施。然而,捕获挑战者依赖于专家判断、经验和创造力,并且必须迭代进行,因为要求和法规在不断发展。本文提出了CoDefeater,这是一种利用大语言模型(LLMs)寻找挑战者的自动化过程。对两个系统的初步结果显示,LLMs能够有效地找到已知和未预见的可行挑战者,以支持安全分析人员增强保证案例的完整性和信心。

论文链接: https://arxiv.org/abs/2407.13717

ROLeR:离线强化学习中推荐系统的有效奖励塑造

原标题: ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems

作者: Yi Zhang, Ruihong Qiu, Jiajun Liu, Sen Wang

机构: 昆士兰大学 澳大利亚 数据61公司

摘要: 离线强化学习(RL)是实际推荐系统的有效工具,因为它能够模拟用户的动态兴趣并具有交互性质。大多数现有的离线RL推荐系统侧重于通过从离线数据中学习世界模型并通过与该模型的交互构建推荐策略的基于模型的RL。尽管这些方法在推荐性能方面取得了进展,但基于模型的离线RL方法的有效性通常受到奖励模型估计的准确性和模型不确定性的限制,主要是由于离线记录数据与用户在在线平台上的实际数据交互之间的极端差异。为了填补这一差距,需要更准确的奖励模型和不确定性估计来支持基于模型的RL方法。本文提出了一种新颖的基于模型的离线强化学习奖励塑造方法,名为ROLeR,用于推荐系统中的奖励和不确定性估计。具体而言,设计了一种非参数奖励塑造方法来完善奖励模型。此外,设计了一种灵活且更具代表性的不确定性惩罚,以满足推荐系统的需求。在四个基准数据集上进行的大量实验表明,与现有基准线相比,ROLeR实现了最先进的性能。源代码可从此https网址下载。

论文链接: https://arxiv.org/abs/2407.13163

Github: https://github.com/ArronDZhang/ROLeR

从带噪伪标签学习伪装目标检测

原标题: Learning Camouflaged Object Detection from Noisy Pseudo Label

作者: Jin Zhang, Ruiheng Zhang, Yanjiao Shi, Zhe Cao, Nian Liu, Fahad Shahbaz Khan

机构: 北京理工大学 上海理工大学 穆罕默德·本·扎耶德人工智能大学 林雪平大学

摘要: 现有的伪装目标检测(COD)方法严重依赖大规模像素注释的训练集,这既费时又费力。虽然弱监督方法提供了更高的注释效率,但由于伪装图像中前景和背景之间的视觉分界不清,它们的性能远远落后。在本文中,我们探讨了在伪装场景中使用框作为提示的潜力,并引入了第一个弱半监督的COD方法,旨在通过极少量的完全标记图像实现经济高效和高精度的伪装目标分割。关键是,从这样有限的集合中学习必然会生成具有严重嘈杂像素的伪标签。为了解决这个问题,我们提出了一个噪声校正损失,促进模型在早期学习阶段学习正确像素,并在记忆阶段纠正由嘈杂像素主导的错误风险梯度,最终实现了从嘈杂标签中准确分割伪装对象。当仅使用20%的完全标记数据时,我们的方法表现优于最先进的方法。

论文链接: https://arxiv.org/abs/2407.13157

FSP-Laplace:贝叶斯深度学习中拉普拉斯近似的函数空间先验

原标题: FSP-Laplace: Function-Space Priors for the Laplace Approximation in Bayesian Deep Learning

作者: Tristan Cinquin, Marvin Pförtner, Vincent Fortuin, Philipp Hennig, Robert Bamler

机构: 图宾根大学 慕尼黑工业大学 Helmholtz AI

摘要: 拉普拉斯近似是一种流行的技术,用于赋予深度网络具有认知不确定性估计,因为它们可以应用而不改变神经网络的预测,并且可以扩展到大型模型和数据集。虽然先验的选择强烈影响结果后验分布,但通常由于计算可处理性和权重空间的可解释性不足,拉普拉斯近似通常限于各向同性高斯先验,而众所周知,随着深度增加,这种先验会导致病态行为。为了解决这个问题,我们直接在函数空间上放置先验。更确切地说,由于勒贝格密度在无限维函数空间上不存在,我们必须将训练重新构建为在高斯过程(GP)先验下找到后验测度的所谓弱模式,该先验限制在神经网络可表示的函数空间中。通过GP先验,我们可以直接在函数空间中表达结构化和可解释的归纳偏差,例如规律性或周期性,同时仍然利用允许深度网络泛化的隐含归纳偏差。在模型线性化之后,训练目标引发一个负对数后验密度,我们对其应用拉普拉斯近似,利用来自无矩阵线性代数的高度可扩展方法。我们的方法在先验知识丰富的情况下提供了改进的结果,例如在许多科学推断任务中。同时,它在神经网络通常擅长的黑盒回归和分类任务中保持竞争力。

论文链接: https://arxiv.org/abs/2407.13711

PG-Rainbow:在策略梯度方法中使用分布式强化学习

原标题: PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods

作者: WooJae Jeon, KanJun Lee, Jeewoo Lee

机构: 首尔国立大学 韩国首尔

摘要: 这篇论文介绍了 PG-Rainbow,这是一种将分布式强化学习框架与策略梯度算法相结合的新算法。现有的策略梯度方法在计算状态-动作值函数时对返回的平均值进行采样效率低,并忽略了强化学习任务中返回的分布性质。为了解决这个问题,我们使用了一种隐式分位数网络,该网络为 Proximal Policy Optimization 算法的评论网络提供了奖励分布的分位数信息。我们展示了实证结果,通过将奖励分布信息整合到策略网络中,策略智能体获得了增强的能力,可以全面评估在给定状态下潜在动作的后果,促进更复杂和明智的决策过程。我们在通过 Arcade Learning Environment(ALE)模拟的 Atari-2600 游戏套件中评估了所提出算法的性能。

论文链接: https://arxiv.org/abs/2407.13146

深度强化学习用于多目标优化:增加风力发电同时减少噪音排放

原标题: Deep Reinforcement Learning for Multi-Objective Optimization: Enhancing Wind Turbine Energy Generation while Mitigating Noise Emissions

作者: Martín de Frutos (1), Oscar A. Marino (1), David Huergo (1), Esteban Ferrer (1 and 2) ((1) ETSIAE-UPM-School of Aeronautics, (2) Center for Computational Simulation, Universidad Politécnica de Madrid)

机构: 马德里理工大学 巴迪亚尔德尔蒙特校区 计算模拟中心

摘要: 我们开发了一个使用深度强化学习的扭矩-桨距控制框架,用于优化风力涡轮机的能量生成,同时最小化运行噪音。我们采用双深度 Q 学习,结合叶片元动量求解器,实现对风力涡轮机参数的精确控制。除了叶片元动量外,我们还使用了布鲁克斯·波普和马科利尼的风力涡轮机声学模型。通过在简单风中进行训练,智能体学习到了允许在复杂湍流风中进行高效控制的最优控制策略。我们的实验表明,强化学习能够在最大化能量同时最小化噪音时找到帕累托前沿的最优解。此外,强化学习智能体对不断变化的湍流风条件的适应性,突显了其在实际应用中的功效。我们使用额定功率为 2.3 MW 的 SWT2.3-93 风力涡轮机验证了该方法。我们将强化学习控制与经典控制进行比较,结果显示在不考虑噪音排放时它们是可比的。当将噪音产生的最大限制(涡轮机下风向 100 米处的 45 分贝)纳入考虑时,年发电量减少了 22%。该方法灵活,并且通过奖励定义可以轻松调整目标和约束,从而实现了风力涡轮机控制的灵活多目标优化框架。总的来说,我们的研究结果突显了基于强化学习的控制策略改善风力涡轮机效率并减少噪音污染的潜力,推动了可持续能源发电技术的发展。

论文链接: https://arxiv.org/abs/2407.13320

MO-EMT-NAS:来自不同数据集的任务之间的架构知识的多目标连续转移

原标题: MO-EMT-NAS: Multi-Objective Continuous Transfer of Architectural Knowledge Between Tasks from Different Datasets

作者: Peng Liao, XiLu Wang, Yaochu Jin, WenLi Du

机构: 华东理工大学 西湖大学 萨里大学

摘要: 在不同设备上部署模型需要在多个目标之间进行权衡,因为存在不同的资源约束。可以说,基于超网络的多目标神经架构搜索(MO-NAS)中存在的小模型陷阱问题可能导致现有方法无法保持大模型。此外,多任务神经架构搜索(MT-NAS)在同时处理多个任务方面表现出色,但大多数现有方法专注于来自相同数据集的任务,这限制了它们在现实场景中的实用性,因为多个任务可能来自不同的数据集。为了解决上述挑战,我们提出了一种用于NAS的多目标进化多任务框架(MO-EMT-NAS),以实现跨不同数据集的任务之间的架构知识转移,同时找到适用于多个目标、模型准确性和计算效率的帕紗多最优架构。为了缓解小模型陷阱问题,我们引入了一个辅助目标,帮助维持准确度相似的多个较大模型。此外,通过并行化基于权重共享的超网络的训练和验证,进一步提高了计算效率。在包含两个、三个和四个任务组合的七个数据集上的实验结果显示,MO-EMT-NAS在能够在模型性能和复杂性之间提供灵活的权衡的同时,实现了更低的最小分类错误,相比于最先进的单目标MT-NAS算法。与相应的多目标单任务方法相比,MO-EMT-NAS的运行时间减少了59.7%至77.7%。

论文链接: https://arxiv.org/abs/2407.13122

基础视觉导航算法:间接顺序、偏向扩散和直接路径。

原标题: Fundamental Visual Navigation Algorithms: Indirect Sequential, Biased Diffusive, & Direct Pathing

作者: Patrick Govoni, Pawel Romanczuk

机构: 洪堡大学 生物学系 理论生物学研究所 德国
智能科学 研究卓越集群 德国
计算神经科学伯恩斯坦中心 德国

摘要: 在可预测的局部环境中进行有效觅食需要将移动与可观察的空间背景协调一致 - 一言以蔽之,导航。与搜索不同,导航到已知有价值的特定区域涉及其自身的特殊性。如何通过视觉理解空间并解析用于导航的方式通常在实验中进行研究,但对于操纵感官输入和深入探究决策制定的算法级别的能力有限。
作为对经验手段的可推广的最小替代方案,我们演化并研究具有身体的神经网络,以探索一个生物体可能用于视觉空间导航的信息处理算法。令人惊讶的是,出现了三种不同类别的算法,每种算法都有其自己的一套规则和权衡,并且每种算法似乎与可观察的生物导航行为高度相关。

论文链接: https://arxiv.org/abs/2407.13535

跨任务攻击:基于注意力转移的自监督生成框架

原标题: Cross-Task Attack: A Self-Supervision Generative Framework Based on Attention Shift

作者: Qingyuan Zeng, Yunpeng Gong, Min Jiang

机构: 厦门大学 信息学院 人工智能研究所

摘要: 研究人工智能(AI)系统中的对抗性攻击有助于发现模型的缺陷,从而构建更加健壮的系统。大多数现有的对抗性攻击方法仅集中在单任务单模型或单任务跨模型场景上,忽视了人工智能系统的多任务特性。因此,大多数现有的攻击并不能对全面协作的AI系统构成实际威胁。然而,实施跨任务攻击非常具有挑战性,因为难以获得同一图片不同任务的真实标签,并且难以协调不同任务之间的损失函数。为了解决这个问题,我们提出了一种自监督的跨任务攻击框架(CTA),该框架利用共同注意力和反向注意力图来生成跨任务对抗扰动。具体而言,共同注意力图反映了不同视觉任务模型关注的区域,而反向注意力图反映了不同视觉任务模型忽略的区域。CTA通过将样本的注意力区域从共同注意力图转移到反向注意力图,生成跨任务扰动。我们在多个视觉任务上进行了大量实验,实验结果证实了所提出的对抗性攻击设计的有效性。

论文链接: https://arxiv.org/abs/2407.13700

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值