2024年7月23日Arxi人工智能相关论文

关于部分可观测性下的浅层规划

原标题: On shallow planning under partial observability

作者: Randy Lefebvre, Audrey Durand

机构: 加拿大 CIFAR AI 计划Université Laval

摘要: 在强化学习框架下制定一个现实世界的问题涉及到一些非平凡的设计选择,比如选择一个折现因子用于学习目标(折现累积奖励),这个因子表达了智能体的规划视野。本研究调查了折现因子对偏差-方差权衡的影响,考虑了底层马尔可夫决策过程的结构参数。我们的结果支持一个更短的规划视野可能是有益的,尤其是在部分可观测性下。

论文链接: https://arxiv.org/abs/2407.15820

GFE-Mamba:基于 Mamba 的 AD 多模态进展评估,通过从 MCI 中生成特征提取

原标题: GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

作者: Zhaojie Fang, Shenghao Zhu, Yifei Chen, Binfeng Zou, Fan Jia, Linwei Qiu, Chang Liu, Yiyu Huang, Xiang Feng, Feiwei Qin, Changmiao Wang, Yeru Wang, Jin Fan, Changbiao Chu, Wan-Zhen Wu, Hu Zhao

机构: 杭州电子科技大学 北京航空航天大学 深圳大数据研究院 首都医科大学宣武医院 中山大学中山医学院 浙江医院

摘要: 阿尔茨海默病(AD)是一种不可逆的神经退行性疾病,通常从轻度认知障碍(MCI)发展而来,导致记忆丧失并严重影响患者的生活。临床试验表明,针对MCI患者的早期有针对性干预可能能够减缓或停止AD的发展和进展。先前的研究表明,准确的医学分类需要包括广泛的多模态数据,如评估量表和各种神经影像技术,如磁共振成像(MRI)和正电子发射断层扫描(PET)。然而,持续跟踪同一个体的诊断并同时收集多模态数据存在重大挑战。为解决这一问题,我们引入了基于生成特征提取(GFE)的分类器GFE-Mamba。该分类器有效地整合了来自评估量表、MRI和PET的数据,实现了更深层次的多模态融合。它能够高效地提取长序列和短序列信息,并将像素空间以外的额外信息纳入考虑。这种方法不仅提高了分类准确性,还增强了模型的可解释性和稳定性。我们基于阿尔茨海默病神经影像学倡议(ADNI)构建了超过3000个样本的数据集,进行了两步训练过程。我们的实验结果表明,GFE-Mamba模型在预测从MCI到AD的转变方面是有效的,并且优于几种最先进的方法。我们的源代码和ADNI数据集处理代码可在此https网址获取。

论文链接: https://arxiv.org/abs/2407.15719

Github: https://github.com/Tinysqua/GFE-Mamba

将IP广播与音频标签集成-工作流程和挑战

原标题: Integrating IP Broadcasting with Audio Tags- Workflow and Challenges

作者: Rhys Burchett-Vass, Arshdeep Singh, Gabriel Bibbó, Mark D. Plumbley

机构: 萨里大学

摘要: 广播行业越来越多地采用IP技术,彻底改变了从新闻采集到现场音乐活动等直播和预录内容制作的方式。IP广播允许以一种易于配置的方式传输音频和视频信号,与现代网络技术相一致。这种向IP工作流的转变不仅在信号路由方面提供了更大的灵活性,还可以集成使用标准的Web开发技术的工具。一个可能的工具包括使用实时音频标记,它在内容制作中有多种用途。这些用途包括自动闭路字幕到识别场景中不需要的声音事件。在本文中,我们描述了将音频标记模型容器化为微服务的过程,这是一个小型的隔离代码模块,可以集成到多种不同的网络设置中。目标是开发一个模块化、易访问和灵活的工具,能够无缝部署到各种规模的广播工作流中,从小型制作到大型公司。讨论了围绕所选音频标记模型的延迟及其对最终产品有用性的影响的挑战。

论文链接: https://arxiv.org/abs/2407.15423

在 ML 模型中解释决策:一个参数化复杂性分析

原标题: Explaining Decisions in ML Models: a Parameterized Complexity Analysis

作者: Sebastian Ordyniak, Giacomo Paesani, Mateusz Rychlicki, Stefan Szeider

摘要: 这篇论文对各种机器学习(ML)模型中解释问题的参数化复杂性进行了全面的理论研究。与普遍的黑盒子观念相反,我们的研究侧重于具有透明内部机制的模型。我们讨论了两种主要类型的解释问题:归纳和对比,分别在它们的局部和全局变体中。我们的分析涵盖了各种ML模型,包括决策树、决策集、决策列表、有序二进制决策图、随机森林和布尔电路,以及它们的集成,每种模型都提供独特的解释挑战。这项研究填补了可解释AI(XAI)领域的重要空白,通过对这些模型生成解释的复杂性提供了基础性理解。这项工作提供了对XAI领域进一步研究至关重要的见解,有助于更广泛地讨论AI系统透明度和问责制的必要性。

论文链接: https://arxiv.org/abs/2407.15780

在一个玩推箱子游戏的循环神经网络中规划行为

原标题: Planning behavior in a recurrent neural network that plays Sokoban

作者: Adrià Garriga-Alonso, Mohammad Taufeeque, Adam Gleave

摘要: 为了预测先进的神经网络如何推广到新颖情况,了解它们的推理方式至关重要。Guez等人(2019年,《无模型规划的研究》)使用无模型强化学习训练了一个循环神经网络(RNN)来玩推箱子游戏。他们发现,在测试时在每个剧集的开始添加额外的计算步骤可以提高RNN的成功率。我们进一步调查了这一现象,发现它在训练初期迅速出现,然后慢慢消退,但仅适用于相对较容易的关卡。RNN在剧集开始时经常采取多余的动作,通过添加额外的计算步骤可以减少这些动作。我们的结果表明,尽管每步惩罚,RNN通过“节奏”学会花时间思考,表明训练激励了规划能力。这个模型的小尺寸(1.29M参数)和有趣的行为使其成为机械解释性的优秀模型生物。

论文链接: https://arxiv.org/abs/2407.15421

TaskGen:使用StrictJSON的基于任务、记忆注入的智能体框架

原标题: TaskGen: A Task-Based, Memory-Infused Agentic Framework using StrictJSON

作者: John Chong Min Tan, Prince Saroj, Bharat Runwal, Hardik Maheshwari, Brian Lim Yi Sheng, Richard Cottrill, Alankrit Chona, Ambuj Kumar, Mehul Motani

机构: 新加坡国立大学 ETH苏黎世中心 Simbian AI TPG公司 澳大利亚 国立大学 新加坡

摘要: TaskGen是一个开源的智能框架,它使用一个智能体来将任意任务分解为子任务进行解决。每个子任务都映射到一个配备功能或另一个智能体来执行。为了减少冗余(从而减少标记使用),TaskGen使用StrictJSON来确保从大语言模型(LLM)输出JSON,同时具有诸如类型检查和迭代错误校正等附加功能。TaskGen哲学的关键是根据需求管理信息/记忆。我们在各种环境中对TaskGen进行了实证评估,如带有不断变化的障碍位置的40x40动态迷宫导航(100%解决率),TextWorld逃生室解决方案具有丰富奖励和详细目标(96%解决率),网页浏览(69%的操作成功),解决MATH数据集(100个Level-5问题的71%解决率),在NaturalQuestions数据集上进行检索增强生成(F1得分为47.03%)。

论文链接: https://arxiv.org/abs/2407.15734

自动化道路安全:利用人工智能增强标志和路面损坏检测

原标题: Automated Road Safety: Enhancing Sign and Surface Damage Detection with AI

作者: Davide Merolla, Vittorio Latorre, Antonio Salis, Gianluca Boanelli

机构: Università degli Studi del Molise Tiscali Italia S.p.A.

摘要: 公共交通在我们的生活中扮演着至关重要的角色,道路网络是智慧城市实施中的重要组成部分。人工智能的最新进展使得能够开发先进的监测系统,能够检测道路表面和道路标志的异常,如果不加以解决,可能导致严重的道路事故。本文提出了一种创新方法,通过使用先进的深度学习技术来增强道路安全,检测和分类交通标志和道路表面损坏。这种综合方法支持积极的维护策略,改善莫利塞大区和坎波巴索市的道路安全和资源分配。由意大利经济增长部(MIMIT)资助的莫利塞紧急技术之家(Molise CTE)研究项目的一部分,开发的结果系统利用云计算和GPU利用率高性能计算等尖端技术。它作为一个对市政当局有价值的工具,能够快速检测异常并及时组织维护操作。

论文链接: https://arxiv.org/abs/2407.15406

蟒蛇遇到裂缝分割

原标题: Mamba meets crack segmentation

作者: Zhili He, Yu-Hsing Wang

机构: 香港科技大学

摘要: 裂缝对基础设施构成安全风险,不容忽视。现有裂缝分割网络中主要采用CNN或Transformer结构。然而,CNN在全局建模能力上存在不足,阻碍了对整个裂缝特征的表征。Transformer能够捕捉长距离依赖关系,但受到高复杂度和二次复杂度的困扰。最近,Mamba因其线性空间和计算复杂度以及强大的全局感知能力而受到广泛关注。本研究探讨了Mamba对裂缝特征的表征能力。具体而言,本文揭示了Mamba与注意力机制之间的联系,提供了对Mamba的深刻洞察,即注意力视角,用于解释Mamba并设计一个遵循注意力块原则的新型Mamba模块,即CrackMamba。我们将CrackMamba与最突出的视觉Mamba模块Vim和Vmamba在包括沥青路面和混凝土路面裂缝以及钢裂缝的两个数据集上进行比较。定量结果显示,CrackMamba作为唯一一种始终提升基准模型性能的Mamba块,在所有评估指标上表现出色,同时减少了参数和计算成本。此外,本文证实了Mamba可以通过理论分析和视觉可解释性实现全局感知域。本研究的发现提供了双重贡献。首先,作为一种即插即用且简单而有效的Mamba模块,CrackMamba展现出融入各种裂缝分割模型的巨大潜力。其次,提出的创新Mamba设计概念,将Mamba与注意力机制结合,对所有基于Mamba的计算机视觉模型具有重要的参考价值,不仅限于本研究中所调查的裂缝分割网络。

论文链接: https://arxiv.org/abs/2407.15714

人工智能中的问题,它们在哲学中的根源,以及对科学和社会的影响。

原标题: Problems in AI, their roots in philosophy, and implications for science and society

作者: Max Velthoven, Eric Marcus

机构: 安永,阿姆斯特丹,荷兰大学 阿姆斯特丹法学院,荷兰阿姆斯特丹大学 AI用于肿瘤学,荷兰癌症研究所,阿姆斯特丹,荷兰荷兰阿姆斯特丹大学信息学院,阿姆斯特丹,荷兰

摘要: 人工智能(AI)是当今最相关的新兴技术之一。鉴此,本文提出应更加关注人工智能技术及其应用的哲学方面。文章认为,这种不足通常与关于知识增长的哲学误解相结合。为了识别这些误解,参考了科学哲学家卡尔·波普尔和物理学家大卫·迪奥特的思想。这两位思想家的作品旨在反对关于知识的错误理论,比如归纳主义、经验主义和工具主义。本文表明,这些理论与当前人工智能技术的运作方式存在相似之处。同时也指出,这些理论在关于人工智能的(公众)讨论中仍然存在,通常被称为贝叶斯主义。与波普尔和迪奥特一脉相承,本文提出所有这些理论都基于错误的知识哲学。这包括分析这些错误哲学对人工智能在科学和社会中的应用的影响,包括一些可能出现的问题情况。最后,本文对通用人工智能(AGI)提供了一个现实的展望,并提出了关于人工智能和哲学(即认识论)的三个命题。

论文链接: https://arxiv.org/abs/2407.15671

离线模仿学习通过图搜索和检索

原标题: Offline Imitation Learning Through Graph Search and Retrieval

作者: Zhao-Heng Yin, Pieter Abbeel

机构: 加州大学伯克利分校 EECS

摘要: 模仿学习是一种强大的机器学习算法,用于机器人获取操作技能。然而,许多现实世界的操作任务涉及精确和灵巧的机器人-物体交互,这使得人类难以收集高质量的专家演示。因此,机器人必须从次优演示和非结构化交互中学习技能,这仍然是一个关键挑战。现有的工作通常使用离线深度强化学习(RL)来解决这一挑战,但在实践中,这些算法由于致命三重问题而不稳定且脆弱。为了克服这个问题,我们提出了GSR,这是一种简单而有效的算法,通过图搜索和检索从次优演示中学习。我们首先使用预训练表示将交互经验组织成图,并执行图搜索来计算不同行为的值。然后,我们应用基于检索的程序来识别每个状态上的最佳行为(动作),并使用行为克隆来学习该行为。我们在模拟和真实世界的机器人操作任务中评估了我们的方法,涵盖了具有不同物理属性的物体的各种精确和灵巧的操作技能。与基线相比,GSR的成功率可以提高10%到30%,熟练度提高超过30%。我们的项目页面位于此https URL。

论文链接: https://arxiv.org/abs/2407.15403

Github: https://zhaohengyin.github.io/gsr

SwinSF:从时空脉冲流进行图像重建

原标题: SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams

作者: Liangyan Jiang, Chuang Zhu, Yanxu Chen

机构: 北京邮电大学

摘要: 具有高时间分辨率、低延迟和高动态范围的尖峰相机解决了像运动模糊这样的高速成像挑战。它独立地在每个像素处捕获光子,创建了丰富的时间信息但对图像重建具有挑战性的二进制尖峰流。当前的算法,无论是传统的还是基于深度学习的,仍然需要在利用丰富的时间细节和恢复重建图像的细节方面进行改进。为了克服这一问题,我们引入了Swin Spikeformer(SwinSF),这是一个用于从尖峰流中重建动态场景的新型模型。SwinSF由尖峰特征提取、时空特征提取和最终重建模块组成。它结合了平移窗口自注意力和提出的时间尖峰注意力,确保了全面的特征提取,包括了空间和时间动态,从而实现了对尖峰流更稳健和准确的重建。此外,我们构建了一个新的合成数据集,用于尖峰图像重建,与最新尖峰相机的分辨率匹配,确保其与尖峰相机成像的最新发展相关和适用。实验结果表明,所提出的网络SwinSF建立了一个新的基准,实现了在一系列数据集上的最先进性能,包括了跨多种分辨率的真实世界和合成数据。我们的代码和提出的数据集将很快提供。

论文链接: https://arxiv.org/abs/2407.15708

可解释的基于概念的记忆推理

原标题: Interpretable Concept-Based Memory Reasoning

作者: David Debot (Department of Computer Science, KU Leuven), Pietro Barbiero (Università della Svizzera Italiana and University of Cambridge), Francesco Giannini (Faculty of Sciences, Scuola Normale Superiore, Pisa), Gabriele Ciravegna (Department of Control and Computer Engineering, Politecnico di Torino), Michelangelo Diligenti (Università di Siena), Giuseppe Marra (Department of Computer Science, KU Leuven)

摘要: 深度学习系统决策过程缺乏透明度在现代人工智能(AI)中构成重大挑战,因为这会削弱用户依赖和验证这些系统的能力。为了解决这一挑战,概念瓶颈模型(CBMs)通过将人类可解释概念纳入深度学习架构中取得了重大进展。这种方法允许预测追溯到用户可以理解并可能干预的特定概念模式。然而,现有CBMs的任务预测器并非完全可解释,这妨碍了在部署之前对其决策过程进行彻底分析和任何形式的形式验证,从而引发了重大的可靠性问题。为了弥补这一差距,我们引入了基于概念的记忆推理器(CMR),这是一种旨在提供人类可理解且可证明验证的任务预测过程的新型CBM。我们的方法是将每个任务预测建模为可学习逻辑规则内存上的神经选择机制,然后对所选规则进行符号评估。显式内存和符号评估的存在使领域专家能够检查和正式验证与任务预测过程中感兴趣的某些全局属性的有效性。实验结果表明,CMR在准确性和可解释性的权衡方面与最先进的CBMs相当,发现与基本事实一致的逻辑规则,允许规则干预,并允许部署前验证。

论文链接: https://arxiv.org/abs/2407.15527

在联邦学习中解决自私客户问题

原标题: Tackling Selfish Clients in Federated Learning

作者: Andrea Augello, Ashish Gupta, Giuseppe Lo Re, Sajal K. Das

机构: 帕勒莫大学 密苏里科技大学 比兹-比拉尼大学 迪拜

摘要: 联邦学习(FL)是一种分布式机器学习范式,使参与者能够在不泄露本地数据的情况下协作训练模型。然而,当FL部署到实际环境中时,一些聪明的客户端可能会故意偏离标准训练过程,使全局模型倾向于他们的本地模型,从而优先考虑他们的本地数据分布。我们将这种新颖的不端行为客户端类别称为自私。在本文中,我们提出了一种用于FL服务器的Robust聚合策略,以减轻自私行为的影响(简称RFL-Self)。RFL-Self结合了一种创新方法,从接收到的自私客户端的更新中恢复(或估计)真实更新,利用每一轮更新的鲁棒统计量(更新的范数中位数)。通过将恢复的更新包含在聚合中,我们的策略提供了强大的抵抗自私行为的鲁棒性。我们在MNIST和CIFAR-10数据集上获得的实验结果表明,仅有2%的表现自私的客户端就能使准确性下降高达36%,而RFL-Self可以减轻这种影响而不降低全局模型的性能。

论文链接: https://arxiv.org/abs/2407.15402

代数反一致化

原标题: Algebraic anti-unification

作者: Christian Antić

机构: 维也纳理工大学

摘要: 抽象是人类和人工智能的关键,因为它使人们能够看到本质上不同的对象或情况中的共同结构,因此它是人工智能中通用性的关键要素。反统一(或泛化)是理论计算机科学和人工智能研究抽象的一部分。它已成功应用于各种与人工智能相关的问题,最重要的是归纳逻辑编程。迄今为止,文献中只从句法角度研究了反统一。本文的目的是在一般代数中启动反统一的代数(即语义)理论。这是受最近对相似性和类比比例的应用的启发。

论文链接: https://arxiv.org/abs/2407.15510

预测N个视觉跟踪器中的最佳者

原标题: Predicting the Best of N Visual Trackers

作者: Basit Alawode, Sajid Javed, Arif Mahmood, Jiri Matas

机构: IEEE CS Member

摘要: 我们观察到,当前最先进的视觉跟踪器在不同的视频属性和数据集上表现出惊人的差异。没有单个跟踪器在所有跟踪属性和数据集上都表现最佳。为了弥合这一差距,对于给定的视频序列,我们预测“N个最佳跟踪器”,称为BofN元跟踪器。在其核心,跟踪性能预测网络(TP2N)仅使用少量初始帧为给定的视频序列选择预测的最佳表现视觉跟踪器。我们还引入了一个基于帧级别的BofN元跟踪器,它在常规时间间隔后继续预测最佳表现者。TP2N基于自监督学习架构MocoV2、SwAv、BT和DINO;实验表明,以ViT-S为骨干的DINO表现最佳。视频级别的BofN元跟踪器在九个标准基准测试-LaSOT、TrackingNet、GOT-10K、VOT2019、VOT2021、VOT2022、UAV123、OTB100和WebUAV-3M上的表现大大优于现有的最先进跟踪器。通过帧级别的BofN元跟踪器有效处理长序列中跟踪场景的变化,进一步提高了性能。例如,在GOT-10k上,BofN元跟踪器的平均重叠率分别为88.7%和91.1%,视频和帧级设置。最佳表现的跟踪器RTS实现了85.20%的AO。在VOT2022上,BofN预期的平均重叠率分别为67.88%和70.98%,与视频和帧级设置相比,最佳表现的ARTrack为64.12%。本文还对所有常用基准测试中竞争性跟踪方法进行了广泛评估,遵循它们的协议。代码、训练模型和结果将很快在此 https URL 上公开。

论文链接: https://arxiv.org/abs/2407.15707

Github: https://github.com/BasitAlawode/Best_of_N_Trackers

一个面向6G启用的IoV的终身学习入侵检测系统

原标题: A Life-long Learning Intrusion Detection System for 6G-Enabled IoV

作者: Abdelaziz Amara korba, Souad Sebaa, Malik Mabrouki, Yacine Ghamri-Doudane, Karima Benatchba

机构: 阿卜杜勒-阿齐兹·阿马拉科尔巴2,3,苏阿德·塞巴1,马利克·马布鲁基1,亚辛·甘里-杜丹3和卡里玛·贝纳奇巴1
阿尔及利亚信息技术高等学校,阿尔及利亚 巴吉穆赫塔尔安纳巴大学,阿尔及利亚 拉罗谢尔大学,法国

摘要: 将6G技术引入车联网(IoV)将在连接性方面带来革命性变革,具有超高数据传输速率和无缝网络覆盖。然而,这一技术飞跃也带来了重大挑战,特别是对于动态多样的IoV领域,必须满足6G网络严格的可靠性和安全性要求。此外,整合6G技术可能会增加IoV对各种新兴网络威胁的敏感性。因此,安全机制动态适应并学习新的攻击模式至关重要,以跟上这些威胁的快速演变和多样化,而这是现有系统目前缺乏的能力。本文提出了一种利用终身(或持续)学习范式的新型入侵检测系统。我们的方法结合了类增量学习和联邦学习,这种方法非常适合IoV的分布式特性。该策略有效地利用了互联和自动驾驶车辆(CAVs)以及边缘计算能力的集体智慧来训练检测系统。据我们所知,这项研究是首次将类增量学习与联邦学习相结合,专门用于网络攻击检测。通过对最近的网络流量数据集进行全面实验,我们的系统展现出了学习新的网络攻击模式的强大适应能力,同时有效地保留了先前遇到的知识。此外,它已被证明能够保持高准确性和低误报率。

论文链接: https://arxiv.org/abs/2407.15700

奥德赛:赋予智能体开放世界技能

原标题: Odyssey: Empowering Agents with Open-World Skills

作者: Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song

机构: 浙江大学 杭州城市大学

摘要: 最近的研究已经深入探讨了为Minecraft等开放世界实体环境构建通用智能体。尽管结果令人鼓舞,但现有的努力主要集中在解决基本的程序任务,例如按照Minecraft技术树进行材料收集和工具制作,将获取钻石的任务视为最终目标。这种局限性源自智能体可用行动的狭窄定义,要求它们从零开始学习有效的长期策略。因此,在开放世界中发现多样化的游戏机会变得具有挑战性。在这项工作中,我们介绍了ODYSSEY,这是一个新框架,它赋予基于大语言模型(LLM)的智能体开放世界技能,以探索广阔的Minecraft世界。ODYSSEY包括三个关键部分:(1)一个交互式智能体,具有包含40个基本技能和183个组合技能的开放世界技能库。 (2)一个在大型问答数据集上进行微调的LLaMA-3模型,该数据集包含来自Minecraft Wiki的390,000多个指令条目。 (3)一个新的开放世界基准包括数千个长期规划任务,数十个动态即时规划任务和一个自主探索任务。大量实验证明了提出的ODYSSEY框架可以有效评估智能体的规划和探索能力。所有数据集、模型权重和代码都可以公开获取,以激励未来研究更先进的自主智能体解决方案。

论文链接: https://arxiv.org/abs/2407.15325

基于语义多样性的原型学习,用于无偏见的场景图生成

原标题: Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation

作者: Jaehyeong Jeon, Kibum Kim, Kanghoon Yoon, Chanyoung Park

机构: 韩国科学技术院(KAIST)

摘要: 场景图生成(SGG)任务涉及检测图像中的对象并预测代表对象之间关系的谓词。然而,在SGG基准数据集中,每个主-宾对都用单个谓词进行注释,即使单个谓词可能具有多样的语义(即语义多样性),现有的SGG模型被训练为预测每对的唯一谓词。这反过来导致SGG模型忽视了谓词可能存在的语义多样性,从而导致有偏见的预测。在本文中,我们提出了一种新颖的面向模型的语义多样性感知原型学习(DPL)框架,它能够基于对谓词语义多样性的理解实现无偏见的预测。具体来说,DPL学习了语义空间中每个谓词覆盖的区域,以区分单个谓词可以代表的各种不同语义。大量实验证明,我们提出的面向模型的DPL框架在现有SGG模型上带来了显著的性能改进,并有效地理解了谓词的语义多样性。

论文链接: https://arxiv.org/abs/2407.15396

基于AI的快速和早期检测物联网僵尸网络威胁:一种综合网络流量分析方法

原标题: AI-Driven Fast and Early Detection of IoT Botnet Threats: A Comprehensive Network Traffic Analysis Approach

作者: Abdelaziz Amara korba, Aleddine Diaf, Yacine Ghamri-Doudane

机构: 安纳巴巴吉·莫赫塔尔大学,法国La Rochelle大学

摘要: 在不断发展的网络威胁领域,针对物联网生态系统的威胁,以及僵尸网络驱动的分布式拒绝服务(DDoS)和暴力攻击的激增,本研究侧重于早期检测物联网僵尸程序。它专门解决了在攻击之前和组织攻击时出现的隐蔽僵尸程序通信的检测问题。本研究提出了一种全面的方法论,用于分析物联网网络流量,包括考虑单向和双向流动,以及数据包格式。它探讨了对表示网络流量至关重要的广泛网络特征,以及有效表征良性物联网流量模式。此外,它深入研究了使用各种半监督学习技术对流量进行建模。通过对 IoT-23 数据集进行广泛实验,该数据集包含多种僵尸网络类型和流量场景,我们已经证明了检测与不同操作和僵尸程序类型相对应的僵尸网络流量的可行性,特别关注隐蔽命令和控制(C2)通信。通过基于数据包的方法,我们获得的结果表明,可以以100%的成功率识别C2通信,而基于流量的方法则为94%,误报率为1.53%。

论文链接: https://arxiv.org/abs/2407.15688

HaloQuest:用于推进多模态推理的视觉幻觉数据集

原标题: HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

作者: Zhecan Wang, Garrett Bingham, Adams Yu, Quoc Le, Thang Luong, Golnaz Ghiasi

机构: 哥伦比亚大学 谷歌DeepMind

摘要: 幻觉一直是大型语言模型的一个主要问题,在涉及视觉-语言模型(VLMs)需要处理不仅是文本还有视觉输入的多模态情况下,幻觉仍然是一个关键挑战。尽管在VLMs方面取得了快速进展,但用于评估和解决多模态幻觉的资源有限,主要集中在评估上。这项工作介绍了HaloQuest,这是一个新颖的视觉问答数据集,捕捉了多模态幻觉的各个方面,如虚假前提、不足的上下文和视觉挑战。HaloQuest的一个新颖想法是利用合成图像,除了真实图像外,以实现大规模数据集的创建。HaloQuest涵盖了超过7.7K个示例,涵盖了各种各样的类别,旨在成为VLMs的具有挑战性的基准测试和推进多模态推理的微调数据集。我们的实验表明,当前模型在HaloQuest上表现不佳,所有开源VLMs的准确率均低于36%。另一方面,在HaloQuest上进行微调显著降低了幻觉率,同时保持了在标准推理任务上的性能。我们的结果发现,使用生成图像进行基准测试与真实图像高度相关(r=0.97)。最后,我们提出了一种新颖的自动评估机制,与人类评分者高度相关(r=0.99),用于评估VLMs。总之,这项工作在理解、评估和减轻VLMs中的幻觉方面取得了实质性进展,是未来更可靠的多模态人工智能系统的重要一步。

论文链接: https://arxiv.org/abs/2407.15680

WayEx: 使用单个演示进行路径点探索

原标题: WayEx: Waypoint Exploration using a Single Demonstration

作者: Mara Levy, Nirat Saini, Abhinav Shrivastava

机构: 马里兰大学学院园

摘要: 我们提出了一种名为WayEx的新方法,用于从单个演示中学习复杂的目标条件机器人任务。我们的方法通过要求更少的专家示例并消除对演示过程中采取的行动信息的需求,与现有的模仿学习方法有所区别。这是通过引入新的奖励函数和使用知识扩展技术来实现的。我们展示了WayEx,我们的路径点探索策略,在六个不同的任务中的有效性,展示了它在各种环境中的适用性。值得注意的是,与传统的强化学习方法相比,我们的方法将训练时间缩短了50%。WayEx在仅提供单个演示的情况下获得了比现有模仿学习方法更高的奖励。此外,我们展示了它在解决标准方法无法胜任的复杂环境中取得的成功。更多信息请访问:https://这里是网址。

论文链接: https://arxiv.org/abs/2407.15849

Github: https://waypoint-ex.github.io

通过遮蔽自适应集成实现鲁棒的视觉Transformer

原标题: Towards Robust Vision Transformer via Masked Adaptive Ensemble

作者: Fudong Lin, Jiadong Lou, Xu Yuan, Nian-Feng Tzeng

机构: 特拉华大学 路易斯安那大学拉斐特分校

摘要: 对抗训练(AT)可以通过有意将对抗样本注入训练数据来帮助提高视觉Transformer(ViT)对抗攻击的鲁棒性。然而,这种对抗注入方式不可避免地会在一定程度上导致标准准确度下降,因此需要在标准准确度和鲁棒性之间进行权衡。此外,突出的对抗训练解决方案仍然容易受到自适应攻击的影响。为了解决这些缺点,本文提出了一种新颖的ViT架构,包括一个检测器和一个分类器,二者由我们新开发的自适应集成桥接。具体来说,我们经验性地发现,检测对抗样本可以从引导反向传播技术中获益。在这一发现的推动下,引入了一种新颖的多头自注意力(MSA)机制,以增强我们的检测器以便嗅探对抗样本。然后,采用两个编码器的分类器分别从清晰图像和对抗样本中提取视觉表示,通过我们的自适应集成来自适应调整两个编码器提取的视觉表示比例,以进行准确分类。这种设计使我们的ViT架构能够在标准准确度和鲁棒性之间取得更好的权衡。此外,我们的自适应集成技术允许我们屏蔽输入数据中的随机子图像块子集,提升我们的ViT对抗自适应攻击的鲁棒性,同时保持高标准准确度。实验结果表明,我们的ViT架构在CIFAR-10上分别实现了90.3%的最佳标准准确度和49.8%的对抗鲁棒性。

论文链接: https://arxiv.org/abs/2407.15385

利用语义和动态占据栅格地图引导的运动预测

原标题: Flow-guided Motion Prediction with Semantics and Dynamic Occupancy Grid Maps

作者: Rabbia Asghar, Wenqian Liu, Lukas Rummelhard, Anne Spalanzani, Christian Laugier

机构: 格勒诺布尔阿尔卑斯大学 Inria

摘要: 准确预测驾驶场景对道路安全和自动驾驶至关重要。由于其结构化的空间表示、跨传感器模态的灵活性和不确定性的整合,占用栅格地图(OGMs)通常用于场景预测。最近的研究成功地将OGMs与深度学习方法相结合,以预测场景的演变并学习复杂行为。然而,这些方法并未考虑场景中流动或速度向量的预测。在这项工作中,我们提出了一种新颖的多任务框架,利用动态OGMs和语义信息来预测未来车辆语义栅格和场景未来流动。这种语义流的整合不仅提供了中间场景特征,还能够生成扭曲的语义栅格。对真实世界的NuScenes数据集的评估表明,改进了预测能力,并增强了模型在场景中保留动态车辆的能力。

论文链接: https://arxiv.org/abs/2407.15675

大语言模型映射:用于大语言模型的指纹技术

原标题: LLMmap: Fingerprinting For Large Language Models

作者: Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese

机构: 乔治梅森大学

摘要: 我们介绍了 LLMmap,这是针对集成了大语言模型的应用的第一代指纹攻击。LLMmap采用主动指纹识别方法,向应用程序发送精心设计的查询,并分析响应以识别具体使用的大语言模型。仅需 8 次交互,LLMmap 就能以超过 95% 的准确率准确识别大语言模型。更重要的是,LLMmap 被设计为在不同应用程序层之间具有鲁棒性,使其能够识别在各种系统提示、随机采样超参数甚至复杂的生成框架(如 RAG 或 Chain-of-Thought)下运行的大语言模型。

论文链接: https://arxiv.org/abs/2407.15847

SLVideo:一种手语视频时刻检索框架

原标题: SLVideo: A Sign Language Video Moment Retrieval Framework

作者: Gonçalo Vinagre Martins, Afonso Quinaz, Carla Viegas, Sofia Cavaco, João Magalhães

机构: 新里斯本科学技术学院 洛桑,葡萄牙

摘要: 手语识别已经在多年来得到研究和发展,以帮助聋哑人和听力有障碍的人在日常生活中。这些技术利用手动手势识别算法,然而,大多数技术缺乏对面部表情的识别,而面部表情也是手语的重要组成部分,因为它们可以让说话者为他们的对话增添表现力,甚至改变某些手势的含义。SLVideo 是一款针对手语视频的视频时刻检索软件,重点关注双手和面部手势。该系统从视频帧中提取手部和面部手势的嵌入式表示,以完整捕捉语言手势。然后,用户可以通过文本查询搜索特定的手语视频片段,或者通过类似的手语视频进行搜索。为了测试这个系统,使用了一组五小时的带有注释的手语视频作为数据集,初步结果在零样本设置下是令人鼓舞的。SLVideo 不仅解决了搜索手语视频的问题,还支持手语词典,并采用相似性搜索技术进行搜索。
项目网页:this https URL

论文链接: https://arxiv.org/abs/2407.15668

Github: https://novasearch.github.io/SLVideo/

使用迁移学习训练的真实世界模型重构训练数据

原标题: Reconstructing Training Data From Real World Models Trained with Transfer Learning

作者: Yakir Oz, Gilad Yehudai, Gal Vardi, Itai Antebi, Michal Irani, Niv Haim

机构: 魏茨曼科学研究所 纽约大学数据科学中心

摘要: 目前,从经过训练的分类器中重建训练数据的方法仅限于非常小的模型、有限的训练集大小和低分辨率图像。这些限制阻碍了它们在实际场景中的适用性。在本文中,我们提出了一种新颖的方法,可以在针对高分辨率图像进行训练的模型中实现在现实场景中的数据重建。我们的方法将 arXiv:2206.07758 中的重建方案调整到真实场景中,具体来说,针对通过转移学习在大型预训练模型(如DINO-ViT和CLIP)的图像嵌入上进行训练的模型。我们的工作在嵌入空间而不是图像空间中进行数据重建,展示了其在视觉数据之外的适用性。此外,我们引入了一种基于聚类的新方法,用于从成千上万个候选项中识别出良好的重建。这在之前依赖于训练集知识来识别良好重建图像的先前工作上有了显著改进。我们的发现揭示了使用转移学习训练的模型可能存在数据泄露的潜在隐私风险。

论文链接: https://arxiv.org/abs/2407.15845

其他链接: https://arxiv.org/abs/2206.07758

一个多模态知识增强的全切片病理基础模型

原标题: A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model

作者: Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Shu Yang, Huangjing Lin, Xin Wang, Jiguang Wang, Li Liang, Anjia Han, Ronald Cheong Kin Chan, Hao Chen

机构: 香港科技大学 香港中文大学 汪新王 医院王继光 梁力 韩安嘉 陈浩 化学和生物学部

摘要: 在计算病理学领域取得了显著进展,这是在任务无关的基础模型中实现的,该模型提升了各种下游临床任务的性能。尽管表现令人鼓舞,但仍然存在一些挑战。首先,先前的研究要么采用仅视觉或视觉-字幕数据,忽略了宝贵的病理报告和基因表达谱,它们分别为多样的临床应用提供了独特的知识。其次,病理学 FMs 中目前的进展主要集中在补丁级别,补丁级别预训练的受限上下文无法捕捉整个切片的模式。在这里,我们整理了最大的多模态数据集,包括 H&E 诊断性全切片图像及其相关的病理报告和 RNA-Seq 数据,共有来自 32 种癌症类型的 10,275 名患者的 26,169 个切片级别模态对。为了利用这些数据进行 CPath,我们提出了一种新颖的全切片预训练范式,将多模态知识注入到整个切片上下文中,称为多模态自学习预训练(mSTAR)。所提出的范式革新了 CPath 的预训练工作流程,使病理 FM 能够获取整个切片的上下文。据我们所知,这是首次尝试在切片级别上融入多模态知识以增强病理 FMs,将建模上下文从单模态扩展到多模态知识,从补丁级别扩展到切片级别。为了系统评估 mSTAR 的能力,我们进行了广泛的实验,包括切片级别的单模态和多模态应用,在 43 个子任务上进行了 7 种不同类型的任务,形成了最广泛的下游任务范围。在各种切片级应用中,mSTAR 相对于 SOTA FMs 始终表现出显著的性能提升。

论文链接: https://arxiv.org/abs/2407.15362

HandDGP:使用可微分全局定位进行相机空间手部网格预测

原标题: HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning

作者: Eugene Valassakis, Guillermo Garcia-Hernando

机构: Niantic

摘要: 从单个 RGB 图像中预测相机空间手部网格对于在 3D 虚拟和增强现实世界中实现逼真的手部交互至关重要。先前的工作通常将任务分为两个阶段:给定手部的裁剪图像,预测相对坐标中的网格,然后将这些预测提升到相机空间中,在一个单独且独立的阶段,通常导致有价值的上下文和比例信息的丢失。为了防止丢失这些线索,我们提出将这两个阶段统一为一个端到端的解决方案,解决 2D-3D 对应问题。这个解决方案通过一个新的可微分全局定位模块,使得从相机空间输出到网络的其余部分的反向传播成为可能。我们还引入了一个图像矫正步骤,使训练数据集和输入图像都像是用同一台相机获取的,有助于缓解问题固有的尺度-深度模糊。我们通过针对三个公共基准测试中的几个基线和最先进方法进行评估,验证了我们框架的有效性。

论文链接: https://arxiv.org/abs/2407.15844

如何缩小许多等价离散分布的置信区间?

原标题: How to Shrink Confidence Sets for Many Equivalent Discrete Distributions?

作者: Odalric-Ambrym Maillard, Mohammad Sadegh Talebi

机构: Odalric-Ambrym Maillard:
Mohammad Sadegh Talebi:

摘要: 我们考虑学习者面对一组未知的离散分布 ( p k ) k ∈ K (p_k)_{k\in \mathcal K} (pk)kK,这些分布定义在一个共同的字母表 X \mathcal X X上,对于每个分布 p k p_k pk,学习者可以通过从 p k p_k pk中抽取的 n k n_k nk个样本构建一个个体的高概率置信区间。集合 ( p k ) k ∈ K (p_k)_{k\in \mathcal K} (pk)kK是有结构的:每个分布 p k p_k pk都是从相同的但未知的分布q通过对 X \mathcal X X应用未知排列得到的。我们称之为\emph{排列等价性}。目标是构建利用这种结构特性的精细置信区间。与其他流行的结构概念(利普希茨平滑性,线性性等)类似,排列等价性在机器学习问题中自然出现,并且为了从中获益需要采用特定方法。我们提出了一种有效利用排列等价性的策略,并为该策略输出的精细置信区间的大小提供了有限时间内的高概率界限。由于通常情况下对于观察次数太少无法进行细化,根据温和的技术假设,我们的有限时间分析确定了观察次数 ( n k ) k ∈ K (n_k)_{k\in \mathcal K} (nk)kK何时足够大,以便输出的置信区间相对于初始的个体置信区间有所改进。我们仔细描述了这一事件及相应的改进。此外,我们的结果意味着当每个个体置信区间的大小分别以 O ( 1 / n k ) O(1/\sqrt{n_k}) O(1/nk ) O ( 1 / n k ) O(1/n_k) O(1/nk)的速率收缩时,置信区间的大小在q的支持集内和外部的渐近速率分别为 O ( 1 / ∑ k ∈ K n k ) O(1/\sqrt{\sum_{k\in \mathcal K} n_k}) O(1/kKnk ) O ( 1 / max ⁡ k ∈ K n k ) O(1/\max_{k\in K} n_{k}) O(1/maxkKnk)。我们通过在强化学习任务中利用排列等价性展示了其实际益处。

论文链接: https://arxiv.org/abs/2407.15662

CarFormer:使用学习的以对象为中心的表示进行自动驾驶

原标题: CarFormer: Self-Driving with Learned Object-Centric Representations

作者: Shadi Hamdan, Fatma Güney

机构: 科技大学

摘要: 在自动驾驶中,表示形式的选择起着关键作用。鸟瞰图(BEV)表示在近年来表现出色。在本文中,我们提出在BEV中学习以物体为中心的表示形式,将复杂场景提炼为更具可操作性的信息,以用于自动驾驶。我们首先通过BEV序列上的槽注意力模型学习将物体放置到槽中。基于这些以物体为中心的表示形式,我们然后训练一个Transformer模型,使其学会驾驶并推理其他车辆的未来动向。我们发现,以物体为中心的槽表示形式胜过使用物体的确切属性的场景级和物体级方法。槽表示形式自然地将物体的空间和时间上下文(如位置、朝向和速度)的信息融入其中,而无需明确提供。我们的带有槽的模型提高了提供路线的完成率,因此在多次运行中具有更低的方差,证实槽作为以物体为中心方法中可靠的替代方案。此外,我们通过预测实验验证了我们模型作为世界模型的性能,展示了其准确预测未来槽表示的能力。代码和预训练模型可在此 https URL 找到。

论文链接: https://arxiv.org/abs/2407.15843

Github: https://kuis-ai.github.io/CarFormer/

X-Recon:从正交X射线图像学习患者特定的高分辨率CT重建

原标题: X-Recon: Learning-based Patient-specific High-Resolution CT Reconstruction from Orthogonal X-Ray Images

作者: Yunpeng Wang, Kang Wang, Yaoyao Zhuo, Weiya Shi, Fei Shan, Lei Liu

机构: 清华大学 哈尔滨工业大学

摘要: 利用胸部X射线和计算机断层扫描(CT)进行气胸的快速准确诊断对辅助诊断至关重要。胸部X射线通常用于气胸的初步定位,而CT确保准确量化。然而,CT扫描涉及高剂量辐射并且成本较高。为了在最小化辐射暴露的同时实现精确的定量诊断,我们提出了基于正侧胸部X射线图像的CT超稀疏重建网络X-Recon。X-Recon集成了生成对抗网络(GANs),包括一个具有多尺度融合渲染模块的生成器和一个通过3D坐标卷积层增强的鉴别器,旨在促进CT重建。为了提高精度,采用了投影空间变换器来结合多角度投影损失。此外,我们提出了PTX-Seg,一个零样本气胸分割算法,将图像处理技术与深度学习模型相结合,用于分割积聚气体区域和肺部结构。对大规模数据集的实验表明,它优于现有方法。X-Recon实现了更高的重建分辨率,具有更高的平均空间分辨率和更低的平均切片厚度。在几个指标方面,重建指标实现了最先进的性能,包括峰值信噪比。零样本分割算法PTX-Seg还展示了对积聚气体区域、左肺和右肺的高分割精度。此外,对于重建CT和原始CT之间的气胸胸部占用比例的一致性分析获得了高相关系数。代码将在以下网址提供:此处的网址。

论文链接: https://arxiv.org/abs/2407.15356

Github: https://github.com/wangyunpengbio/X-Recon

使用A3C、Q-learning和DQN评估强化学习在自主渗透测试中的应用

原标题: Evaluation of Reinforcement Learning for Autonomous Penetration Testing using A3C, Q-learning and DQN

作者: Norman Becker, Daniel Reti, Evridiki V. Ntagiou, Marcus Wallum, Hans D. Schotten

机构: 德国人工智能研究中心(DFKI) 德国卡尔斯鲁厄大学 欧空局欧洲航天局欧洲航天运营中心(ESA-ESOC)

摘要: 渗透测试是通过模拟攻击来搜索安全漏洞的过程。通常由经验丰富的专业人员执行,应用扫描和攻击工具。通过自动化执行这些工具,可以减少人为干预和决策的需求。在这项工作中,使用网络攻击模拟器(NASim)作为训练强化学习智能体解决三个预定义安全场景的环境。这些场景涵盖了利用、后利用和窃听技术。进行了大规模超参数网格搜索以找到最佳的超参数组合。使用了Q-learning、DQN和A3C算法,其中A3C能够解决所有场景并实现泛化。此外,A3C能够比基准自动化渗透测试更少地执行这些场景。尽管训练是在相对较小的场景和智能体的小状态和动作空间上进行的,但结果表明,RL智能体可以成功执行渗透测试。

论文链接: https://arxiv.org/abs/2407.15656

在高度互动环境中,重要性采样引导的元训练对智能体的重要性

原标题: Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments

作者: Mansur Arief, Mike Timmerman, Jiachen Li, David Isele, Mykel J Kochenderfer

机构: 斯坦福大学 达特茅斯学院

摘要: 训练智能体在高度互动环境中导航存在着重大挑战。虽然先训练一个引导策略来指导自主智能体训练的引导元强化学习(RL)方法已被证明在提高在各种互动水平上的泛化能力方面是有效的,但目前最先进的方法往往对极端情况过于敏感,影响了智能体在更常见情况下的表现。本研究介绍了一种新颖的训练框架,将引导元RL与重要性采样(IS)相结合,以优化用于导航高度互动驾驶场景(如T型交叉口)的训练分布。与传统方法不同,传统方法在训练过程中可能会低估关键交互或过分强调极端情况,我们的方法通过IS提议分布来战略性地调整训练分布,以更具挑战性的驾驶行为,并应用重要性比率来消除偏差。通过从真实世界数据集中估算出自然分布,并利用混合模型进行迭代训练改进,该框架确保在常见和极端驾驶场景之间平衡关注。通过使用合成数据集和InD数据集中的T型交叉口场景进行的实验不仅展示了训练加速,还展示了在自然条件下智能体表现的改善,展示了将IS与元RL相结合在训练可靠的高度互动导航任务的自主智能体方面的有效性。

论文链接: https://arxiv.org/abs/2407.15839

在购买概率不确定性下的稳健个性化定价

原标题: Robust personalized pricing under uncertainty of purchase probabilities

作者: Shunnosuke Ikeda, Naoki Nishimura, Noriyoshi Sukegawa, Yuichi Takano

机构: 瑞可公司 防卫大学 筑波大学

摘要: 这篇论文涉及个性化定价模型,旨在最大化单个物品的预期收入或利润。尽管个性化定价需要预测每位消费者的购买概率,但这些预测值本质上会受到无法避免的误差影响,可能会对实现的收入和利润产生负面影响。为解决这一问题,我们专注于鲁棒优化技术,以在不确定性下获得可靠的优化问题解决方案。具体而言,我们提出了一个针对个性化定价的鲁棒优化模型,考虑了预测购买概率的不确定性。该模型可以被表述为一个混合整数线性优化问题,可以通过数学优化求解器精确求解。我们还开发了一种拉格朗日分解算法,结合线搜索,以有效地找到大规模优化问题的高质量解决方案。实验结果证明了我们的鲁棒优化模型的有效性,并突显了我们的拉格朗日分解算法在计算效率和解决方案质量方面的实用性。

论文链接: https://arxiv.org/abs/2407.15332

朝向潜在掩模图像建模,用于自监督视觉表示学习

原标题: Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning

作者: Yibing Wei, Abhinav Gupta, Pedro Morgado

机构: 威士康星大学 卡内基梅隆大学

摘要: 遮蔽图像建模(MIM)已经成为一种有前途的方法,通过预测图像中遮蔽部分的缺失像素来从未标记的图像数据中获取视觉表示。它在区域感知学习方面表现出色,并为各种任务提供了强大的初始化,但在没有进一步监督微调的情况下很难捕捉高级语义,这可能是由于其像素重建目标的低级性质。一种有前途但尚未实现的框架是通过在潜在空间中进行遮蔽重建来学习表示,将MIM的局部性与高级目标相结合。然而,这种方法存在重大的训练挑战,因为重建目标是与模型一起学习的,可能导致琐碎或次优的解决方案。我们的研究是首批对这种框架的挑战进行彻底分析和解决的研究,我们将其称为潜在MIM。通过一系列精心设计的实验和广泛分析,我们确定了这些挑战的根源,包括联合在线/目标优化的表示坍缩、学习目标、潜在空间中的高区域相关性和解码调节。通过依次解决这些问题,我们证明了潜在MIM确实可以学习高级表示,同时保留了MIM模型的优势。

论文链接: https://arxiv.org/abs/2407.15837

NV-Retriever:通过有效的硬负采样改进文本嵌入模型

原标题: NV-Retriever: Improving text embedding models with effective hard-negative mining

作者: Gabriel de Souza P. Moreira, Radek Osmulski, Mengyao Xu, Ronay Ak, Benedikt Schifferer, Even Oldridge

机构: NVIDIA

摘要: 文本嵌入模型在信息检索应用中变得流行,例如基于检索增强生成(RAG)的语义搜索和问答系统。这些模型通常是使用对比学习目标微调的Transformer模型。许多论文介绍了新的嵌入模型架构和训练方法,然而,其中一个关键因素,即挖掘负面段落的过程,仍然未被充分探讨或描述。微调嵌入模型的一个具有挑战性的方面是选择高质量的硬负面段落用于对比学习。在本文中,我们提出了一系列基于正相关性得分的挖掘方法,以更有效地去除假负例。我们还对硬负例挖掘方法进行了全面的消融研究,探索不同的教师和基础模型。我们通过引入NV-Retriever-v1模型展示了我们提出的方法的有效性,该模型在MTEB检索(BEIR)基准测试中得分为60.9,比先前方法高出0.65个点。该模型在2024年7月7日发布到MTEB检索时排名第一。

论文链接: https://arxiv.org/abs/2407.15831

Norface: 通过身份规范化改进面部表情分析

原标题: Norface: Improving Facial Expression Analysis by Identity Normalization

作者: Hanwei Liu, Rudong An, Zhimeng Zhang, Bowen Ma, Wei Zhang, Yan Song, Yujing Hu, Wei Chen, Yu Ding

机构: 同济大学 网易复兮人工智能实验室 河北农业大学 杭州电子科技大学计算机学院 Happy Elements

摘要: 面部表情分析仍然是一项具有挑战性的任务,因为存在意外的与任务无关的噪音,比如身份、头部姿势和背景等。为了解决这个问题,本文提出了一个名为Norface的新颖框架,该框架统一用于动作单元(AU)分析和面部情绪识别(FER)任务。Norface包括一个归一化网络和一个分类网络。首先,精心设计的归一化网络努力直接消除上述与任务无关的噪音,通过保持面部表情一致性,但将所有原始图像归一化为具有一致姿势和背景的共同身份。然后,这些额外的归一化图像被馈送到分类网络中。由于一致的身份和其他因素(如头部姿势、背景等),归一化图像使分类网络更有效地提取有用的表情信息。此外,分类网络结合了专家混合以优化潜在表示,包括处理面部表示的输入和多个(AU或情绪)标签的输出。大量实验证实了具有身份归一化洞察力的精心设计的框架。所提出的方法在多个面部表情分析任务中表现优于现有的SOTA方法,包括AU检测、AU强度估计和FER任务,以及它们的跨数据集任务。有关归一化数据集和代码,请访问{此https URL}。

论文链接: https://arxiv.org/abs/2407.15617

Github: https://norface-fea.github.io/

学习在任何地方进行操作:一种视觉通用框架用于强化学习

原标题: Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

作者: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu

机构: 清华大学 上海交通大学 香港大学 北京大学 上海奇智研究院 上海人工智能实验室

摘要: 我们能否赋予视觉运动机器人在各种开放式场景中操作的泛化能力?在本文中,我们提出了一种名为\textbf{Maniwhere}的通用框架,专为视觉强化学习而设计,使训练过的机器人策略能够在多种视觉干扰类型的组合中实现泛化。具体来说,我们引入了一种多视图表示学习方法,融合了空间变换网络(STN)模块,以捕获不同视角之间的共享语义信息和对应关系。此外,我们采用了基于课程的随机化和增强方法来稳定强化学习训练过程,并增强视觉泛化能力。为了展示Maniwhere的有效性,我们精心设计了8个任务,涵盖了关节对象、双手操作和灵巧手操作任务,展示了Maniwhere在3个硬件平台上的强大视觉泛化和从仿真到实际的转移能力。我们的实验表明,Maniwhere明显优于现有的最先进方法。视频请参见此网址。

论文链接: https://arxiv.org/abs/2407.15815

Github: https://gemcollector.github.io/maniwhere/

在区块链网络中使用强化学习进行可持续广播

原标题: Sustainable broadcasting in Blockchain Network with Reinforcement Learning

作者: Danila Valko, Daniel Kudenko

机构: L3S研究中心 汉诺威 德国

摘要: 最近的估计数据显示,比特币和以太坊的碳足迹平均分别为每年6400万吨和2600万吨二氧化碳。为了解决这一不断增长的问题,文献中提出了几种可能的方法:创建替代的区块链共识机制,应用冗余减少技术,利用可再生能源,采用节能设备等。在本文中,我们遵循第二种方法,提出了一种基于强化学习的高效方法,改进了区块链网络中的区块广播方案。分析和实验结果证实,所提出的区块传播方案的改进能够巧妙处理网络动态,并取得比默认方法更好的结果。此外,我们对模拟器和开发的强化学习环境的技术集成可用作进一步研究使用强化学习或其他机器学习技术的新方案和协议的完整解决方案。

论文链接: https://arxiv.org/abs/2407.15616

FMDNN:用于组织病理图像分类的模糊引导多粒度深度神经网络

原标题: FMDNN: A Fuzzy-guided Multi-granular Deep Neural Network for Histopathological Image Classification

作者: Weiping Ding, Tianyi Zhou, Jiashuang Huang, Shu Jiang, Tao Hou, Chin-Teng Lin

机构: IEEE 维平·丁、天一·周、嘉爽·黄、树江、涛侯、Chin-Teng Lin 所属的学校或企业为。

摘要: 组织病理学图像分类在计算机辅助诊断中占据着关键地位。对组织病理图像的精确识别和分类对于早期疾病检测和治疗至关重要。在病理学家的诊断过程中,通常采用多层次方法来评估不同放大倍数下细胞区域的异常情况。然而,特征提取通常在单一粒度上执行,忽视了细胞的多粒度特征。为解决这一问题,我们提出了模糊引导的多粒度深度神经网络(FMDNN)。受到病理学家多粒度诊断方法的启发,我们在粗粒度、中等粒度和细粒度上对细胞结构进行特征提取,使模型能够充分利用组织病理图像中的信息。我们结合模糊逻辑理论来解决多粒度特征提取过程中出现的冗余关键信息的挑战。利用多个模糊隶属函数从不同角度描述细胞特征,这些特征被融合以创建通用模糊特征。一个模糊引导的交叉注意力模块将通用模糊特征引导到多粒度特征上。我们通过编码器将这些特征传播到所有补丁标记,旨在实现增强的分类准确性和鲁棒性。在多个公共数据集上的实验中,我们的模型在组织病理图像分类方面的准确性显著优于常用的分类方法,并表现出令人满意的可解释性。

论文链接: https://arxiv.org/abs/2407.15312

一个利用成对比较关系辅助的多目标进化神经架构搜索方法,带有多种群机制

原标题: A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism

作者: Yu Xue, Chenchen Zhu, MengChu Zhou, Mohamed Wahib, Moncef Gabbouj

机构: IEEE Fellow, 电气和电子工程师协会院士, 电气和电子工程师协会院士

摘要: 神经架构搜索(NAS)使研究人员能够自动探索庞大的搜索空间并找到高效的神经网络。但NAS面临一个关键瓶颈,即在搜索过程中需要评估大量的架构,这需要大量的计算资源和时间。为了提高NAS的效率,提出了一系列方法来减少神经架构的评估时间。然而,它们的效率还不够,并且仍然只关注架构的准确性。除了分类准确性外,在实际应用中还需要更高效、更小的网络架构。为了解决上述问题,我们提出了SMEM-NAS,这是一种基于多种群机制的配对比较关系辅助多目标进化算法。在SMEM-NAS中,建立了一个基于配对比较关系的代理模型,用于预测架构的准确性排名,而不是绝对准确性。此外,在搜索过程中,两个种群相互合作,即一个主种群引导进化,而一个副种群扩展多样性。我们的方法旨在提供考虑多个优化目标的高性能模型。我们在CIFAR-10、CIFAR-100和ImageNet数据集上进行了一系列实验以验证其有效性。仅用一块GPU搜索0.17天,SMEM-NAS就能找到具有竞争力的架构,在ImageNet上的MAdds为570M,准确率达到78.91%。这项工作在NAS这一重要领域取得了重大进展。

论文链接: https://arxiv.org/abs/2407.15600

在微预算上从零开始进行扩散训练:每一美元的发挥最大效益

原标题: Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

作者: Vikash Sehwag, Xianghao Kong, Jingtao Li, Michael Spranger, Lingjuan Lyu

机构: 索尼人工智能 加州大学河滨分校

摘要: 随着生成式人工智能中的规模定律推动性能提升,也同时集中了这些模型的发展在拥有大量计算资源的参与者之间。专注于文本到图像(T2I)生成模型,我们旨在通过展示大规模T2I扩散Transformer模型的低成本训练来解决这一瓶颈。由于Transformer的计算成本随着每个图像中的补丁数量增加而增加,我们提议在训练过程中随机屏蔽高达75%的图像补丁。我们提出了一种延迟屏蔽策略,即在屏蔽之前使用补丁混合器对所有补丁进行预处理,从而显著减少了屏蔽带来的性能下降,使其在降低计算成本方面优于模型缩减。我们还结合了Transformer架构的最新改进,比如使用专家混合层,以提高性能,并进一步确认了在微预算训练中使用合成图像的关键好处。最后,我们仅使用了3700万个公开可用的真实和合成图像,用仅1890美元的经济成本训练了一个拥有116亿参数的稀疏Transformer,在COCO数据集的零样本生成中实现了12.7的FID。值得注意的是,我们的模型在产生具有竞争力的FID和高质量生成的同时,成本比稳定扩散模型低118倍,比当前的最先进方法低14倍,后者的成本为28400美元。我们旨在发布我们的端到端训练流程,进一步使大规模扩散模型在微预算上的训练民主化。

论文链接: https://arxiv.org/abs/2407.15811

CLIP与生成潜在回放:增量学习的强基线

原标题: CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

作者: Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara

机构: 摩德纳和雷焦艾米利亚大学

摘要: 随着Transformer和视觉-语言模型(VLMs)如CLIP的出现,大型预训练模型已经成为增强持续学习场景性能的常见策略。这导致了许多提示策略的发展,以有效地微调基于Transformer的模型,而不会陷入灾难性遗忘。然而,这些方法在专门化模型于与预训练显著偏离的领域并保留其零样本能力方面存在困难。在这项工作中,我们提出了一种用于减轻遗忘的增量提示学习的持续生成训练的新方法,这种方法利用生成重放来将提示与任务对齐,从而调整VLM。我们还引入了一个新的度量标准来评估CL基准中的零样本能力。通过在不同领域进行广泛实验,我们展示了我们的框架在适应新任务的同时改善零样本能力的有效性。进一步的分析表明,我们的方法可以弥合与联合提示调整的差距。代码库可在此https URL找到。

论文链接: https://arxiv.org/abs/2407.15793

Github: https://github.com/aimagelab/mammoth

离散流匹配

原标题: Discrete Flow Matching

作者: Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman

机构: Meta AI FAIR Weizmann Institute

摘要: 尽管流匹配和扩散模型已经成为针对连续变量(如图像和视频)的强大生成范式,但它们在高维离散数据(如语言)上的应用仍然有限。在这项工作中,我们提出了离散流匹配(Discrete Flow Matching),这是一种专门设计用于生成离散数据的新型离散流范式。离散流匹配提供了几个关键贡献:(i)它可以使用插值在源分布和目标分布之间工作的一般概率路径族;(ii)它允许使用学习后验概率(如概率去噪器( x x x-prediction)和噪声预测( ϵ \epsilon ϵ-prediction))从这些概率路径中采样的通用公式;(iii)在实践中,专注于使用不同调度器定义的特定概率路径,与先前的离散扩散和流模型相比,显著改善了生成困惑度;(iv)通过将离散流匹配模型扩展到17亿参数,我们在HumanEval上达到了6.7% Pass@1和13.4% Pass@10,在1-shot MBPP编码基准测试上达到了6.7% Pass@1和20.6% Pass@10。我们的方法能够以非自回归方式生成高质量的离散数据,显著缩小了自回归模型和离散流模型之间的差距。

论文链接: https://arxiv.org/abs/2407.15595

基于概念的可解释强化学习,使用有限或无人类标签

原标题: Concept-Based Interpretable Reinforcement Learning with Limited to No Human Labels

作者: Zhuorui Ye, Stephanie Milani, Geoffrey J. Gordon, Fei Fang

机构: 清华大学 卡内基梅隆大学

摘要: 最近强化学习(RL)方面的进展主要利用基于神经网络的策略进行决策,然而这些模型通常缺乏可解释性,给利益相关者的理解和信任带来挑战。概念瓶颈模型提供了一种可解释的替代方案,通过将人类可理解的概念整合到神经网络中。然而,先前工作中一个重要的局限性是假设在训练过程中这些概念的人类注释是readily available的,这需要持续实时地从人类注释者那里获取输入。为了克服这一限制,我们引入了一种新颖的训练方案,使得RL算法能够通过仅查询人类对少量数据进行标记,甚至在极端情况下,无需任何人类标签就能高效学习基于概念的策略。我们的算法LICORICE包括三个主要贡献:交替学习概念和RL训练,使用概念集合来主动选择信息量大的数据点进行标记,以及通过简单策略使概念数据去相关化。我们展示了LICORICE如何将手动标记工作减少到三个环境中的500个或更少的概念标签。最后,我们提出了一项初步研究,探讨如何利用强大的视觉-语言模型从原始视觉输入中推断概念,而无需显式标签,并且成本最小化对性能的影响。

论文链接: https://arxiv.org/abs/2407.15786

基于扩散模型的超可靠无线网络控制系统资源分配策略

原标题: Diffusion Model Based Resource Allocation Strategy in Ultra-Reliable Wireless Networked Control Systems

作者: Amirhassan Babazadeh Darabi, Sinem Coleri

机构: IEEE 通信信函,伊朗阿米尔哈桑巴巴扎德达拉比,IEEE学生会员,Sinem Coleri,IEEE会士

摘要: 扩散模型在生成式人工智能中被广泛使用,利用其捕捉复杂数据分布的能力。然而,在无线网络资源分配领域,它们的潜力仍然大部分未被探索。本文介绍了一种基于新颖扩散模型的资源分配策略,用于无线网络控制系统(WNCSs),其目标是通过优化控制系统中的采样周期、通信系统有限块长度区域中的块长度和数据包错误概率,从而最小化总功耗。该问题首先通过推导最优条件将其简化为仅基于块长度的优化。然后,优化理论解决方案收集了一组信道增益和相应的最优块长度的数据集。最后,去噪扩散概率模型(DDPM)利用这个收集的数据集来训练资源分配算法,生成基于信道状态信息(CSI)的最优块长度值。通过大量模拟,所提出的方法显示出比先前提出的基于深度强化学习(DRL)的方法更接近最优性能的总功耗。此外,观察到关键约束违规减少高达十八倍的改进,进一步强调了解决方案的准确性。

论文链接: https://arxiv.org/abs/2407.15784

利用多重三平面投影增强局部占用物体抓取

原标题: Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection

作者: Kangqi Ma, Hao Dong, Yadong Mu

机构: 北京大学

摘要: 这篇论文解决了机器人抓取一般物体的挑战。与先前的研究类似,该任务将由深度相机捕获的单视图3D观测(即点云)作为输入。关键是,成功地抓取物体高度依赖于对场景中物体形状的全面理解。然而,单视图观察往往受到遮挡的影响(包括自身和物体间的遮挡),这导致点云中存在缺口,尤其是在复杂混乱的场景中。这导致对物体形状的感知不完整,并经常在物体抓取过程中导致失败或姿态估计不准确。在本文中,我们通过一种有效但简单的解决方案来解决这个问题,即通过局部占用预测完成与抓取相关的场景区域。按照先前的做法,所提出的模型首先通过提出场景中一些最可能的抓取点来运行。在每个抓取点周围,设计了一个模块来推断其邻域中的任何体素是空的还是被某个物体占据。重要的是,占用地图是通过融合局部和全局线索来推断的。我们实现了一个多组三平面方案,以有效地聚合远距离的上下文信息。该模型进一步利用局部占用增强的物体形状信息估计6自由度抓取姿势,并返回排名最高的抓取建议。在大规模GraspNet-10亿基准数据集和真实机器人手臂上进行的全面实验表明,所提出的方法可以有效地完成混乱和遮挡场景中未观察到的部分。由于占用增强特征的好处,我们的模型在各种性能指标(如抓取平均精度)下明显优于其他竞争方法。

论文链接: https://arxiv.org/abs/2407.15771

利用图注意力网络进行大规模时变投资组合优化

原标题: Large-scale Time-Varying Portfolio Optimisation using Graph Attention Networks

作者: Kamesh Korangi, Christophe Mues, Cristián Bravo

机构: 南安普顿大学 商学院 决策分析与风险系
南安普顿大学 运筹研究、管理科学与信息系统中心
西安大略大学 统计与精算科学系

摘要: 除了评估单个资产的表现外,金融市场的投资者还需要考虑一组公司作为投资组合的整体表现。传统的基于马科维茨的均值-方差投资组合虽然广泛应用,但基于网络的优化技术已经建立在这些发展基础之上。然而,大多数研究不包含存在违约风险的公司,并且会移除任何在一定时间内从指数中退出的公司。这是第一项将存在风险的公司纳入并利用所有公司进行投资组合优化的研究。我们提出并在经验上测试了一种利用图注意力网络(GATs)的新方法,GATs是图神经网络(GNNs)的一个子类。作为基于深度学习的模型,GNNs可以利用网络数据揭示非线性关系。它们处理高维特征的能力以及为特定目的定制层的适应性使它们特别适用于大规模问题,如中小市值投资组合优化。本研究利用了30年的中小市值公司数据,利用距离相关性和三角最大过滤图方法创建公司的图形。这些图形是输入到一个GAT模型中的,我们使用自定义层进行训练,这些层施加了权重和分配约束,并使用从夏普比率导出的损失函数,从而直接最大化投资组合的风险调整回报。这个新模型与基于网络特征的投资组合、均值方差投资组合和等权重投资组合进行了基准比较。结果显示,基于GAT模型生成的投资组合胜过所有基准,并在长期内始终优于其他策略,同时也能够提供市场动态的信息。

论文链接: https://arxiv.org/abs/2407.15532

合成图像学习:保持性能并防止成员推断攻击

原标题: Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks

作者: Eugenio Lomurno, Matteo Matteucci

机构: 意大利米兰理工大学

摘要: 生成人工智能已经改变了合成数据的生成方式,为诸如医学等领域中的数据稀缺和隐私等挑战提供了创新解决方案。然而,有效利用这些合成数据来训练高性能模型仍然是一个重大挑战。本文通过引入知识回收(KR)来解决这一问题,这是一个旨在优化生成和使用合成数据来训练下游分类器的流程。在这一流程的核心是生成式知识蒸馏(GKD),这是一种提出的技术,通过合成数据集再生和软标记机制显著改善了提供给分类器的信息的质量和有用性。KR流程已在各种数据集上进行了测试,重点关注了六个高度异质的医学图像数据集,涵盖了从视网膜图像到器官扫描的范围。结果显示,在真实数据和合成数据上训练的模型之间的性能差距显著减小,有些情况下基于合成数据训练的模型表现优于基于真实数据训练的模型。此外,所得到的模型几乎完全免疫成员推断攻击,展现了传统技术训练的模型中缺失的隐私属性。

论文链接: https://arxiv.org/abs/2407.15526

在铀氧化物形态分析中进行模型编辑以适应分布偏移

原标题: Model editing for distribution shifts in uranium oxide morphological analysis

作者: Davis Brown, Cody Nizinski, Madelyn Shapiro, Corey Fallon, Tianzhixi Yin, Henry Kvinge, Jonathan H. Tu

机构: 太平洋西北国家实验室

摘要: 深度学习在处理某些类型的科学数据时仍然存在困难。特别是,预训练数据可能无法涵盖相关分布转移(例如,通过使用不同的测量仪器引起的转移)。我们考虑训练用于分类铀矿石浓缩物(UOCs)合成条件的深度学习模型,并展示模型编辑对于改善在该领域常见的分布转移的泛化特别有效。具体而言,模型编辑在两个精心策划的数据集上表现优于微观图像,这些图像是在湿度室中老化的 U 3 _{3} 3O 8 _{8} 8 和使用不同扫描电子显微镜获取的。

论文链接: https://arxiv.org/abs/2407.15756

TOM:一种可穿戴智能助手的开发平台

原标题: TOM: A Development Platform For Wearable Intelligent Assistants

作者: Nuwan Janaka, Shengdong Zhao, David Hsu, Sherisse Tan Jing Wen, Koh Chun Keat

机构: 新加坡国立大学 智能系统研究所 城市大学 香港

摘要: 先进的数字助手可以显著提升任务表现,减轻用户负担,并提供个性化指导以改善用户能力。然而,开发这种智能数字助手面临着巨大挑战。为了解决这个问题,我们介绍了TOM,一个概念架构和软件平台(此处链接)旨在支持开发智能可穿戴助手,这些助手在上下文中既了解用户又了解环境。该系统是与增强现实/混合现实研究人员、人机交互研究人员、人工智能/机器人研究人员和软件开发人员合作开发的,并且不断发展以满足这些利益相关者的多样化需求。TOM促进了智能辅助增强现实应用程序的创建,用于日常活动,并支持记录和分析用户互动,集成新设备以及为各种活动提供帮助。此外,我们展示了几种概念验证辅助服务,并讨论了开发此类服务涉及的挑战。

论文链接: https://arxiv.org/abs/2407.15523

Github: https://github.com/TOM-Platform

MoRSE:利用检索增强生成技术弥合网络安全专业知识差距

原标题: MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation

作者: Marco Simoni, Andrea Saracino, Vinod P., Mauro Conti

机构: 意大利国家研究委员会信息与远程通信研究所 Scuola Universitaria Superiore Sant’Anna 荷兰代尔夫特理工大学 帕多瓦大学

摘要: 在这篇论文中,我们介绍了 MoRSE(Mixture of RAGs Security Experts),这是第一个专门用于网络安全的 AI 聊天机器人。MoRSE旨在提供关于网络安全的全面和完整知识。MoRSE 使用两个 RAG(Retrieval Augmented Generation)系统,旨在从多维网络安全背景中检索和组织信息。MoRSE 与传统的 RAG 不同之处在于使用并行检索器,这些检索器共同工作以检索不同格式和结构中语义相关的信息。与依赖参数化知识库的传统大语言模型(LLMs)不同,MoRSE 根据用户查询从非参数化知识库中检索相关文档。随后,MoRSE 使用这些信息生成准确的答案。此外,MoRSE 受益于其知识库的实时更新,实现持续的知识丰富化而无需重新训练。我们已经对 MoRSE 与其他最先进的大语言模型进行了评估,在 600 个网络安全特定问题上评估了系统。实验评估显示,与 GPT-4 和 Mixtral 7x8 等已知解决方案相比,答案的相关性和正确性方面的改进超过了 10%。

论文链接: https://arxiv.org/abs/2407.15748

未来网络的未来:数字孪生方法在多信号管理中的应用

原标题: Future-Proofing Mobile Networks: A Digital Twin Approach to Multi-Signal Management

作者: Roberto Morabito, Bivek Pandey, Paulius Daubaris, Yasith R Wanigarathna, Sasu Tarkoma

机构: EURECOM University of Helsinki

摘要: 数字孪生(DTs)有望成为未来无线网络中的关键启用技术,它们在网络管理中的应用将显著增加。我们开发了一个数字孪生框架,利用网络接入技术的异质性作为增强网络性能和管理的资源,实现在物理网络中进行智能数据处理。在\textit{校园区域网络}环境中进行测试,我们的框架整合了多样的数据源,提供对网络性能和环境感知的实时、全面洞察。我们还设想传统分析将发展为依赖新兴的AI模型,如生成式人工智能(GenAI),同时利用当前的分析能力。这种能力可以通过先进的机器学习模型简化分析过程,实现描述性、诊断性、预测性和指导性分析的统一方式。最后,我们提出了关于互操作性方面的具体研究机会,并设想将数字孪生技术的进步与演进的AI整合相结合。

论文链接: https://arxiv.org/abs/2407.15520

在道路场景及其他领域的ODD(Out-of-Distribution Detection)中的扩散

原标题: Diffusion for Out-of-Distribution Detection on Road Scenes and Beyond

作者: Silvio Galesso, Philipp Schröppel, Hssan Driss, Thomas Brox

机构: 弗莱堡大学

摘要: 近年来,关于语义分割的超分布检测研究主要集中在道路场景上——这是一个具有受限语义多样性的领域。在这项工作中,我们挑战了这一限制,并将该任务的领域扩展到一般自然图像。为此,我们引入了:1. 基于ADE20k数据集的ADE-OoD基准,其中包括来自不同领域且具有高语义多样性的图像;2. 一种新颖方法,使用扩散分数匹配进行OoD检测(DOoD),并且对增加的语义多样性具有鲁棒性。ADE-OoD包含室内和室外图像,将150个语义类别定义为内部分布,并包含各种OoD对象。对于DOoD,我们在语义内部分布嵌入上训练了一个MLP架构的扩散模型,并建立在分数匹配解释上,在推断时计算逐像素的OoD分数。在常见的道路场景OoD基准上,DOoD的表现与最先进技术持平甚至更好,而无需使用异常值进行训练或对数据领域做出假设。在ADE-OoD上,DOoD优于先前的方法,但仍有很大的改进空间。

论文链接: https://arxiv.org/abs/2407.15739

提高模型对地球观测中缺失传感器的预测稳健性

原标题: Increasing the Robustness of Model Predictions to Missing Sensors in Earth Observation

作者: Francisco Mena, Diego Arenas, Andreas Dengel

机构: 凯撒斯劳滕-兰道大学 德国
德国人工智能研究中心

摘要: EO目标的多传感器机器学习模型旨在通过整合来自各种来源的数据来提高预测准确性。然而,缺失数据的存在构成了一个重要挑战,特别是对于可能受到外部因素影响的非持久性传感器。现有文献已经探讨了诸如时间丢失和传感器不变模型等策略,以解决缺失数据问题的泛化。受这些工作的启发,我们研究了两种针对多传感器场景量身定制的新方法,即输入传感器丢失(ISensD)和集成传感器不变(ESensI)。通过对三个多传感器时间EO数据集进行实验,我们证明了这些方法有效地提高了模型对缺失传感器的预测的稳健性。特别是,我们关注当传感器在不同水平上缺失时模型预测性能的下降情况。我们观察到,集成多传感器模型对于传感器缺失最为稳健。此外,ISensD中的传感器丢失组件显示出有希望的稳健性结果。

论文链接: https://arxiv.org/abs/2407.15512

使用全局采样的并行分割学习

原标题: Parallel Split Learning with Global Sampling

作者: Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush, Anke Schmeink

摘要: 物联网设备的扩展和深度学习的需求凸显了分布式深度学习(DDL)系统中的重大挑战。并行分割学习(PSL)已经成为分布式学习资源受限设备的一个有前途的分支,但是PSL面临一些障碍,比如大的有效批量大小、非独立同分布的数据分布和懈怠效应。我们将这些问题视为一个抽样困境,并提出通过在服务器端协调小批量抽样过程来解决这些问题。我们引入了均匀全局抽样(UGS)方法,将有效批量大小与客户端数量分离,并减少非独立同分布环境下的小批量偏差。为了解决懈怠效应,我们引入了潜在狄利克雷抽样(LDS)方法,该方法将UGS推广到在批量偏差和训练时间之间平衡权衡。我们的模拟结果显示,我们提出的方法在非独立同分布环境中可以将模型准确度提高高达34.1%,并且在存在懈怠者的情况下可以将训练时间减少高达62%。特别是,与UGS相比,LDS有效地减轻了懈怠效应,而不会影响模型准确度或增加显著的计算开销。我们的结果表明,我们的方法在实际应用中作为DDL的一个有前途的解决方案的潜力。

论文链接: https://arxiv.org/abs/2407.15738

在上下文学习中提高视觉-语言模型的组合理解

原标题: In-Context Learning Improves Compositional Understanding of Vision-Language Models

作者: Matteo Nulli, Anesa Ibrahimi, Avik Pal, Hoshe Lee, Ivona Najdenkoska

摘要: 视觉语言模型(VLMs)在大量下游任务中展现出了显著的能力。然而,由于训练数据中存在的对象偏见,构成性图像理解仍然是一项相当困难的任务。在这项工作中,我们通过对VLMs中构成理解的广泛基准测试,调查了这种能力缺乏的原因。我们比较了对比模型和生成模型,并分析了它们在架构、预训练数据、训练任务和损失方面的差异。此外,我们利用上下文学习(ICL)作为一种提高VLMs能力的方式,以便在给定图像的情况下执行更复杂的推理和理解。我们的广泛实验表明,我们提出的方法在多个构成理解数据集上优于基准模型。

论文链接: https://arxiv.org/abs/2407.15487

一个多层次协作方法用于验证和验证自主机器人群。

原标题: A Multi-Level Corroborative Approach for Verification and Validation of Autonomous Robotic Swarms

作者: Dhaminda B. Abeywickrama, Suet Lee, Chris Bennett, Razanne Abu-Aisheh, Tom Didiot-Cook, Simon Jones, Sabine Hauert, Kerstin Eder

机构: University of Bristol

摘要: 在群体内部对新兴行为进行建模和表征可能在“保证”方面存在重大挑战。保证任务包括遵守标准、认证流程以及执行验证和验证(V&V)方法,如模型检查。在这项研究中,我们提出了一种全面的、多层次的建模方法,用于正式验证和验证自主机器人群,这些群在宏观正式建模、低保真度模拟、高保真度模拟和真实机器人水平上进行定义。我们用于验证的正式宏观模型以从实际模拟中得出的数据为特征,确保在不同系统模型之间的准确性和可追溯性。此外,我们的工作将正式验证与涉及真实机器人的实验验证相结合。通过这种方式,我们的验证方法旨在增强对证据的信心,与单独使用这些方法形成对比。我们通过一个案例研究探讨了我们的方法,重点关注在公共衣帽间内运行的一群机器人。

论文链接: https://arxiv.org/abs/2407.15475

在文本属性图上进行少样本节点分类的预训练和提示

原标题: Pre-Training and Prompting for Few-Shot Node Classification on Text-Attributed Graphs

作者: Huanjing Zhao, Beining Yang, Yukuo Cen, Junyu Ren, Chenhui Zhang, Yuxiao Dong, Evgeny Kharlamov, Shu Zhao, Jie Tang

机构: 清华大学 University of Edinburgh Zhipu AI Bosch人工智能中心 Anhui大学

摘要: 文本属性图(TAG)是一种重要的现实世界图结构数据,每个节点都关联着原始文本。对于TAGs,传统的少样本节点分类方法直接在预处理后的节点特征上进行训练,不考虑原始文本。性能高度依赖于特征预处理方法的选择。本文提出了P2TAG,这是一个专为TAG上的少样本节点分类设计的框架,具有图预训练和提示功能。P2TAG首先在TAGs上使用自监督损失对语言模型(LM)和图神经网络(GNN)进行预训练。为充分利用语言模型的能力,我们为我们的框架调整了掩码语言建模目标。预训练模型然后用于少样本节点分类,采用混合提示方法,同时考虑文本和图信息。我们在六个真实世界的TAG上进行实验,包括论文引用网络和产品共购网络。实验结果表明,我们提出的框架在这些数据集上优于现有的图少样本学习方法,改进了+18.98% ~ +35.98%。

论文链接: https://arxiv.org/abs/2407.15431

解码 BACnet 数据包:一种大语言模型方法用于数据包解释

原标题: Decoding BACnet Packets: A Large Language Model Approach for Packet Interpretation

作者: Rashi Sharma, Hiroyuki Okada, Tatsumi Oba, Karthikk Subramanian, Naoto Yanai, Sugiri Pranata

机构: 松下公司 新加坡研发中心 松下控股公司

摘要: 工业控制系统(ICS)环境涵盖了各种复杂的通信协议,给安全运营中心(SOC)分析师带来了重大挑战,他们的任务是监视、解释和处理网络活动和安全事件。传统的监控工具和技术通常难以清晰理解ICS特定通信的性质和意图。为了增强理解能力,我们提出了一种由大语言模型(LLM)驱动的软件解决方案。该解决方案目前专注于BACnet协议,通过使用映射数据库和用于检索增强生成(RAG)的当代上下文检索方法,处理数据包文件数据并提取上下文。处理后的数据包信息,结合提取的上下文,作为LLM的输入,为用户生成简洁的数据包文件摘要。该软件提供了清晰、连贯且易于理解的网络活动摘要,使SOC分析师能够更好地评估控制系统的当前状态。

论文链接: https://arxiv.org/abs/2407.15428

YOLO-pdd:一种新颖的利用深度表示和序列图像的多尺度 PCB 缺陷检测方法

原标题: YOLO-pdd: A Novel Multi-scale PCB Defect Detection Method Using Deep Representations with Sequential Images

作者: Bowen Liu, Dongjie Chen, Xiao Qi

机构: 南安普顿大学 中国科学院大学 中国电子标准化研究院

摘要: 随着PCB制造行业的快速增长,对计算机视觉检测以在生产过程中检测缺陷的需求不断增加。提高PCB缺陷检测模型的准确性和泛化能力仍然是一个重大挑战。本文提出了一种基于深度卷积神经网络(CNN)的高精度、稳健且实时的端到端PCB缺陷检测方法。传统方法通常存在准确性低和适用性有限的问题。我们提出了一种新颖的方法,结合了YOLOv5和多尺度模块,用于分层残差连接。在PCB缺陷检测中,噪声可能会混淆背景和小目标。YOLOv5模型以其实时处理和准确的目标检测能力为基础提供了坚实的基础。多尺度模块通过在单个块内结合分层残差连接,扩展了传统方法,实现了多尺度特征提取。这个即插即用的模块通过在多个尺度和层次提取特征,显著提高了性能,有助于识别不同大小和复杂度的缺陷。我们的多尺度架构将特征提取、缺陷定位和分类集成到一个统一的网络中。在大规模PCB数据集上的实验证明,与现有方法相比,在精度、召回率和F1分数方面取得了显著改进。这项工作推动了PCB缺陷检测的计算机视觉检测,为PCB制造行业提供了一种可靠的解决方案,实现了高精度、稳健、实时和领域自适应的缺陷检测。

论文链接: https://arxiv.org/abs/2407.15427

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值