2024年7月23日Arxi人工智能相关论文

关于部分可观测性下的浅层规划

原标题: On shallow planning under partial observability

作者: Randy Lefebvre, Audrey Durand

机构: 加拿大 CIFAR AI 计划Université Laval

摘要: 在强化学习框架下制定一个现实世界的问题涉及到一些非平凡的设计选择,比如选择一个折现因子用于学习目标(折现累积奖励),这个因子表达了智能体的规划视野。本研究调查了折现因子对偏差-方差权衡的影响,考虑了底层马尔可夫决策过程的结构参数。我们的结果支持一个更短的规划视野可能是有益的,尤其是在部分可观测性下。

论文链接: https://arxiv.org/abs/2407.15820

GFE-Mamba:基于 Mamba 的 AD 多模态进展评估,通过从 MCI 中生成特征提取

原标题: GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

作者: Zhaojie Fang, Shenghao Zhu, Yifei Chen, Binfeng Zou, Fan Jia, Linwei Qiu, Chang Liu, Yiyu Huang, Xiang Feng, Feiwei Qin, Changmiao Wang, Yeru Wang, Jin Fan, Changbiao Chu, Wan-Zhen Wu, Hu Zhao

机构: 杭州电子科技大学 北京航空航天大学 深圳大数据研究院 首都医科大学宣武医院 中山大学中山医学院 浙江医院

摘要: 阿尔茨海默病(AD)是一种不可逆的神经退行性疾病,通常从轻度认知障碍(MCI)发展而来,导致记忆丧失并严重影响患者的生活。临床试验表明,针对MCI患者的早期有针对性干预可能能够减缓或停止AD的发展和进展。先前的研究表明,准确的医学分类需要包括广泛的多模态数据,如评估量表和各种神经影像技术,如磁共振成像(MRI)和正电子发射断层扫描(PET)。然而,持续跟踪同一个体的诊断并同时收集多模态数据存在重大挑战。为解决这一问题,我们引入了基于生成特征提取(GFE)的分类器GFE-Mamba。该分类器有效地整合了来自评估量表、MRI和PET的数据,实现了更深层次的多模态融合。它能够高效地提取长序列和短序列信息,并将像素空间以外的额外信息纳入考虑。这种方法不仅提高了分类准确性,还增强了模型的可解释性和稳定性。我们基于阿尔茨海默病神经影像学倡议(ADNI)构建了超过3000个样本的数据集,进行了两步训练过程。我们的实验结果表明,GFE-Mamba模型在预测从MCI到AD的转变方面是有效的,并且优于几种最先进的方法。我们的源代码和ADNI数据集处理代码可在此https网址获取。

论文链接: https://arxiv.org/abs/2407.15719

Github: https://github.com/Tinysqua/GFE-Mamba

将IP广播与音频标签集成-工作流程和挑战

原标题: Integrating IP Broadcasting with Audio Tags- Workflow and Challenges

作者: Rhys Burchett-Vass, Arshdeep Singh, Gabriel Bibbó, Mark D. Plumbley

机构: 萨里大学

摘要: 广播行业越来越多地采用IP技术,彻底改变了从新闻采集到现场音乐活动等直播和预录内容制作的方式。IP广播允许以一种易于配置的方式传输音频和视频信号,与现代网络技术相一致。这种向IP工作流的转变不仅在信号路由方面提供了更大的灵活性,还可以集成使用标准的Web开发技术的工具。一个可能的工具包括使用实时音频标记,它在内容制作中有多种用途。这些用途包括自动闭路字幕到识别场景中不需要的声音事件。在本文中,我们描述了将音频标记模型容器化为微服务的过程,这是一个小型的隔离代码模块,可以集成到多种不同的网络设置中。目标是开发一个模块化、易访问和灵活的工具,能够无缝部署到各种规模的广播工作流中,从小型制作到大型公司。讨论了围绕所选音频标记模型的延迟及其对最终产品有用性的影响的挑战。

论文链接: https://arxiv.org/abs/2407.15423

在 ML 模型中解释决策:一个参数化复杂性分析

原标题: Explaining Decisions in ML Models: a Parameterized Complexity Analysis

作者: Sebastian Ordyniak, Giacomo Paesani, Mateusz Rychlicki, Stefan Szeider

摘要: 这篇论文对各种机器学习(ML)模型中解释问题的参数化复杂性进行了全面的理论研究。与普遍的黑盒子观念相反,我们的研究侧重于具有透明内部机制的模型。我们讨论了两种主要类型的解释问题:归纳和对比,分别在它们的局部和全局变体中。我们的分析涵盖了各种ML模型,包括决策树、决策集、决策列表、有序二进制决策图、随机森林和布尔电路,以及它们的集成,每种模型都提供独特的解释挑战。这项研究填补了可解释AI(XAI)领域的重要空白,通过对这些模型生成解释的复杂性提供了基础性理解。这项工作提供了对XAI领域进一步研究至关重要的见解,有助于更广泛地讨论AI系统透明度和问责制的必要性。

论文链接: https://arxiv.org/abs/2407.15780

在一个玩推箱子游戏的循环神经网络中规划行为

原标题: Planning behavior in a recurrent neural network that plays Sokoban

作者: Adrià Garriga-Alonso, Mohammad Taufeeque, Adam Gleave

摘要: 为了预测先进的神经网络如何推广到新颖情况,了解它们的推理方式至关重要。Guez等人(2019年,《无模型规划的研究》)使用无模型强化学习训练了一个循环神经网络(RNN)来玩推箱子游戏。他们发现,在测试时在每个剧集的开始添加额外的计算步骤可以提高RNN的成功率。我们进一步调查了这一现象,发现它在训练初期迅速出现,然后慢慢消退,但仅适用于相对较容易的关卡。RNN在剧集开始时经常采取多余的动作,通过添加额外的计算步骤可以减少这些动作。我们的结果表明,尽管每步惩罚,RNN通过“节奏”学会花时间思考,表明训练激励了规划能力。这个模型的小尺寸(1.29M参数)和有趣的行为使其成为机械解释性的优秀模型生物。

论文链接: https://arxiv.org/abs/2407.15421

TaskGen:使用StrictJSON的基于任务、记忆注入的智能体框架

原标题: TaskGen: A Task-Based, Memory-Infused Agentic Framework using StrictJSON

作者: John Chong Min Tan, Prince Saroj, Bharat Runwal, Hardik Maheshwari, Brian Lim Yi Sheng, Richard Cottrill, Alankrit Chona, Ambuj Kumar, Mehul Motani

机构: 新加坡国立大学 ETH苏黎世中心 Simbian AI TPG公司 澳大利亚 国立大学 新加坡

摘要: TaskGen是一个开源的智能框架,它使用一个智能体来将任意任务分解为子任务进行解决。每个子任务都映射到一个配备功能或另一个智能体来执行。为了减少冗余(从而减少标记使用),TaskGen使用StrictJSON来确保从大语言模型(LLM)输出JSON,同时具有诸如类型检查和迭代错误校正等附加功能。TaskGen哲学的关键是根据需求管理信息/记忆。我们在各种环境中对TaskGen进行了实证评估,如带有不断变化的障碍位置的40x40动态迷宫导航(100%解决率),TextWorld逃生室解决方案具有丰富奖励和详细目标(96%解决率),网页浏览(69%的操作成功),解决MATH数据集(100个Level-5问题的71%解决率),在NaturalQuestions数据集上进行检索增强生成(F1得分为47.03%)。

论文链接: https://arxiv.org/abs/2407.15734

自动化道路安全:利用人工智能增强标志和路面损坏检测

原标题: Automated Road Safety: Enhancing Sign and Surface Damage Detection with AI

作者: Davide Merolla, Vittorio Latorre, Antonio Salis, Gianluca Boanelli

机构: Università degli Studi del Molise Tiscali Italia S.p.A.

摘要: 公共交通在我们的生活中扮演着至关重要的角色,道路网络是智慧城市实施中的重要组成部分。人工智能的最新进展使得能够开发先进的监测系统,能够检测道路表面和道路标志的异常,如果不加以解决,可能导致严重的道路事故。本文提出了一种创新方法,通过使用先进的深度学习技术来增强道路安全,检测和分类交通标志和道路表面损坏。这种综合方法支持积极的维护策略,改善莫利塞大区和坎波巴索市的道路安全和资源分配。由意大利经济增长部(MIMIT)资助的莫利塞紧急技术之家(Molise CTE)研究项目的一部分,开发的结果系统利用云计算和GPU利用率高性能计算等尖端技术。它作为一个对市政当局有价值的工具,能够快速检测异常并及时组织维护操作。

论文链接: https://arxiv.org/abs/2407.15406

蟒蛇遇到裂缝分割

原标题: Mamba meets crack segmentation

作者: Zhili He, Yu-Hsing Wang

机构: 香港科技大学

摘要: 裂缝对基础设施构成安全风险,不容忽视。现有裂缝分割网络中主要采用CNN或Transformer结构。然而,CNN在全局建模能力上存在不足,阻碍了对整个裂缝特征的表征。Transformer能够捕捉长距离依赖关系,但受到高复杂度和二次复杂度的困扰。最近,Mamba因其线性空间和计算复杂度以及强大的全局感知能力而受到广泛关注。本研究探讨了Mamba对裂缝特征的表征能力。具体而言,本文揭示了Mamba与注意力机制之间的联系,提供了对Mamba的深刻洞察,即注意力视角,用于解释Mamba并设计一个遵循注意力块原则的新型Mamba模块,即CrackMamba。我们将CrackMamba与最突出的视觉Mamba模块Vim和Vmamba在包括沥青路面和混凝土路面裂缝以及钢裂缝的两个数据集上进行比较。定量结果显示,CrackMamba作为唯一一种始终提升基准模型性能的Mamba块,在所有评估指标上表现出色,同时减少了参数和计算成本。此外,本文证实了Mamba可以通过理论分析和视觉可解释性实现全局感知域。本研究的发现提供了双重贡献。首先,作为一种即插即用且简单而有效的Mamba模块,CrackMamba展现出融入各种裂缝分割模型的巨大潜力。其次,提出的创新Mamba设计概念,将Mamba与注意力机制结合,对所有基于Mamba的计算机视觉模型具有重要的参考价值,不仅限于本研究中所调查的裂缝分割网络。

论文链接: https://arxiv.org/abs/2407.15714

人工智能中的问题,它们在哲学中的根源,以及对科学和社会的影响。

原标题: Problems in AI, their roots in philosophy, and implications for science and society

作者: Max Velthoven, Eric Marcus

机构: 安永,阿姆斯特丹,荷兰大学 阿姆斯特丹法学院,荷兰阿姆斯特丹大学 AI用于肿瘤学,荷兰癌症研究所,阿姆斯特丹,荷兰荷兰阿姆斯特丹大学信息学院,阿姆斯特丹,荷兰

摘要: 人工智能(AI)是当今最相关的新兴技术之一。鉴此,本文提出应更加关注人工智能技术及其应用的哲学方面。文章认为,这种不足通常与关于知识增长的哲学误解相结合。为了识别这些误解,参考了科学哲学家卡尔·波普尔和物理学家大卫·迪奥特的思想。这两位思想家的作品旨在反对关于知识的错误理论,比如归纳主义、经验主义和工具主义。本文表明,这些理论与当前人工智能技术的运作方式存在相似之处。同时也指出,这些理论在关于人工智能的(公众)讨论中仍然存在,通常被称为贝叶斯主义。与波普尔和迪奥特一脉相承,本文提出所有这些理论都基于错误的知识哲学。这包括分析这些错误哲学对人工智能在科学和社会中的应用的影响,包括一些可能出现的问题情况。最后,本文对通用人工智能(AGI)提供了一个现实的展望,并提出了关于人工智能和哲学(即认识论)的三个命题。

论文链接: https://arxiv.org/abs/2407.15671

离线模仿学习通过图搜索和检索

原标题: Offline Imitation Learning Through Graph Search and Retrieval

作者: Zhao-Heng Yin, Pieter Abbeel

机构: 加州大学伯克利分校 EECS

摘要: 模仿学习是一种强大的机器学习算法,用于机器人获取操作技能。然而,许多现实世界的操作任务涉及精确和灵巧的机器人-物体交互,这使得人类难以收集高质量的专家演示。因此,机器人必须从次优演示和非结构化交互中学习技能,这仍然是一个关键挑战。现有的工作通常使用离线深度强化学习(RL)来解决这一挑战,但在实践中,这些算法由于致命三重问题而不稳定且脆弱。为了克服这个问题,我们提出了GSR,这是一种简单而有效的算法,通过图搜索和检索从次优演示中学习。我们首先使用预训练表示将交互经验组织成图,并执行图搜索来计算不同行为的值。然后,我们应用基于检索的程序来识别每个状态上的最佳行为(动作),并使用行为克隆来学习该行为。我们在模拟和真实世界的机器人操作任务中评估了我们的方法,涵盖了具有不同物理属性的物体的各种精确和灵巧的操作技能。与基线相比,GSR的成功率可以提高10%到30%,熟练度提高超过30%。我们的项目页面位于此https URL。

论文链接: https://arxiv.org/abs/2407.15403

Github: https://zhaohengyin.github.io/gsr

SwinSF:从时空脉冲流进行图像重建

原标题: SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams

作者: Liangyan Jiang, Chuang Zhu, Yanxu Chen

机构: 北京邮电大学

摘要: 具有高时间分辨率、低延迟和高动态范围的尖峰相机解决了像运动模糊这样的高速成像挑战。它独立地在每个像素处捕获光子,创建了丰富的时间信息但对图像重建具有挑战性的二进制尖峰流。当前的算法,无论是传统的还是基于深度学习的,仍然需要在利用丰富的时间细节和恢复重建图像的细节方面进行改进。为了克服这一问题,我们引入了Swin Spikeformer(SwinSF),这是一个用于从尖峰流中重建动态场景的新型模型。SwinSF由尖峰特征提取、时空特征提取和最终重建模块组成。它结合了平移窗口自注意力和提出的时间尖峰注意力,确保了全面的特征提取,包括了空间和时间动态,从而实现了对尖峰流更稳健和准确的重建。此外,我们构建了一个新的合成数据集,用于尖峰图像重建,与最新尖峰相机的分辨率匹配,确保其与尖峰相机成像的最新发展相关和适用。实验结果表明,所提出的网络SwinSF建立了一个新的基准,实现了在一系列数据集上的最先进性能,包括了跨多种分辨率的真实世界和合成数据。我们的代码和提出的数据集将很快提供。

论文链接: https://arxiv.org/abs/2407.15708

可解释的基于概念的记忆推理

原标题: Interpretable Concept-Based Memory Reasoning

作者: David Debot (Department of Computer Science, KU Leuven), Pietro Barbiero (Università della Svizzera Italiana and University of Cambridge), Francesco Giannini (Faculty of Sciences, Scuola Normale Superiore, Pisa), Gabriele Ciravegna (Department of Control and Computer Engineering, Politecnico di Torino), Michelangelo Diligenti (Università di Siena), Giuseppe Marra (Department of Computer Science, KU Leuven)

摘要: 深度学习系统决策过程缺乏透明度在现代人工智能(AI)中构成重大挑战,因为这会削弱用户依赖和验证这些系统的能力。为了解决这一挑战,概念瓶颈模型(CBMs)通过将人类可解释概念纳入深度学习架构中取得了重大进展。这种方法允许预测追溯到用户可以理解并可能干预的特定概念模式。然而,现有CBMs的任务预测器并非完全可解释,这妨碍了在部署之前对其决策过程进行彻底分析和任何形式的形式验证,从而引发了重大的可靠性问题。为了弥补这一差距,我们引入了基于概念的记忆推理器(CMR),这是一种旨在提供人类可理解且可证明验证的任务预测过程的新型CBM。我们的方法是将每个任务预测建模为可学习逻辑规则内存上的神经选择机制,然后对所选规则进行符号评估。显式内存和符号评估的存在使领域专家能够检查和正式验证与任务预测过程中感兴趣的某些全局属性的有效性。实验结果表明,CMR在准确性和可解释性的权衡方面与最先进的CBMs相当,发现与基本事实一致的逻辑规则,允许规则干预,并允许部署前验证。

论文链接: https://arxiv.org/abs/2407.15527

在联邦学习中解决自私客户问题

原标题: Tackling Selfish Clients in Federated Learning

作者: Andrea Augello, Ashish Gupta, Giuseppe Lo Re, Sajal K. Das

机构: 帕勒莫大学 密苏里科技大学 比兹-比拉尼大学 迪拜

摘要: 联邦学习(FL)是一种分布式机器学习范式,使参与者能够在不泄露本地数据的情况下协作训练模型。然而,当FL部署到实际环境中时,一些聪明的客户端可能会故意偏离标准训练过程,使全局模型倾向于他们的本地模型,从而优先考虑他们的本地数据分布。我们将这种新颖的不端行为客户端类别称为自私。在本文中,我们提出了一种用于FL服务器的Robust聚合策略,以减轻自私行为的影响(简称RFL-Self)。RFL-Self结合了一种创新方法,从接收到的自私客户端的更新中恢复(或估计)真实更新,利用每一轮更新的鲁棒统计量(更新的范数中位数)。通过将恢复的更新包含在聚合中,我们的策略提供了强大的抵抗自私行为的鲁棒性。我们在MNIST和CIFAR-10数据集上获得的实验结果表明,仅有2%的表现自私的客户端就能使准确性下降高达36%,而RFL-Self可以减轻这种影响而不降低全局模型的性能。

论文链接: https://arxiv.org/abs/2407.15402

代数反一致化

原标题: Algebraic anti-unification

作者: Christian Antić

机构: 维也纳理工大学

摘要: 抽象是人类和人工智能的关键,因为它使人们能够看到本质上不同的对象或情况中的共同结构,因此它是人工智能中通用性的关键要素。反统一(或泛化)是理论计算机科学和人工智能研究抽象的一部分。它已成功应用于各种与人工智能相关的问题,最重要的是归纳逻辑编程。迄今为止,文献中只从句法角度研究了反统一。本文的目的是在一般代数中启动反统一的代数(即语义)理论。这是受最近对相似性和类比比例的应用的启发。

论文链接: https://arxiv.org/abs/2407.15510

预测N个视觉跟踪器中的最佳者

原标题: Predicting the Best of N Visual Trackers

作者: Basit Alawode, Sajid Javed, Arif Mahmood, Jiri Matas

机构: IEEE CS Member

摘要: 我们观察到,当前最先进的视觉跟踪器在不同的视频属性和数据集上表现出惊人的差异。没有单个跟踪器在所有跟踪属性和数据集上都表现最佳。为了弥合这一差距,对于给定的视频序列,我们预测“N个最佳跟踪器”,称为BofN元跟踪器。在其核心,跟踪性能预测网络(TP2N)仅使用少量初始帧为给定的视频序列选择预测的最佳表现视觉跟踪器。我们还引入了一个基于帧级别的BofN元跟踪器,它在常规时间间隔后继续预测最佳表现者。TP2N基于自监督学习架构MocoV2、SwAv、BT和DINO;实验表明,以ViT-S为骨干的DINO表现最佳。视频级别的BofN元跟踪器在九个标准基准测试-LaSOT、TrackingNet、GOT-10K、VOT2019、VOT2021、VOT2022、UAV123、OTB100和WebUAV-3M上的表现大大优于现有的最先进跟踪器。通过帧级别的BofN元跟踪器有效处理长序列中跟踪场景的变化,进一步提高了性能。例如,在GOT-10k上,BofN元跟踪器的平均重叠率分别为88.7%和91.1%,视频和帧级设置。最佳表现的跟踪器RTS实现了85.20%的AO。在VOT2022上,BofN预期的平均重叠率分别为67.88%和70.98%,与视频和帧级设置相比,最佳表现的ARTrack为64.12%。本文还对所有常用基准测试中竞争性跟踪方法进行了广泛评估,遵循它们的协议。代码、训练模型和结果将很快在此 https URL 上公开。

论文链接: https://arxiv.org/abs/2407.15707

Github: https://github.com/BasitAlawode/Best_of_N_Trackers

一个面向6G启用的IoV的终身学习入侵检测系统

原标题: A Life-long Learning Intrusion Detection System for 6G-Enabled IoV

作者: Abdelaziz Amara korba, Souad Sebaa, Malik Mabrouki, Yacine Ghamri-Doudane, Karima Benatchba

机构: 阿卜杜勒-阿齐兹·阿马拉科尔巴2,3,苏阿德·塞巴1,马利克·马布鲁基1,亚辛·甘里-杜丹3和卡里玛·贝纳奇巴1
阿尔及利亚信息技术高等学校,阿尔及利亚 巴吉穆赫塔尔安纳巴大学,阿尔及利亚 拉罗谢尔大学,法国

摘要: 将6G技术引入车联网(IoV)将在连接性方面带来革命性变革,具有超高数据传输速率和无缝网络覆盖。然而,这一技术飞跃也带来了重大挑战,特别是对于动态多样的IoV领域,必须满足6G网络严格的可靠性和安全性要求。此外,整合6G技术可能会增加IoV对各种新兴网络威胁的敏感性。因此,安全机制动态适应并学习新的攻击模式至关重要,以跟上这些威胁的快速演变和多样化,而这是现有系统目前缺乏的能力。本文提出了一种利用终身(或持续)学习范式的新型入侵检测系统。我们的方法结合了类增量学习和联邦学习,这种方法非常适合IoV的分布式特性。该策略有效地利用了互联和自动驾驶车辆(CAVs)以及边缘计算能力的集体智慧来训练检测系统。据我们所知,这项研究是首次将类增量学习与联邦学习相结合,专门用于网络攻击检测。通过对最近的网络流量数据集进行全面实验,我们的系统展现出了学习新的网络攻击模式的强大适应能力,同时有效地保留了先前遇到的知识。此外,它已被证明能够保持高准确性和低误报率。

论文链接: https://arxiv.org/abs/2407.15700

奥德赛:赋予智能体开放世界技能

原标题: Odyssey: Empowering Agents with Open-World Skills

作者: Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song

机构: 浙江大学 杭州城市大学

摘要: 最近的研究已经深入探讨了为Minecraft等开放世界实体环境构建通用智能体。尽管结果令人鼓舞,但现有的努力主要集中在解决基本的程序任务,例如按照Minecraft技术树进行材料收集和工具制作,将获取钻石的任务视为最终目标。这种局限性源自智能体可用行动的狭窄定义,要求它们从零开始学习有效的长期策略。因此,在开放世界中发现多样化的游戏机会变得具有挑战性。在这项工作中,我们介绍了ODYSSEY,这是一个新框架,它赋予基于大语言模型(LLM)的智能体开放世界技能,以探索广阔的Minecraft世界。ODYSSEY包括三个关键部分:(1)一个交互式智能体,具有包含40个基本技能和183个组合技能的开放世界技能库。 (2)一个在大型问答数据集上进行微调的LLaMA-3模型,该数据集包含来自Minecraft Wiki的390,000多个指令条目。 (3)一个新的开放世界基准包括数千个长期规划任务,数十个动态即时规划任务和一个自主探索任务。大量实验证明了提出的ODYSSEY框架可以有效评估智能体的规划和探索能力。所有数据集、模型权重和代码都可以公开获取,以激励未来研究更先进的自主智能体解决方案。

论文链接: https://arxiv.org/abs/2407.15325

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值