将AI权利法案蓝图的操作化:针对从业者、研究人员和政策制定者的建议
原标题: Operationalizing the Blueprint for an AI Bill of Rights: Recommendations for Practitioners, Researchers, and Policy Makers
作者: Alex Oesterling, Usha Bhalla, Suresh Venkatasubramanian, Himabindu Lakkaraju
机构: 哈佛大学 工程与应用科学学院 布朗大学
摘要: 随着人工智能(AI)工具在各种现实应用中的日益广泛应用,对规范这些工具产生了重大兴趣。为此,世界各国相继引入了几种监管框架。例如,欧盟最近通过了《AI法案》,白宫发布了关于安全、可靠的AI的行政命令,白宫科学技术政策办公室发布了《AI权利法案蓝图》(AI BoR)。许多这些框架强调了审计和改进AI工具的可信度的必要性,强调了安全、隐私、可解释性、公平性和人类备用选项的重要性。尽管这些监管框架强调了执法的必要性,但从业者通常缺乏有关实施这些框架的详细指导。此外,关于操作化每个方面的广泛研究通常被埋在从业者难以解读的技术论文中。在本文中,我们通过提供与操作化监管原则相关的现有文献的易于理解的概述来解决这一缺陷。我们提供了最新文献的易于理解的摘要,并突出了监管指南与现有AI研究之间存在的各种差距,包括在操作化过程中出现的权衡。我们希望这项工作不仅能为有兴趣了解如何操作化《AI权利法案蓝图》中概述的监管指南的从业者提供一个起点,还能为研究人员提供一个关于监管和最新AI研究之间关键开放问题和差距的清单。最后,我们指出这是一份工作论文,欢迎根据介绍中描述的本文目的提供反馈。
论文链接: https://arxiv.org/abs/2407.08689
基于潜在条件扩散的连续时间动态图模型数据增强
原标题: Latent Conditional Diffusion-based Data Augmentation for Continuous-Time Dynamic Graph Mode
作者: Yuxing Tian, Yiyan Qi, Aiwen Jiang, Qi Huang, Jian Guo
机构: 国际数字经济学院IDEA研究(深圳,中国) 江西师范大学(南昌,中国)
摘要: 连续时间动态图(CTDG)精确地模拟了不断发展的现实世界关系,引起了学术界和工业界对动态图学习的高度关注。然而,现有的CTDG模型面临来自噪声和有限历史数据的挑战。图数据增强(GDA)出现作为一个关键解决方案,然而当前方法主要集中在静态图上,并且难以有效地解决CTDG中固有的动态性。此外,这些方法通常需要大量领域专业知识进行参数调整,并且缺乏增强效果的理论保证。为了解决这些问题,我们提出了Conda,这是一种专为CTDG量身定制的基于潜在扩散的GDA方法。Conda具有类似三明治的架构,结合了变分自动编码器(VAE)和条件扩散模型,旨在为目标节点生成增强的历史邻居嵌入。与传统的扩散模型通过预训练在整个图上进行训练不同,Conda需要目标节点的历史邻居序列嵌入进行训练,从而促进更有针对性的增强。我们将Conda集成到CTDG模型中,并采用交替训练策略来优化性能。在六个广泛使用的真实世界数据集上进行的大量实验展示了我们方法的一致性性能改进,特别是在有限历史数据的情况下。
论文链接: https://arxiv.org/abs/2407.08500
CAD引导的生成模型:通往可行和新颖工程设计的路径
原标题: CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs
作者: Leah Chong, Jude Rayan, Steven Dow, Ioanna Lykourentzou, Faez Ahmed
机构: 麻省理工学院 加州大学圣地亚哥分校 乌得勒支大学
摘要: 文本到图像生成模型越来越被用于协助设计师在各种创意领域的概念生成,如平面设计、用户界面设计和时尚设计。然而,在工程设计领域,由于模型在生成可行设计概念图像方面存在挑战,它们的应用仍然有限。为解决这一问题,本文介绍了一种通过提示生成具有可行性CAD图像来改善设计可行性的方法。在这项工作中,通过一个自行车设计任务的案例研究,使用现成的文本到图像模型Stable Diffusion 2.1,调查了这种方法的实用性。在七种不同的生成设置中生成了多样化的自行车设计,并根据其可行性和新颖性进行评估。结果表明,CAD图像提示成功地帮助像Stable Diffusion 2.1这样的文本到图像模型创建更具可行性的设计图像。虽然在可行性和新颖性之间观察到了一般的权衡,但当提示权重保持在约0.35左右时,设计可行性得到了显著改善,而其新颖性与仅使用文本提示生成的设计相当。这个案例研究的见解为选择不同阶段工程设计过程中适当的CAD图像提示权重提供了一些指导。有效利用时,我们的CAD图像提示方法为工程设计中文本到图像模型的更广泛应用打开了大门。
论文链接: https://arxiv.org/abs/2407.08675
图神经网络在载波调度中的强健泛化能力
原标题: Robust Generalization of Graph Neural Networks for Carrier Scheduling
作者: Daniel F. Perez-Ramirez, Carlos Pérez-Penichet, Nicolas Tsiftes, Dejan Kostic, Magnus Boman, Thiemo Voigt
机构: 瑞典皇家理工学院 瑞典数字未来 瑞典卡罗林斯卡医学院 瑞典乌普萨拉大学
摘要: 无电池传感器标签是利用回波技术与标准物联网设备通信的设备,从而以可扩展的方式增强网络的感知能力。为了通信,传感器标签依赖于邻近物联网设备提供的未调制载波,并通过调度在整个网络中协调这种供给。载波调度——计算调度以查询所有传感器标签,同时最大限度地减少能量、频谱利用和延迟——是一个 NP-难优化问题。最近的研究引入了基于学习的调度程序,实现了比精心设计的启发式方法更多的资源节省,能够泛化到多达 60 个节点的网络。然而,我们发现它们在具有数百个节点的网络中的优势减弱,并在更大规模的设置中进一步恶化。本文介绍了 RobustGANTT,这是一种基于 GNN 的调度程序,可以改善对多达 1000 个节点(训练拓扑大小的 100 倍)的网络的泛化能力(无需重新训练)。RobustGANTT 不仅实现了更好和更一致的泛化,而且计算出的调度所需的资源最多比现有系统少 2 倍。我们的调度程序的平均运行时间为数百毫秒,使其能够快速响应网络条件的变化。我们的工作不仅改善了大规模回波网络中的资源利用,还为基于学习的调度提供了宝贵的见解。
论文链接: https://arxiv.org/abs/2407.08479
β β β-DPO:使用动态 β β β进行直接偏好优化
原标题: β β β-DPO: Direct Preference Optimization with Dynamic β β β
作者: Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He
机构: 中国科学技术大学 阿里巴巴集团
摘要: 直接偏好优化(DPO)已经成为训练大语言模型(LLMs)以符合人类偏好的一种引人注目的方法。然而,DPO的性能对其权衡参数 β \beta β 的微调以及偏好数据的质量都很敏感。我们分析了 β \beta β 和数据质量对 DPO 的影响,发现最佳 β \beta β 值随成对数据的信息量而变化。为了解决静态 β \beta β 值的局限性,我们引入了一个新颖的框架,该框架在批处理级别动态校准 β \beta β,并考虑了数据质量因素。此外,我们的方法还包括基于 β \beta β 的数据过滤,以防止异常值的影响。通过实证评估,我们证明了我们的动态 β \beta β 调整技术显著提高了 DPO 在各种模型和数据集上的性能,为将大语言模型与人类反馈对齐提供了更强大和适应性更强的训练范式。代码可在 \url{this https URL} 上找到。
论文链接: https://arxiv.org/abs/2407.08639
Github: https://github.com/junkangwu/beta-DPO
自然语言不足以:为 Verilog 生成进行多模态生成 AI 的基准测试
原标题: Natural language is not enough: Benchmarking multi-modal generative AI for Verilog generation
作者: Kaiyan Chang, Zhirong Chen, Yunhao Zhou, Wenlong Zhu, kun wang, Haobo Xu, Cangyuan Li, Mengdi Wang, Shengwen Liang, Huawei Li, Yinhe Han, Ying Wang
机构: 中国科学院计算技术研究所、中国科学院大学、杭州高等研究院、上海交通大学、华为公司
摘要: 自然语言界面在通过利用大语言模型自高级规范生成 Verilog 的自动化方面展现出了相当大的潜力,引起了广泛关注。然而,本文阐明了视觉表征对于具有空间复杂性的硬件架构的设计意图至关重要,可能超越仅使用自然语言输入的有效性。基于这一前提,我们的论文介绍了一个针对从视觉-语言输入中合成 Verilog 的多模态生成模型的开源基准,涵盖了单一和复杂模块。此外,我们引入了一个开源的视觉和自然语言 Verilog 查询语言框架,以促进高效且用户友好的多模态查询。为了评估所提出的多模态硬件生成人工智能在 Verilog 生成任务中的性能,我们将其与仅依赖自然语言的一种流行方法进行了比较。我们的结果显示,与仅基于自然语言的查询相比,多模态生成的 Verilog 准确性显著提高。我们希望揭示一种新的硬件设计方法,从而在大型硬件设计模型时代促进一种更多样化和高效的硬件设计方法。
论文链接: https://arxiv.org/abs/2407.08473
从产科事件调查报告中提取关于种族不平等的见解的智能多文档摘要化
原标题: Intelligent Multi-Document Summarisation for Extracting Insights on Racial Inequalities from Maternity Incident Investigation Reports
作者: Georgina Cosma, Mohit Kumar Singh, Patrick Waterson, Gyuchan Thomas Jun, Jonathan Back
机构: 洛夫伯勒大学 计算机科学系 英国 设计与创意艺术学院 英国 卫生服务安全调查机构(HSSIB) 英国
摘要: 在医疗保健领域,每年都会发生数千起安全事件,但从这些事件中学习的过程并没有得到有效的整合。利用 AI 分析事件报告可以揭示关键见解,通过识别重复模式和促成因素来预防伤害。为了聚合和提取有价值的信息,可以采用自然语言处理 (NLP) 和机器学习技术来总结和挖掘非结构化数据,可能会浮现系统性问题和改进的优先领域。本文介绍了 I-SIRch:CS,一个旨在促进安全事件报告的聚合和分析并确保整个过程可追溯的框架。该框架将使用安全情报研究 (SIRch) 分类法进行的概念注释与聚类、总结和分析功能集成在一起。利用一个包含 188 份匿名产科调查报告的数据集,这些报告用 27 个 SIRch 人因概念进行了注释,I-SIRch:CS 使用句子嵌入和 k-means 聚类将注释的句子分组成簇,通过文件和句子 ID 保持可追溯性。每个簇的摘要是使用离线的最先进抽象总结模型 (BART、DistilBART、T5) 生成的,通过评估和比较总结质量属性的指标进行评估。这些生成的摘要与原始文件和句子 ID 相关联,确保可追溯性并允许对摘要信息进行验证。结果表明,BART 在创建信息丰富且简明的摘要方面表现出色。
论文链接: https://arxiv.org/abs/2407.08322
一个自动仓库布局生成的新框架
原标题: A Novel Framework for Automated Warehouse Layout Generation
作者: Atefeh Shahroudnejad, Payam Mousavi, Oleksii Perepelytsia, Sahir, David Staszak, Matthew E. Taylor, Brent Bawel
机构: 阿尔伯塔机器智能研究所 路特克公司 加拿大阿尔伯塔大学
摘要: 优化仓库布局对效率和生产力有着重要影响。我们提出了一个基于人工智能的自动化仓库布局生成框架。该框架采用受限束搜索来在给定的空间参数内推导出最佳布局,同时遵循所有功能要求。生成的布局的可行性根据诸如物品可访问性、所需最小间隙和通道连接等标准进行验证。然后使用评分函数来评估可行布局,考虑存储位置数量、访问点和可访问性成本。我们展示了我们的方法能够为各种仓库尺寸和形状、不同门位置和互连性生成可行且最佳的布局。这种方法目前正在准备部署,将使人类设计师能够快速探索和确认选项,从而便于选择最适合其用例的布局。
论文链接: https://arxiv.org/abs/2407.08633
利用3D U-Net和上下文Transformer在MRI图像中进行脑肿瘤分割
原标题: Brain Tumor Segmentation in MRI Images with 3D U-Net and Contextual Transformer
作者: Thien-Qua T. Nguyen, Hieu-Nghia Nguyen, Thanh-Hieu Bui, Thien B. Nguyen-Tat, Vuong M. Ngo
机构: 信息技术大学 经济大学 开放大学 国家大学
摘要: 这项研究提出了一种增强的方法,利用先进的3D-UNet模型结合上下文Transformer(CoT)在磁共振成像(MRI)中对脑肿瘤肿块进行精确分割。通过架构扩展CoT,所提出的模型将其架构扩展到3D格式,将其与基础模型平滑地集成在一起,以利用MRI扫描中发现的复杂上下文信息,强调元素如何在扩展的空间范围内相互依赖。所提出的模型从CoT同步肿瘤肿块的特征,相互加强特征提取,有助于精确捕捉详细的肿瘤肿块结构,包括位置、大小和边界。几项实验结果展示了所提出方法在与当前最先进方法的比较中出色的分割性能,在BraTS2019上实现了增强肿瘤、肿瘤核心和整个肿瘤的Dice分数分别为82.0%、81.5%和89.0%。
论文链接: https://arxiv.org/abs/2407.08470
逐步论证语义的影响度量
原标题: Impact Measures for Gradual Argumentation Semantics
作者: Caren Al Anaissy, Jérôme Delobelle, Srdjan Vesic, Bruno Yun
机构: CRIL Université d’Artois CNRS Université Paris Cité LIPADE Universite Claude Bernard Lyon 1 Ecole Centrale de Lyon INSA Lyon Université Lumière Lyon 2 LIRIS UMR5205
摘要: 论证是一种形式主义,允许通过建模论点及其相互作用来处理矛盾信息。现在出现了越来越多的逐渐语义和影响度量,以便促进对它们结果的解释。影响度量评估每个论点在其他论点对其得分的影响。在本文中,我们完善了Delobelle和Villata提出的现有影响度量,并引入了一种根植于Shapley值的新影响度量。我们引入了几个原则,以评估这两种影响度量相对于一些众所周知的逐渐语义。这种全面分析提供了对它们功能和可取性的更深入洞察。
论文链接: https://arxiv.org/abs/2407.08302
太长不看:基于时间距离感知表示的无监督目标条件强化学习
原标题: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
作者: Junik Bae, Kwanyoung Park, Youngwoon Lee
机构: 延世大学
摘要: 无监督目标条件强化学习(GCRL)是一种有前途的范式,可以在没有外部监督的情况下开发多样化的机器人技能。然而,现有的无监督GCRL方法通常难以覆盖复杂环境中的广泛状态范围,这是由于它们的有限探索能力以及GCRL的稀疏或嘈杂奖励。为了克服这些挑战,我们提出了一种利用时间距离感知表示(TLDR)的新型无监督GCRL方法。TLDR选择远距离目标来启动探索,并基于时间距离计算内在探索奖励和达成目标的奖励。具体而言,我们的探索策略寻找具有较大时间距离的状态(即覆盖大状态空间),而目标条件策略学习最小化到达目标的时间距离(即达到目标)。我们在六个模拟机器人运动环境中的实验结果表明,我们的方法在实现各种状态方面明显优于先前的无监督GCRL方法。
论文链接: https://arxiv.org/abs/2407.08464
利用心血管数据和注意力学习技术预测心力衰竭
原标题: Predicting Heart Failure with Attention Learning Techniques Utilizing Cardiovascular Data
作者: Ershadul Haque, Manoranjan Paul, Faranak Tohidi
机构: 查尔斯斯图尔特大学
摘要: 心血管疾病(CVDs)涵盖了一组影响心脏和血管的疾病,包括冠状动脉疾病、心力衰竭、中风和高血压等疾病。在心血管疾病中,心力衰竭是全球患者死亡和长期痛苦的主要原因之一。预测是治疗和干预中非常有价值的风险因素之一,可以减少心力衰竭的发生。本研究提出了一种基于注意力学习的心力衰竭预测方法,该方法基于心血管数据(如射血分数和血清肌酐)的电子健康记录(EHR)。此外,采用不同的优化器和各种学习率方法对所提出的方法进行微调。血清肌酐和射血分数是预测患者心力衰竭的两个最重要特征。计算结果显示,RMSProp优化器与0.001学习率基于血清肌酐具有更好的预测效果。另一方面,SGD优化器与0.01学习率的组合基于射血分数特征表现出最佳性能。总体而言,与诸如LSTM方法等现有最先进技术相比,所提出的基于注意力学习的方法在预测心力衰竭方面表现非常高效。
论文链接: https://arxiv.org/abs/2407.08289
高速公路网络用于改善表面重建:残差和权重更新的作用
原标题: Highway Networks for Improved Surface Reconstruction: The Role of Residuals and Weight Updates
作者: A. Noorizadegan, Y.C. Hon, D.L. Young, C.S. Chen
摘要: 从点云中进行表面重建是计算机图形学和医学成像中的一个基本挑战。在本文中,我们探讨了先进神经网络架构在准确高效地从数据点重建表面方面的应用。我们在多层感知器的背景下引入了一种新颖的 Highway 网络(Hw)变体,称为 Square-Highway(SqrHw),并研究了它在各种数值示例中与普通神经网络和简化的 Hw 的性能。这些示例包括简单和复杂表面的重建,如球体、人手和斯坦福兔等复杂模型。我们分析了隐藏层数量、内部和外部点以及数据分布等因素对表面重建质量的影响。我们的结果表明,所提出的 SqrHw 架构优于其他神经网络配置,在实现更快收敛和更高质量的表面重建方面表现出色。此外,我们展示了 SqrHw 预测缺失数据上的表面的能力,这对于像医学成像这样具有挑战性的应用是一项有价值的特性。此外,我们的研究深入探讨了更多细节,表明基于 Highway 网络的提出方法相对于普通网络架构具有更稳定的权重范数和反向传播梯度。这项研究不仅推动了计算机图形学领域的发展,还对其他用途具有实用性,如函数插值和物理信息神经网络,这些网络将多层感知器整合到其算法中。
论文链接: https://arxiv.org/abs/2407.08134
对于强化学习研究的九种物理引擎综述
原标题: A Review of Nine Physics Engines for Reinforcement Learning Research
作者: Michael Kaup, Cornelius Wolff, Hyerim Hwang, Julius Mayer, Elia Bruni
机构: 奥斯纳布吕克大学
摘要: 我们对强化学习(RL)研究中使用的流行仿真引擎和框架进行了综述,旨在指导研究人员选择工具来创建用于RL和训练设置的模拟物理环境。本文评估了九个框架(Brax, Chrono, Gazebo, MuJoCo, ODE, PhysX, PyBullet, Webots 和 Unity),基于其流行度、功能范围、质量、可用性和RL能力。我们强调了在RL研究中选择和利用物理引擎的挑战,包括需要详细的比较和理解每个框架的能力。关键发现表明,尽管存在可用性挑战,MuJoCo因其性能和灵活性被认为是领先的框架。Unity因其易用性而被提及,但缺乏可扩展性和仿真保真度。研究呼吁进一步发展以提高仿真引擎的可用性和性能,并强调透明性和可重复性在RL研究中的重要性。这篇综述通过提供关于仿真引擎选择过程的见解,帮助RL社区进行知情决策。
论文链接: https://arxiv.org/abs/2407.08590
在资源受限环境中持续学习将视觉概念映射到大语言模型
原标题: Continually Learn to Map Visual Concepts to Large Language Models in Resource-constrained Environments
作者: Clea Rebillard, Julio Hurtado, Andrii Krutsylo, Lucia Passaro, Vincenzo Lomonaco
机构: 波尔多国立理工大学-ENSEIRB-MATMECA 卡迈克斯,华威大学 波兰科学院计算机科学研究所 皮萨大学
摘要: 在深度学习中,持续从非独立同分布数据流中学习是一个开放挑战,尤其是在资源受限的环境中,比如嵌入式设备。通过监督学习持续更新的视觉模型往往容易出现过拟合、灾难性遗忘和偏见表示。另一方面,大语言模型包含了多个概念及其关系的知识,可以促进更强大、知情和连贯的学习过程。本文提出了持续视觉映射(CVM)的方法,该方法将视觉表示持续地接地到从固定语言模型中提取的知识空间。具体而言,CVM持续训练一个小型高效的视觉模型,将其表示映射到由固定大语言模型建立的概念空间中。由于其较小的规模,CVM可在直接调整大型视觉预训练模型由于计算或数据限制而不可行时使用。CVM在五个基准测试中超越了最先进的持续学习方法,并为解决持续学习中的泛化能力提供了一个有前途的途径,即使在计算受限的设备上也是如此。
论文链接: https://arxiv.org/abs/2407.08279
为盲人和视力低下读者提供易读的漫画。
原标题: Toward accessible comics for blind and low vision readers
作者: Christophe Rigaud (L3I), Jean-Christophe Burie (L3I), Samuel Petit
机构: L3i实验室, SAIL联合实验室, Comix AI(德马克集团子公司)
摘要: 这项工作探讨了如何利用提示工程技术和上下文信息微调大型语言模型,以生成准确的完整故事文本描述,可直接转发给现成的语音合成工具。我们建议利用现有的计算机视觉和光学字符识别技术,从漫画图片内容(如面板、角色、文本、阅读顺序以及气泡和角色的关联)构建一个基于上下文的背景。然后,我们推断角色身份并生成包括角色外貌、姿势、情绪、对话等的上下文感知面板描述的漫画书脚本。我们相信,这种丰富的内容描述可以轻松用于为角色、字幕和播放音效提供各种声音的有声书和电子书制作。
论文链接: https://arxiv.org/abs/2407.08248
深度学习在医学时间序列填补中的新视角
原标题: How Deep is your Guess? A Fresh Perspective on Deep Learning for Medical Time-Series Imputation
作者: Linglong Qian, Tao Wang, Jun Wang, Hugh Logan Ellis, Robin Mitra, Richard Dobson, Zina Ibrahim
机构: 伦敦国王学院 华威大学 伦敦大学学院 PyPOTS研究 伦敦大学学院信息健康研究所
摘要: 我们引入了一种新颖的时间序列插补分类框架,使用深度学习,特别关注临床数据。通过识别文献和现有评论中的概念差距,我们设计了一个基于神经插补框架归纳偏差的分类法,根据其适用于特定插补场景和数据特性的情况,对现有的深度插补策略进行了分类。我们的综述进一步审查了用于基准深度插补模型的现有方法,评估它们在捕捉临床数据中的缺失情况方面的有效性,并强调了协调数学抽象与临床见解的重要性。我们的分类旨在为研究人员提供指导,便于选择适合其特定临床数据的深度学习插补技术。我们的新颖视角还强调了弥合计算方法与医学见解之间差距的重要性,以实现临床上合理的插补模型。
论文链接: https://arxiv.org/abs/2407.08442
数据与多模态大语言模型之间的协同作用:来自共同发展视角的调查
原标题: The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
作者: Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng
摘要: 近年来,我们见证了大语言模型(LLM)的快速发展。基于强大的大语言模型,多模态大语言模型(MLLM)将模态从文本扩展到更广泛的领域,由于其更广泛的应用场景而吸引了广泛关注。由于大语言模型和多模态大语言模型依赖于大量的模型参数和数据来实现新兴的能力,数据的重要性正受到越来越广泛的关注和认可。追踪和分析最近与多模态大语言模型相关的数据导向的工作,我们发现模型和数据的发展并不是两条独立的路径,而是相互关联的。一方面,更庞大和更高质量的数据有助于多模态大语言模型的更好性能,另一方面,多模态大语言模型可以促进数据的发展。多模态数据和多模态大语言模型的共同发展需要明确以下几点:1)在多模态大语言模型的哪个发展阶段可以采用特定的数据中心方法来增强哪些能力,以及2)通过利用哪些能力并充当哪些角色,模型可以对多模态数据做出贡献。为了促进多模态大语言模型社区的数据-模型共同发展,我们系统地回顾了与多模态大语言模型相关的现有工作,从数据-模型共同发展的角度进行审视。与本次调查相关的一个定期维护项目可以通过此 https URL 访问。
论文链接: https://arxiv.org/abs/2407.08583
Github: https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md
非语言交互检测
原标题: Nonverbal Interaction Detection
作者: Jianan Wei, Tianfei Zhou, Yi Yang, Wenguan Wang
机构: 浙江大学 北京理工大学
摘要: 这项工作探讨了在社交语境中理解人类非语言互动的新挑战。非语言信号几乎无处不在地贯穿每一个交流行为。我们的手势、面部表情、姿势、凝视,甚至身体外貌都传达了信息,而无需言语介入。尽管非语言信号在社交生活中扮演着至关重要的角色,但相对于语言的对应物,它们的关注度非常有限,现有的解决方案通常也只是孤立地研究非语言线索。我们的研究标志着首次系统努力提升多层次非语言信号的解读能力。首先,我们贡献了一个名为NVI的全新大规模数据集,精心注释了人类和相应社交群体的边界框,以及五种广泛互动类型下的22种原子级非语言行为。其次,我们提出了一项名为NVI-DET的新任务,用于非语言互动检测,形式化为从图像中识别三元组<个体,群体,互动>。第三,我们提出了一种非语言互动检测超图(NVI-DEHR)的新方法,它明确地使用超图模型来建模高阶非语言互动。该模型的核心是一个双重多尺度超图,能够适应不同尺度上个体与个体、群体与群体之间的相关性,促进互动特征学习,从而最终改善互动预测。在NVI数据集上的广泛实验表明,NVI-DEHR显著改善了各种基线在NVI-DET任务中的表现。它还在HOI-DET上展现了领先的性能,证实了其在支持相关任务和强大泛化能力方面的多功能性。我们希望我们的研究能为社区提供探索更深入理解非语言信号的新途径。
论文链接: https://arxiv.org/abs/2407.08133
DALL-M:利用大语言模型进行上下文感知的临床数据增强
原标题: DALL-M: Context-Aware Clinical Data Augmentation with LLMs
作者: Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento
机构: 清华大学 SM IEEE 谷歌
摘要: X射线图像在医学诊断中至关重要,但如果缺乏临床背景,它们的有效性就会受到限制。放射科医师经常发现胸部X射线图像不足以诊断潜在疾病,需要全面的临床特征和数据整合。我们提出了一种新颖的技术,通过临床表格数据的增强技术来增强临床背景,从而提高其在AI医学诊断中的适用性和可靠性。为了解决这个问题,我们引入了一种创新的临床数据增强方法,利用大语言模型(LLMs)生成患者上下文合成数据。这种方法对于在医疗保健领域训练更加健壮的深度学习模型至关重要。它在保持真实患者数据完整性的同时,通过丰富数据集的上下文相关合成特征,显著提高了模型性能。DALL-M采用三阶段特征生成过程:(i)临床背景存储,(ii)专家查询生成,以及(iii)上下文感知特征增强。DALL-M通过合成胸部X射线图像和报告生成新的临床相关特征。应用于MIMIC-IV数据集的799例病例,使用了九个特征,它创建了一个包含91个特征的增强集。这是第一个根据患者的X射线报告、性别和年龄为现有和新特征生成上下文值,并在数据增强过程中产生新的上下文知识的工作。与决策树、随机森林、XGBoost和TabNET等机器学习模型的实证验证显示了显著的性能改进。整合增强特征使F1分数提高了16.5%,精确度和召回率提高了约25%。DALL-M解决了临床数据增强中的一个关键问题,为生成上下文丰富的数据集提供了一个健壮的框架。
论文链接: https://arxiv.org/abs/2407.08227
通过同源相似性进行染色体结构异常诊断
原标题: Chromosomal Structural Abnormality Diagnosis by Homologous Similarity
作者: Juren Li, Fanzhe Fu, Ran Wei, Yifei Sun, Zeyu Lai, Ning Song, Xin Chen, Yang Yang
机构: 浙江大学 杭州迪安基因生物技术有限公司
摘要: 致病性染色体异常在普通人群中非常常见。虽然数目染色体异常可以被快速准确地检测出来,结构染色体异常则更为复杂,通常需要人类专家付出相当大的努力才能进行识别。本文着重研究染色体特征的建模以及识别具有结构异常的染色体。大多数现有的数据驱动方法集中在单个染色体上,并将每个染色体视为独立的,忽视了同源染色体的关键方面。在正常情况下,同源染色体具有相同的结构,唯一的例外是其中一个异常。因此,我们提出了一种自适应方法,通过同源相似性来对齐同源染色体并诊断结构异常。受人类专家诊断过程的启发,我们同时整合了多对同源染色体的信息,旨在减少噪音干扰并提高预测性能。对真实数据集进行的大量实验证实了我们模型相对于基线的有效性。
论文链接: https://arxiv.org/abs/2407.08204
SoupLM: 大语言模型和多模态模型中的模型集成
原标题: SoupLM: Model Integration in Large Language and Multi-Modal Models
作者: Yue Bai, Zichen Zhang, Jiasen Lu, Yun Fu
机构: 东北大学 Allen人工智能研究所
摘要: 训练大语言模型(LLMs)和多模态LLMs需要大量的计算资源,现有的公开可用的LLMs通常是在涵盖各种任务的多样化、私人策划的数据集上进行预训练的。例如,LLaMA、Vicuna和LLaVA是三种LLM变体,它们使用非常不同的训练配方、任务和数据模态来训练LLaMA基础模型。这些LLM变体的训练成本和复杂性迅速增长。在这项研究中,我们提出使用一种“汤”策略以一种成本效益的方式将这些LLM变体组装成一个单一的良好泛化的多模态LLM(SoupLM)。高效地组装这些LLM变体将不同领域和数据模态中训练得到的知识和特长整合到一个模型中(例如,从用户共享对话中的聊天机器人特长为Vicuna,以及从视觉-语言数据中的视觉能力为LLaVA),因此避免在多个不同领域上重复训练的计算成本。我们提出了一系列“汤”策略,系统地评估在各种配置下的性能提升,并探究在插值空间中基础模型的“汤”行为。
论文链接: https://arxiv.org/abs/2407.08196
城市积水检测:一个具有挑战性的基准和大-小模型协适配器
原标题: Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter
作者: Suqi Song, Chenxu Zhang, Peng Zhang, Pengkun Li, Fenglong Song, Lei Zhang
机构: 重庆大学 华为技术有限公司 华为诺亚方舟实验室
摘要: 城市内涝对公共安全和基础设施构成重大风险。传统方法使用水位传感器需要高维护成本,难以实现全面覆盖。最近的进展采用监控摄像头图像和深度学习进行检测,然而在数据稀缺和恶劣环境条件下仍然面临困难。本文在不同恶劣条件下建立了一个具有挑战性的城市内涝基准(UW-Bench),以推动真实世界应用。我们提出了一个大-小模型协同适配器范式(LSM-adapter),利用大模型的广泛通用分割潜力和小模型的特定任务导向指导。具体来说,提出了一个三重 S 提示适配器模块以及一个动态提示组合器,用于生成然后合并多个提示以进行掩模解码器适应。同时,设计了一个直方图均衡适配器模块,用于为图像编码器适应注入图像特定信息。结果和分析显示了我们开发的基准和算法的挑战和优越性。项目页面:\url{this https URL}
论文链接: https://arxiv.org/abs/2407.08109
Github: https://github.com/zhang-chenxu/LSM-Adapter
多组比例代表制
原标题: Multi-Group Proportional Representation
作者: Alex Oesterling, Claudio Mayrink Verdun, Carol Xuan Long, Alex Glynn, Lucas Monteiro Paes, Sajani Vithana, Martina Cardone, Flavio P. Calmon
机构: 哈佛大学 明尼苏达大学
摘要: 图像搜索和检索任务可能会延续有害的刻板印象,抹杀文化身份,并加剧社会差异。当前缓解这些代表性危害的方法是在由少量(通常是二元)属性定义的人群中平衡检索项的数量。然而,大多数现有方法忽略了由属性组合决定的交叉群体,例如性别、种族和民族。我们引入了多组比例代表(MPR),这是一个衡量交叉群体代表性的全新指标。我们开发了估算MPR的实用方法,提供了理论保证,并提出了确保检索中MPR的优化算法。我们证明了优化现有的平等和比例代表性指标的方法可能无法促进MPR。至关重要的是,我们的工作表明,优化MPR在多个由丰富函数类指定的交叉群体中实现了更比例的代表性,且通常对检索准确率的影响较小。
论文链接: https://arxiv.org/abs/2407.08571
大语言模型的职业兴趣
原标题: The Career Interests of Large Language Models
作者: Meng Hua, Yuan Cheng, Hengshu Zhu
机构: 职业科学实验室 香港科技大学(广州) BOSS直聘
摘要: 最近大语言模型(LLMs)的进展显著扩展了它们的能力,从基本的文本生成发展到复杂的、类似人类的交互。鉴于大语言模型可能承担重要的工作职责的可能性,迫切需要探索大语言模型作为专业助手的能力。本研究着重于职业兴趣方面,通过将职业网络兴趣测评简式应用于大语言模型,仿佛它们是人类参与者,调查它们的假设职业兴趣和能力,研究这些兴趣如何随着语言变化和模型进步而变化。我们采用了一般线性混合模型方法分析了答案,并发现大语言模型之间存在明显的职业兴趣倾向,特别是对社交和艺术领域。有趣的是,这些偏好与大语言模型展现出较高能力的职业并不一致。这种在大语言模型上使用心理测量工具和复杂统计工具的新颖方法揭示了它们融入专业环境的新视角,突显了类人倾向,并促进了对大语言模型在职场中自我认知和能力匹配的重新评估。
论文链接: https://arxiv.org/abs/2407.08564
CADC:为压缩推荐模型训练数据而对用户-物品交互进行编码
原标题: CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data
作者: Hossein Entezari Zarch, Abdulla Alshabanah, Chaoyi Jiang, Murali Annavaram
机构: 南加州大学
摘要: 深度学习推荐模型(DLRMs)是当前电子商务行业的核心。然而,用于训练这些大型模型的训练数据量呈指数增长,导致了实质性的训练障碍。训练数据集包含两种主要类型的信息:基于内容的信息(用户和物品的特征)和协同信息(用户和物品之间的互动)。减少训练数据集的一种方法是删除用户-物品的互动。但这会显著减少协同信息,而协同信息对于保持准确性至关重要,因为它包含了互动历史。这种损失深刻影响了DLRM的性能。
本文做出了一个重要观察:如果能够捕获用户-物品的互动历史以丰富用户和物品的嵌入,那么可以压缩互动历史而不会丢失模型的准确性。因此,这项工作,协同感知数据压缩(CADC),采用了两步方法来压缩训练数据集。在第一步中,我们使用用户-物品互动矩阵的矩阵分解来为用户和物品创建一种新颖的嵌入表示。一旦用户和物品的嵌入通过互动历史信息得到丰富,该方法就会对训练数据集进行均匀随机抽样,从而大幅减少训练数据集的大小,同时最小化模型准确性的下降。CADC的源代码可在\href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}上找到。
论文链接: https://arxiv.org/abs/2407.08108
CoGS: 使用面向目标的 ASP 的因果约束反事实解释
原标题: CoGS: Causality Constrained Counterfactual Explanations using goal-directed ASP
作者: Sopam Dasgupta, Joaquín Arias, Elmer Salazar, Gopal Gupta
机构: 德克萨斯大学达拉斯分校 西班牙胡安卡洛斯大学
摘要: 机器学习模型在贷款批准和招聘等领域的应用越来越广泛,但它们通常作为黑匣子运行,遮蔽了它们的决策过程。透明度至关重要,个人需要解释来理解决策,特别是对于用户不希望的决策。道德和法律考虑要求告知个人输入属性值(特征)的变化,这些变化可能导致用户期望的结果。我们的工作旨在通过考虑特征之间的因果依赖关系生成反事实解释。我们提出了利用面向目标的Answer Set Programming系统s(CASP)生成反事实的CoGS(Counterfactual Generation with s(CASP))框架,该框架专门用于生成基于规则的机器学习模型,特别是FOLD-SE算法的反事实。CoGS考虑因果依赖关系,计算属性值的现实和因果一致的变化。它通过反事实找到从不希望的结果到期望结果的路径。我们介绍了CoGS框架的细节以及评估结果。
论文链接: https://arxiv.org/abs/2407.08179
人类视频生成的综合调研:挑战、方法和见解
原标题: A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights
作者: Wentao Lei, Jinting Wang, Fengji Ma, Guanjie Huang, Li Liu
机构: 清华大学 百度
摘要: 人类视频生成是一项动态且快速发展的任务,旨在使用生成模型合成2D人体视频序列,给定控制条件如文本、音频和姿势。在电影、游戏和虚拟通信等广泛应用领域,生成自然逼真的人类视频的能力至关重要。生成模型的最新进展为这一领域的日益增长的兴趣奠定了坚实基础。尽管取得了显著进展,但人类视频生成任务仍然具有挑战性,原因在于人物的一致性、人体运动的复杂性以及与环境的关系困难。本调查全面审视了当前人类视频生成领域的现状,据我们所知,这是该领域首次进行的广泛文献综述。我们从介绍人类视频生成的基础知识和促进该领域增长的生成模型的演变开始。然后,我们检查了人类视频生成中三个关键子任务的主要方法:文本驱动、音频驱动和姿势驱动的运动生成。这些领域在引导生成过程方面进行了探讨。此外,我们提供了一组最常用的数据集和评估指标,这些指标对评估生成视频的质量和逼真度至关重要。调查最后讨论了该领域当前面临的挑战,并提出了未来研究的可能方向。本调查的目标是为研究界提供人类视频生成进展的清晰和整体视角,突出已取得的里程碑和未来面临的挑战。
论文链接: https://arxiv.org/abs/2407.08428
大众的声音,AI 的声音?使用语言模型估计德国公众舆论
原标题: Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion
作者: Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz
机构: LMU慕尼黑 大学 of Maryland 曼海姆大学 欧洲社会研究中心
摘要: 最近大语言模型(LLMs)的发展引发了讨论,关于LLM生成的“合成样本”是否可以补充或取代传统调查,考虑到它们的训练数据可能反映了人群中普遍存在的态度和行为。一些主要基于美国的研究促使LLMs模仿调查受访者,其中一些发现回答与调查数据非常接近。然而,与各自目标人群和LLM训练数据之间关系的几个情境因素可能影响这些发现的泛化能力。在这项研究中,我们调查了LLMs在德国估计公众意见的程度,以选举选择为例。我们生成了一个合成样本,其中的人物符合2017年德国纵向选举研究受访者的个人特征。我们要求LLM GPT-3.5预测每位受访者的选举选择,并将这些预测与基于调查的整体和亚组水平的估计进行比较。我们发现,GPT-3.5无法准确预测公民的选举选择,表现出对绿党和左翼党派的偏见。虽然LLM捕捉了“典型”选民亚组的倾向,比如党派支持者,但它错过了影响个体选民选择的多方面因素。通过研究LLM在新环境中对投票行为的预测,我们的研究为关于LLMs可以用于研究公众意见的条件日益增多的研究贡献了力量。研究结果指出了LLMs中意见表达的差异,并强调了将它们应用于公众意见估计的局限性。
论文链接: https://arxiv.org/abs/2407.08563
基于层次一致性的多智能体强化学习用于多机器人协作任务
原标题: Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks
作者: Pu Feng, Junkang Liang, Size Wang, Xin Yu, Rongye Shi, Wenjun Wu
机构: 清华大学 百度
摘要: 在多智能体强化学习(MARL)中,集中式训练与分散式执行(CTDE)框架至关重要,但由于训练中的全局状态指导与执行中对局部观察的依赖之间存在差距,缺乏全局信号而面临困难。受人类社会共识机制的启发,我们引入了基于层次共识的多智能体强化学习(HC-MARL)框架来解决这一限制。HC-MARL采用对比学习来促进智能体之间的全局共识,实现合作行为而无需直接通信。这种方法使智能体能够从局部观察中形成全局共识,并将其用作指导执行期间协作行动的额外信息。为了满足各种任务的动态需求,共识被划分为多个层次,涵盖短期和长期考虑。短期观察促使即时、低层次共识的形成,而长期观察有助于形成战略性、高层次共识。通过自适应注意机制进一步优化这一过程,动态调整每个共识层的影响力。这种机制优化了即时反应和战略规划之间的平衡,使其适应特定任务的需求。在多机器人系统中进行的大量实验和实际应用展示了我们框架优越的性能,显著超越了基准线。
论文链接: https://arxiv.org/abs/2407.08164
关于大语言模型应用商店的(不)安全性
原标题: On the (In)Security of LLM App Stores
作者: Xinyi Hou, Yanjie Zhao, Haoyu Wang
机构: 华中科技大学
摘要: 大语言模型应用商店迅速增长,导致大量定制的大语言模型应用的泛滥。然而,这种扩张引发了安全问题。在这项研究中,我们提出了一个三层关注框架,用于识别大语言模型应用的潜在安全风险,即具有滥用潜力的大语言模型应用、恶意意图的大语言模型应用和存在可利用漏洞的大语言模型应用。在五个月的时间里,我们从六个主要应用商店(GPT Store、FlowGPT、Poe、Coze、Cici 和某 http URL)收集了 786,036 个大语言模型应用。我们的研究整合了静态和动态分析,开发了一个包含超过 31,783 个条目的大规模有害词典(即 ToxicDict),以及自动化监控工具,以识别和减轻威胁。我们发现,有 15,146 个应用存在误导性描述,1,366 个违反其隐私政策收集了敏感个人信息,15,996 个生成了有害内容,如仇恨言论、自残、极端主义等。此外,我们评估了大语言模型应用促进恶意活动的潜力,发现有 616 个应用可用于生成恶意软件、钓鱼等。我们的发现凸显了对健全的监管框架和加强执法机制的迫切需求。
论文链接: https://arxiv.org/abs/2407.08422
其他链接: http://Character.AI
音频-视觉视频解析的标签预期事件解缠
原标题: Label-anticipated Event Disentanglement for Audio-Visual Video Parsing
作者: Jinxing Zhou, Dan Guo, Yuxin Mao, Yiran Zhong, Xiaojun Chang, Meng Wang
机构: 合肥工业大学 安徽中慧通科技有限公司 合肥综合性国家科学中心人工智能研究院 西北工业大学 上海人工智能实验室 中国科学技术大学 阿布扎比穆罕默德·本·扎耶德人工智能大学
摘要: 音视频视频解析(AVVP)任务旨在检测和在音频和视觉模态中暂时定位事件。多个事件可能在时间轴上重叠,使得识别具有挑战性。传统方法通常侧重于改进早期音频-视觉编码器以嵌入更有效的特征,而对于最终事件分类至关重要的解码阶段往往受到较少关注。我们的目标是推进解码阶段并提高其可解释性。具体而言,我们引入了一种新的解码范式,即基于标签语义的投影(LEAP),它利用事件类别的标签文本,每个类别都具有独特和明确的语义,用于解析潜在重叠的事件。LEAP通过将音频/视觉片段的编码潜在特征迭代地投影到语义独立的标签嵌入上来工作。这个过程通过建模跨模态(音频/视觉-标签)交互而得以丰富,逐渐解开视频片段内的事件语义,以完善相关的标签嵌入,确保更具有区分性和可解释性的解码过程。为了促进LEAP范式,我们提出了一种语义感知优化策略,其中包括一种新颖的音频-视觉语义相似性损失函数。该函数利用音频和视觉事件的交集联合(EIoU)作为一种新颖的度量标准,以在特征级别校准音频-视觉相似性,适应模态间不同事件密度。大量实验证明了我们方法的优越性,实现了AVVP的新的最先进性能,并增强了相关的音频-视觉事件定位任务。
论文链接: https://arxiv.org/abs/2407.08126
ST-Mamba:使用有限数据进行交通流估计恢复的时空曼巴
原标题: ST-Mamba: Spatial-Temporal Mamba for Traffic Flow Estimation Recovery using Limited Data
作者: Doncheng Yuan, Jianzhe Xue, Jinshan Su, Wenchao Xu, Haibo Zhou
机构: 南京大学 香港理工大学 伊犁师范大学 水loo大学
摘要: 交通流量估算(TFE)对城市智能交通系统至关重要。传统的道路检测器受限于覆盖范围有限和高成本的问题,而利用云计算和对车辆网络数据(如行驶速度和GPS坐标)进行数据挖掘,则提供了一种有前景且经济高效的替代方案。此外,最小化数据收集可以显著降低开销。然而,有限的数据可能导致TFE的不准确性和不稳定性。为了解决这一问题,我们引入了空间-时间Mamba(ST-Mamba),这是一个将卷积神经网络(CNN)与Mamba框架结合的深度学习模型。ST-Mamba旨在通过有效捕捉交通流量中的空间-时间模式,提高TFE的准确性和稳定性。我们的模型旨在利用最少的数据实现与大量数据集相媲美的结果。使用真实世界数据集进行的模拟验证了我们的模型能够基于有限数据在城市景观中提供精确和稳定的TFE,为TFE提供了一种成本高效的解决方案。
论文链接: https://arxiv.org/abs/2407.08558
在欧洲XFEL使用的两阶段机器学习辅助方法进行淬火识别
原标题: A Two-Stage Machine Learning-Aided Approach for Quench Identification at the European XFEL
作者: Lynda Boukela, Annika Eichler, Julien Branlard, Nur Zulaiha Jomhari
机构: 德意志电子同步辐射研究所 汉堡科技大学
摘要: 本文介绍了一种机器学习辅助的故障检测和隔离方法,应用于欧洲自由电子激光器中的淬火识别案例研究。该装置利用800个超导射频腔来加速电子串团,使其能量高达17.5 GeV。各种故障事件可能会干扰加速器的正常运行,包括可能导致腔体失超和中断其运行的淬火事件。在这种背景下,我们的解决方案包括以两阶段方法分析反映腔体动态的信号。(I) 故障检测利用分析冗余处理数据并生成残差。通过广义似然比评估残差以检测故障行为。(II) 故障隔离涉及将淬火与其他故障区分开来。为此,我们采用基于数据驱动的k-medoids算法模型,探索不同的相似度度量,包括欧氏距离和动态时间规整。最后,我们评估了新方法并将其与当前部署的淬火检测系统进行比较,结果显示了我们方法取得的性能改进。
论文链接: https://arxiv.org/abs/2407.08408
建立严格且具有成本效益的人工智能模型临床试验
原标题: Establishing Rigorous and Cost-effective Clinical Trials for Artificial Intelligence Models
作者: Wanling Gao, Yunyou Huang, Dandan Cui, Zhuoming Yu, Wenjing Liu, Xiaoshuang Liang, Jiahui Zhao, Jiyue Xie, Hao Li, Li Ma, Ning Ye, Yumiao Kang, Dingfeng Luo, Peng Pan, Wei Huang, Zhongmou Liu, Jizhong Hu, Gangyuan Zhao, Chongrong Jiang, Fan Huang, Tianyi Wei, Suqin Tang, Bingjie Xia, Zhifei Zhang, Jianfeng Zhan
摘要: 人工智能(AI)与医学临床实践之间存在着深刻的鸿沟,主要是由于缺乏严格和具有成本效益的评估方法。目前最先进和最先进的AI模型评估仅限于对医学数据集进行的实验室研究或直接临床试验,没有或仅有以患者为中心的对照。此外,临床医生在与AI合作中的关键作用,对于确定其对临床实践的影响至关重要,但往往被忽视。我们首次强调了在临床实践中为AI模型建立严格和具有成本效益的评估方法的关键必要性,其中包括以患者/临床医生为中心(双中心)的AI随机对照试验(DC-AI RCTs)和基于虚拟临床医生的体外试验(VC-MedAI)作为DC-AI RCTs的有效代理。利用来自14家医疗中心的125名临床医生的两阶段首次DC-AI RCTs的7500份诊断记录,我们的结果表明DC-AI RCTs的必要性以及VC-MedAI的有效性。值得注意的是,VC-MedAI的表现与人类临床医生相当,复制了前瞻性DC-AI RCTs的见解和结论。我们设想DC-AI RCTs和VC-MedAI是重要的进展,提供了创新和变革性的AI模型评估方法,为临床实践中的AI模型提供了类似临床前的设置,重塑了以成本效益和快速迭代方式进行开发的范式。中国临床试验注册:ChiCTR2400086816。
论文链接: https://arxiv.org/abs/2407.08554
欧盟的联邦学习和人工智能监管:谁应承担责任?一项跨学科分析
原标题: Federated Learning and AI Regulation in the European Union: Who is liable? An Interdisciplinary Analysis
作者: Herbert Woisetschläger, Simon Mertel, Christoph Krönke, Ruben Mayer, Hans-Arno Jacobsen
摘要: 欧盟人工智能法案规定了在开发和部署机器学习应用时,相关利益方的明确责任,以避免巨额罚款,并优先考虑私人和安全的数据处理,数据保留在其源头。联邦学习(FL)使得生成式AI模型可以在数据孤岛之间进行训练,只共享模型参数,同时提高了数据安全性。由于FL是一种合作学习范式,客户端和服务器在FL流程中自然地共同承担法律责任。我们的工作有助于澄清双方的角色,解释将责任转移给服务器运营商的策略,并指出我们必须解决的开放技术挑战,以提高在欧盟AI法案下FL的实际应用性。
论文链接: https://arxiv.org/abs/2407.08105
将大语言模型整合到生产系统中,以增强任务自动化和灵活性
原标题: Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility
作者: Yuchen Xia, Jize Zhang, Nasser Jazdi, Michael Weyrich
机构: 斯图加特大学
摘要: 这篇论文介绍了一种将大语言模型(LLM)智能体整合到自动化生产系统中的新方法,旨在增强任务自动化和灵活性。我们在基于自动化金字塔的层次结构内组织生产操作。原子操作功能被建模为微服务,通过专用数字孪生系统内的接口调用来执行。这为编排生产流程提供了可扩展和灵活的基础。在这个数字孪生系统中,低级别、硬件特定的数据被语义丰富化,并且对于LLM来说可解释,用于生产规划和控制任务。大语言模型智能体被系统地提示来解释这些生产特定数据和知识。在收到用户请求或识别到触发事件后,LLM智能体生成一个流程计划。然后这个计划被分解为一系列原子操作,作为微服务在现实世界的自动化系统内执行。我们在实验室的自动化模块化生产设施上实施了这一整体方法,演示了LLM如何通过一个具体案例研究处理生产规划和控制任务。这导致了一个直观的生产设施,具有更高水平的任务自动化和灵活性。最后,我们揭示了在实现大语言模型在自主系统中的全部潜力方面的一些限制,并指出了有前途的好处。这一系列正在进行中的研究系列的演示可以在此 https URL 上访问。
论文链接: https://arxiv.org/abs/2407.08550
Github: https://github.com/YuchenXia/GPT4IndustrialAutomation
通过奖励梯度进行视频扩散对齐
原标题: Video Diffusion Alignment via Reward Gradients
作者: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
机构: 卡内基梅隆大学
摘要: 我们在构建基础视频扩散模型方面取得了重大进展。由于这些模型是使用大规模无监督数据进行训练的,因此将这些模型调整到特定的下游任务变得至关重要。通过监督微调来调整这些模型需要收集视频目标数据集,这是具有挑战性和繁琐的。在这项工作中,我们利用通过对顶尖视觉判别模型的偏好学习而获得的预训练奖励模型来调整视频扩散模型。这些模型包含了生成的 RGB 像素的密集梯度信息,这对于在视频等复杂搜索空间中进行高效学习至关重要。我们展示了从这些奖励模型向视频扩散模型反向传播梯度可以实现视频扩散模型的计算和采样高效对齐。我们展示了在各种奖励模型和视频扩散模型上的结果,证明了我们的方法在奖励查询和计算方面比先前的无梯度方法能够更高效地学习。我们的代码、模型权重和更多可视化内容可在此网址获得。
论文链接: https://arxiv.org/abs/2407.08737
Github: https://vader-vid.github.io
数字孪生技术可减轻基于视觉的车辆速度检测系统对真实场地数据的需求。
原标题: Digital twins to alleviate the need for real field data in vision-based vehicle speed detection systems
作者: Antonio Hernández Martínez, Iván García Daza, Carlos Fernández López, David Fernández Llorca
机构: 1、西班牙国家研究委员会
2、未提及其他学校或企业名称
摘要: 基于准确视觉的速度估计比基于雷达或激光雷达的传统方法更具成本效益。然而,由于透视投影在离散传感器上的限制,以及对校准、光照和天气条件的高度敏感,这也是具有挑战性的。有趣的是,在这种情况下,深度学习方法(在计算机视觉领域占主导地位)受到了很大限制,因为缺乏可用数据。事实上,获取具有准确速度数值的每辆车的真实道路交通视频序列非常复杂且昂贵,可用数据集的数量非常有限。最近,一些方法开始专注于使用合成数据。然而,目前尚不清楚如何有效地将在合成数据上训练的模型应用于真实世界条件。在这项工作中,我们提出使用CARLA模拟器生成一个大型数据集,代表特定真实世界摄像头的数字孪生。合成数据集包含大量不同类型的车辆、颜色、速度、光照和天气条件的变化。在数字孪生上训练了一个3D CNN模型,并在真实序列上进行了测试。与以前生成多摄像头序列的方法不同,我们发现真实和虚拟条件之间的差距是获得低速度估计误差的关键因素。即使采用初步方法,所得到的平均绝对误差仍保持在3km/h以下。
论文链接: https://arxiv.org/abs/2407.08380
融合范式:LLM增强自主智能体中符号和连接主义人工智能的协同作用
原标题: Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents
作者: Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Laura E. Barnes
机构: 微软公司 夏威夷大学 弗吉尼亚大学 康普尼技术大学 香港科技大学 诺丁汉特伦特大学 西里西亚理工大学
摘要: 本文探讨了连接主义和符号人工智能(AI)的融合,从历史上的争论到当代的进展。传统上被认为是不同范式,连接主义AI侧重于神经网络,而符号AI强调符号表示和逻辑。最近大语言模型(LLMs)的进展,如ChatGPT和GPT-4,突显了连接主义架构在处理人类语言作为符号形式时的潜力。研究认为,由LLM赋能的自主智能体(LAAs)体现了这种范式的融合。通过利用LLMs进行基于文本的知识建模和表示,LAAs整合了神经符号AI原则,展示了增强的推理和决策能力。将LAAs与神经符号AI主题中的知识图进行比较,突显了LAAs在模仿类人推理过程、有效扩展大数据集以及利用上下文样本而无需明确重新训练方面的独特优势。研究强调了神经-向量-符号集成、指导性编码和隐式推理等方面的有前途的研究方向,旨在进一步增强LAAs的能力。通过探索神经符号AI的发展进程并提出未来的研究轨迹,这项工作推动了对AI技术的理解和发展。
论文链接: https://arxiv.org/abs/2407.08516
利用大语言模型进行实时异常检测和反应性规划
原标题: Real-Time Anomaly Detection and Reactive Planning with Large Language Models
作者: Rohan Sinha, Amine Elhafsi, Christopher Agia, Matthew Foutter, Edward Schmerling, Marco Pavone
机构: 斯坦福大学 谷歌
摘要: 基础模型,例如大语言模型(LLMs),在互联网规模数据上训练,具有零样本泛化能力,使它们成为一种有望用于检测和减轻机器人系统的超出分布故障模式的技术。然而,要充分实现这一承诺,面临两个挑战:(i)减轻这些模型的相当大的计算开销,以便它们可以在线应用;(ii)将它们关于潜在异常的判断纳入到安全控制框架中。在这项工作中,我们提出了一个两阶段推理框架:首先是一个快速的二元异常分类器,分析LLM嵌入空间中的观察结果,然后可能触发一个较慢的后备选择阶段,利用生成LLM的推理能力。这些阶段对应于模型预测控制策略中的分支点,该策略维持沿着各种后备计划继续的联合可行性,以考虑慢推理者的延迟,一旦检测到异常,从而确保安全性。我们展示了我们的快速异常分类器优于基于最先进的GPT模型的自回归推理,即使使用相对较小的语言模型实例化。这使得我们的运行时监视器能够在资源和时间约束下提高动态机器人系统(如四轴飞行器或自动驾驶车辆)的可信度。展示我们方法的视频,包括模拟和真实世界实验,可在此项目页面上找到:此处的链接。
论文链接: https://arxiv.org/abs/2407.08735
其他链接: https://sites.google.com/view/aesop-llm
CE-QArg:定量双极论证框架的反事实解释(技术报告)
原标题: CE-QArg: Counterfactual Explanations for Quantitative Bipolar Argumentation Frameworks (Technical Report)
作者: Xiang Yin, Nico Potyka, Francesca Toni
机构: 伦敦帝国学院 计算系, 卡迪夫大学 计算机科学与信息学院
摘要: 在量化双极论证框架(QBAFs)中,人们对理解论点强度越来越感兴趣。大多数现有研究集中在基于归因的方法上,这些方法通过为其他论点分配重要性分数来解释论点的强度,但未能解释如何将当前强度改变为期望的强度。为了解决这个问题,我们引入了QBAFs的反事实解释。我们讨论了问题变体,并提出了一个名为量化双极论证框架反事实解释(CE-QArg)的迭代算法。CE-QArg可以基于两个核心模块,即极性和优先级,识别有效且具有成本效益的反事实解释,这有助于分别确定每个论点的更新方向和幅度。我们讨论了我们的反事实解释的一些形式属性,并在随机生成的QBAFs上对CE-QArg进行了实证评估。
论文链接: https://arxiv.org/abs/2407.08497
一个在马尔可夫决策过程之间的坎托-坎托罗维奇度量,并应用于迁移学习。
原标题: A Cantor-Kantorovich Metric Between Markov Decision Processes with Application to Transfer Learning
作者: Adrien Banse, Venkatraman Renganathan, Raphaël M. Jungers
机构: UCLouvain 卢汶大学 瑞典隆德大学
摘要: 我们在马尔可夫决策过程(MDPs)的背景下扩展了由(Banse等人,2023年)引入的马尔可夫链之间的康托-坎托罗维奇距离概念。所提出的度量是明确定义的,并且在给定有限时间跨度的情况下可以有效地近似。然后,我们提供了数值证据表明后一种度量可以在强化学习领域引起有趣的应用。特别地,我们展示它可以用于预测迁移学习算法的性能。
论文链接: https://arxiv.org/abs/2407.08324
MetaUrban:一个用于城市空间中具身人工智能的仿真平台
原标题: MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces
作者: Wayne Wu, Honglin He, Yiran Wang, Chenda Duan, Jack He, Zhizheng Liu, Quanyi Li, Bolei Zhou
机构: 加州大学洛杉矶分校
摘要: 城市公共空间,如街道和广场,为居民提供服务,容纳各种生动多彩的社交生活。最近机器人技术和具身人工智能的进步使得城市公共空间不再仅限于人类。食品送货机器人和电动轮椅已经开始与行人共享人行道,而各种机器狗和人形机器人最近也出现在街头。在城市空间繁华街道中行驶时,确保这些即将到来的移动机器的泛化能力和安全性至关重要。在这项工作中,我们提出了MetaUrban,这是一个用于城市空间具身人工智能研究的组合仿真平台。MetaUrban可以从组合元素构建无限数量的互动城市场景,涵盖广泛的地面平面图、物体放置、行人、弱势道路使用者和其他移动代理的外观和动态。我们设计了点导航和社交导航任务作为利用MetaUrban进行具身人工智能研究的试点研究,并建立了强化学习和模仿学习的各种基线。实验证明,模拟环境的组合性质可以显著提高训练移动代理的泛化能力和安全性。MetaUrban将公开提供,以提供更多研究机会,并促进城市空间中安全可靠的具身人工智能。
论文链接: https://arxiv.org/abs/2407.08725
对抗-MidiBERT:基于无偏预训练和掩码微调的符号音乐理解模型
原标题: Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning
作者: Zijian Zhao
机构: 中山大学
摘要: 作为音乐信息检索(MIR)的重要组成部分,符号音乐理解(SMU)受到了广泛关注,因为它可以帮助音乐家和业余爱好者学习和创作音乐。最近,预训练语言模型在SMU中被广泛采用,因为符号音乐与自然语言有很大相似性,而预训练方式也有助于充分利用有限的音乐数据。然而,预训练语言模型中存在偏见问题,如性别歧视、年龄歧视和种族歧视,这归因于训练数据的不平衡分布。这也对下游任务的性能产生了显著影响,在SMU中也存在这种情况。为了解决这一挑战,我们提出了Adversarial-MidiBERT,这是基于双向编码器表示来自Transformer(BERT)的符号音乐理解模型。我们引入了一种基于对抗学习的无偏预训练方法,以最小化在训练过程中导致偏见的令牌的参与。此外,我们提出了一种掩码微调方法,缩小了预训练和微调之间的数据差距,这可以帮助模型更快地收敛并表现更好。我们在四个音乐理解任务上评估了我们的方法,我们的方法在所有任务中表现出色。我们模型的代码可在此https URL上公开获取。
论文链接: https://arxiv.org/abs/2407.08306
Github: https://github.com/RS2002/Adversarial-MidiBERT
为不规则和不对齐的卫星图像时间序列奠定基础模型的道路
原标题: Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series
作者: Iris Dumeur (CESBIO), Silvia Valero (CESBIO), Jordi Inglada (CESBIO)
摘要: 尽管最近提出了几种卫星遥感图像的基础模型,但它们未能解决实际/运营应用中的主要挑战。事实上,不考虑数据的光谱、空间和时间维度以及不规则或不对齐的时间采样的嵌入对于大多数真实世界应用而言几乎没有用处。因此,我们提出了一种名为ALIgned Sits Encoder (ALISE)的新方法,它利用了不规则和不对齐的SITS的空间、光谱和时间维度,同时生成对齐的潜在表示。与当前可用于SITS的SSL模型不同,ALISE结合了灵活的查询机制,将SITS投影到一个共同的学习的时间投影空间中。此外,通过多视图框架,我们探索了将实例区分集成到SITS的掩码自编码任务中。通过三个下游任务评估了所生成表示的质量:作物分割(PASTIS)、土地覆盖分割(MultiSenGE)和一种新颖的作物变化检测数据集。此外,变化检测任务是无监督进行的。结果表明,使用对齐表示比以前的SSL方法更有效地用于线性探测分割任务。
论文链接: https://arxiv.org/abs/2407.08448
其他链接: http://uses.As
WhisperNetV2:用于基于唇部生物特征的SlowFast孪生网络
原标题: WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics
作者: Abdollah Zakeri, Hamid Hassanpour, Mohammad Hossein Khosravi, Amir Masoud Nourollah
机构: 沙赫鲁德理工大学 伯詹德大学
摘要: 在过去的十年中,基于嘴唇的生物特征认证(LBBA)吸引了许多研究人员的关注。嘴唇对于生物特征研究人员特别有趣,因为它是一种双重生物特征,具有作为生理特征和行为特征的潜力。尽管在LBBA上进行了许多有价值的研究,但其中没有考虑到客户在视频获取步骤中的不同情绪,这可能会影响客户的面部表情和语速。我们提出了一种名为WhisperNetV2的新型网络结构,它扩展了我们之前提出的名为WhisperNet的网络。我们提出的网络利用了一个具有三个相同SlowFast网络作为嵌入网络的三重损失的深度孪生结构。SlowFast网络是我们任务的一个很好的选择,因为快速通道以高帧率和低通道容量提取与运动相关的特征(行为嘴唇运动),而慢速通道以低帧率和高通道容量提取视觉特征(生理嘴唇外观)。使用开放式协议,我们使用CREMA-D数据集训练了我们的网络,并在测试集上获得了0.005的等误差率(EER)。考虑到获得的EER低于大多数类似的LBBA方法,我们的方法可以被视为一种最先进的LBBA方法。
论文链接: https://arxiv.org/abs/2407.08717
临床眼科专家视觉语言模型
原标题: Specialist vision-language models for clinical ophthalmology
作者: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten (on behalf of the PINNACLE consortium)
机构: 伦敦帝国学院 南安普顿大学 伦敦摩尔菲尔德眼科医院 国立卫生服务信托基金 维也纳医科大学 慕尼黑工业大学 巴塞尔大学 巴塞尔分子与临床眼科学研究所
摘要: 临床医生花费大量时间审查医学影像,并将他们关于患者诊断、转诊和治疗的发现转录成文本形式。视觉语言模型(VLMs)可以自动解释图像并总结它们的发现为文本,具有巨大潜力来减轻临床工作量,并增加患者获得高质量医疗护理的机会。尽管基础模型在医学界引起了相当大的兴趣,但它们的通用能力是否能转化为真实世界的临床效用尚不清楚。在这项工作中,我们展示了基础VLMs在关键于治疗老年性黄斑变性(AMD)患者的专业任务上明显表现不佳,与实际眼科医生相比。为了解决这个问题,我们首先确定了基于图像的临床决策所需的基本能力,然后开发了一个课程,有选择地训练VLMs这些技能。最终的模型RetinaVLM可以被指示编写报告,在疾病分期(F1分数为0.63 vs. 0.11)和患者转诊(0.67 vs. 0.39)方面明显优于领先的基础医学VLMs编写的报告,并接近初级眼科医生的诊断表现(他们在相应任务上分别达到0.77和0.78)。此外,在涉及两位拥有长达32年经验的高级眼科医生的读者研究中,发现RetinaVLM的报告在正确性(78.6% vs. 82.1%)和完整性(均为78.6%)方面与初级眼科医生的报告相似,后者拥有长达10年的经验。这些结果表明,我们基于课程的方法为使通用基础医学VLMs专门处理真实世界临床任务提供了一个蓝图。
论文链接: https://arxiv.org/abs/2407.08410
DenseFusion-1M: 合并视觉专家以实现全面多模态感知
原标题: DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
作者: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
机构: 北京大学 北京人工智能研究院 大连理工大学
摘要: 现有的多模态大型语言模型(MLLMs)越来越强调对各种视觉元素的复杂理解,包括多个对象、文本信息和空间关系。它们在全面视觉感知的发展上依赖于提供多样化视觉元素和全面图像描述的高质量图像文本数据集。然而,目前这种超详细数据集的稀缺性阻碍了MLLM社区的进展。瓶颈源自当前字幕引擎的有限感知能力,无法提供完整准确的注释。为了促进MLLM在全面视觉感知上的尖端研究,我们因此提出了感知融合,使用低成本但高效的字幕引擎进行完整准确的图像描述。具体而言,感知融合整合了多样的感知专家作为图像先验,提供关于视觉元素的明确信息,并采用高效的MLLM作为中心枢纽,模仿先进MLLM的感知能力。我们精心从未筛选的LAION数据集中选择了100万张代表性很高的图像,并使用我们的引擎生成了密集描述,称为DenseFusion-1M。广泛的实验证实了我们的引擎优于其对手,由此产生的数据集显著提高了现有MLLM在各种视觉语言基准上的感知和认知能力,特别是在输入高分辨率图像时。该数据集和代码可在此https URL上公开获取。
论文链接: https://arxiv.org/abs/2407.08303
Github: https://github.com/baaivision/DenseFusion
eyeballvul:未来可靠的野外漏洞检测基准测试
原标题: eyeballvul: a future-proof benchmark for vulnerability detection in the wild
作者: Timothee Chauvin
摘要: 最近大语言模型的长文本使得出现了一个新的用例:要求模型在整个代码库中查找安全漏洞。为了评估模型在这一任务上的表现,我们引入了 eyeballvul:一个旨在测试语言模型在规模上检测漏洞能力的基准,每周从开源代码库中发布的漏洞流中获取并更新。该基准包含不同代码库中的修订列表,每个修订与该修订中存在的已知漏洞列表相关联。基于大语言模型的评分器用于比较模型返回的可能漏洞列表与每个修订的已知漏洞列表。截至2024年7月,eyeballvul 包含来自6,000多个修订和5,000多个代码库的24,000多个漏洞,大小约为55GB。
论文链接: https://arxiv.org/abs/2407.08708
SciQu:利用自动文献挖掘加速材料性能预测,实现自动驾驶实验室。
原标题: SciQu: Accelerating Materials Properties Prediction with Automated Literature Mining for Self-Driving Laboratories
作者: Anand Babu
机构: 印度纳米科学与技术研究所
摘要: 评估不同材料属性以预测特定属性,如带隙、电阻率、杨氏模量、功函数和折射率,是材料科学应用的基本要求。然而,这一过程耗时且通常需要进行大量文献综述和大量实验。我们的研究通过利用机器学习来分析材料属性,以更高的精度和效率应对这些挑战。通过自动化数据提取过程并利用提取的信息来训练机器学习模型,我们开发的模型SciQu 优化了材料属性。作为概念验证,我们使用SciQu从众多研究文章中提取的数据预测了材料的折射率,考虑输入描述符如空间群、体积和带隙,其均方根误差(RMSE)为0.068,R2为0.94。因此,SciQu不仅可以预测材料的属性,还通过优化合成参数在自动化实验室中发挥关键作用,以实现材料在输入参数下的精确形状、尺寸和相位。
论文链接: https://arxiv.org/abs/2407.08270
知识蒸馏,有效地从图像中获取出现多个对象的感兴趣区域和全局语义。
原标题: Knowledge distillation to effectively attain both region-of-interest and global semantics from an image where multiple objects appear
作者: Seonwhee Jin
摘要: 基于卷积神经网络(CNN)和Transformer的模型不断得到改进。它们也被应用于各种计算机视觉下游任务中。然而,在目标检测任务中,准确定位和分类图像中几乎无限类别的食物仍然具有挑战性。为了解决这些问题,我们首先使用分割任何物体模型(SAM)将食物分割为感兴趣区域(ROI),并将除ROI之外的区域遮罩为黑色像素。这个过程将问题简化为单一分类问题,其注释和训练比目标检测要简单得多。只保留ROI的图像被用作输入,对各种现成模型进行微调,这些模型编码了它们自己的归纳偏差。其中,数据高效图像Transformer(DeiTs)表现出最佳的分类性能。然而,当食物的形状和纹理相似时,仅有ROI的图像的上下文特征不足以进行准确分类。因此,我们引入了一种新型的组合架构,RveRNet,它由ROI、额外ROI和集成模块组成,使其能够考虑ROI和全局上下文。当对模糊食物图像进行分类时,RveRNet的F1分数比其他单独模型提高了10%。如果RveRNet的模块是DeiT,并且通过从CNN进行知识蒸馏,则表现最佳。我们研究了如何使架构能够抵抗由排列和平移引起的输入噪声。结果表明,CNN教师的知识能够被蒸馏到DeiT和DeiT固有强度之间存在权衡。代码可在以下网址公开获取:https://这个URL。
论文链接: https://arxiv.org/abs/2407.08257
Github: https://github.com/Seonwhee-Genome/RveRNet
揭示孕产护理中的差异:采用主题建模方法分析孕产事件调查报告
原标题: Unveiling Disparities in Maternity Care: A Topic Modelling Approach to Analysing Maternity Incident Investigation Reports
作者: Georgina Cosma, Mohit Kumar Singh, Patrick Waterson, Gyuchan Thomas Jun, Jonathan Back
机构: 拉夫堡大学 健康服务安全调查机构(HSSIB)
摘要: 本研究应用自然语言处理技术,包括潜在狄利克雷分配,分析医疗安全调查分部的匿名产科事故调查报告。报告经过预处理,使用安全情报研究分类法进行注释,并进行主题建模以揭示主要议题,并检测不同族裔群体之间产科护理的差异。结合离线和在线方法以确保数据保护,并通过“Claude 3 Opus”语言模型对敏感数据进行离线处理,对非敏感数据进行在线处理。采用交互式主题分析和语义网络可视化提取和展示主题议题,并可视化关键词之间的语义关系。分析显示不同族裔群体在护理方面存在差异,对黑人、亚裔和英国白人族裔群体有着明确的关注领域。研究展示了主题建模和自然语言处理技术在分析产科事故调查报告和凸显护理差异方面的有效性。研究结果强调了先进数据分析在改善产科护理质量和公平性中的关键作用。
论文链接: https://arxiv.org/abs/2407.08328
在神经形态和边缘人工智能硬件上高效部署混合SNNs的方向
原标题: Towards Efficient Deployment of Hybrid SNNs on Neuromorphic and Edge AI Hardware
作者: James Seekings, Peyton Chandarana, Mahsa Ardakani, MohammadReza Mohammadi, Ramtin Zand
机构: 南卡罗来纳大学
摘要: 本文探讨了神经形态学和边缘计算的协同潜力,以创建一个适用于处理动态视觉传感器捕获数据的多功能机器学习(ML)系统。我们使用 PyTorch 和 Lava 框架构建和训练混合模型,融合脉冲神经网络(SNNs)和人工神经网络(ANNs)。我们的混合架构集成了用于时序特征提取的 SNN 和用于分类的 ANN。我们深入探讨了在硬件上部署这种混合结构面临的挑战。具体而言,我们在英特尔的神经形态处理器 Loihi 上(用于 SNN)和 Jetson Nano 上(用于 ANN)部署了各个组件。我们还提出了一个累加器电路,用于将数据从脉冲到非脉冲领域传输。此外,我们在神经形态和边缘 AI 硬件的异构系统上进行了混合 SNN-ANN 模型的全面性能分析,评估准确性、延迟、功耗和能耗。我们的研究结果表明,混合脉冲网络在所有指标上均优于基准 ANN 模型,并在准确性和延迟方面优于基准 SNN 模型。
论文链接: https://arxiv.org/abs/2407.08704
Flex-TPU:具有运行时可重配置数据流架构的灵活TPU
原标题: Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture
作者: Mohammed Elbtity, Peyton Chandarana, Ramtin Zand
机构: 南卡罗来纳大学
摘要: 张量处理单元(TPUs)是最知名的机器学习(ML)加速器之一,在数据中心以及小型ML应用中大规模使用。TPUs相比传统的ML加速器(如图形处理单元(GPUs))提供了几项改进和优势,专门设计用于执行深度神经网络(DNNs)中广泛存在的矩阵-矩阵和矩阵-向量乘法所需的乘-累加(MAC)操作。这些改进包括通过利用由并行阵列体系结构提供的时间数据流范式,最大化数据重用和最小化数据传输。虽然这种设计提供了显著的性能优势,但当前的实现受限于单一数据流,包括输入、输出或权重静止体系结构。这可能限制了DNN推断的性能和计算单元的利用率。因此,本文的工作包括开发一种可重新配置数据流的TPU,称为Flex-TPU,它可以在运行时动态地改变每层的数据流。我们的实验通过对比Flex-TPU与多个知名ML工作负载上的传统TPU设计,彻底测试了Flex-TPU的可行性。结果显示,与传统TPU相比,我们的Flex-TPU设计实现了高达2.75倍的显著性能提升,仅具有轻微的面积和功耗开销。
论文链接: https://arxiv.org/abs/2407.08700
团结一致:具有损耗的去中心化多智能体规划
原标题: United We Stand: Decentralized Multi-Agent Planning With Attrition
作者: Nhat Nguyen, Duong Nguyen, Gianluca Rizzo, Hung Nguyen
机构: 阿德莱德大学 澳大利亚 HES SO Valais 瑞士 佛贾大学 意大利
摘要: 分散规划是合作多智能体系统中信息收集任务的关键要素。然而,在现实大规模部署场景中智能体失败频率较高的情况下,当前方法在失败发生时表现不佳,要么根本不收敛,要么利用资源(如能量)非常低效。在这项工作中,我们提出了Attritable MCTS(A-MCTS),这是一种分散的MCTS算法,能够及时有效地适应活跃智能体集合的变化。它基于使用全局奖励函数来估计每个智能体的本地贡献,并利用后悔匹配进行协调。我们在不同场景下评估了它在现实数据收集问题中的有效性。我们在理论和实验上都表明,即使在高故障率下,A-MCTS也能实现高效的适应。结果表明,在频繁故障的情况下,我们的解决方案在全局效用和可扩展性方面明显优于现有最佳方法。
论文链接: https://arxiv.org/abs/2407.08254
云图:使用语言模型和因果洞察实现云系统的高效故障定位
原标题: Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight
作者: Zhiqiang Xie, Yujia Zheng, Lizi Ottens, Kun Zhang, Christos Kozyrakis, Jonathan Mace
机构: 斯坦福大学 卡内基梅隆大学 微软研究院
摘要: 现代云系统中运行时故障和性能下降是司空见惯的。对于云服务提供商来说,自动确定事故根本原因对于确保高可靠性和可用性至关重要,因为及时的故障定位可以加快诊断和分类,以便及时解决。最近的研究中探讨了一种引人注目的解决方案,即使用因果推理来利用因果图捕获不同云系统性能指标之间的关系。然而,要使其有效,系统开发人员必须正确定义其系统的因果图,这是一项耗时、脆弱且具有挑战性的任务,对于大型和动态系统而言难度增加,并需要领域专业知识。另外,由于事故的固有罕见性,自动化的数据驱动方法在云系统中的效力有限。在这项工作中,我们提出了Atlas,一种自动合成云系统因果图的新方法。Atlas利用大型语言模型(LLMs)利用系统文档、遥测和部署反馈生成因果图。Atlas是数据驱动因果发现技术的补充,并且我们进一步通过数据驱动的验证步骤增强了Atlas。我们在一系列故障定位场景中评估了Atlas,并展示了Atlas能够以一种可扩展且可泛化的方式生成因果图,其性能远远超过数据驱动算法,并与基准基线相当。
论文链接: https://arxiv.org/abs/2407.08694
梯度提升强化学习
原标题: Gradient Boosting Reinforcement Learning
作者: Benjamin Fuhrer, Chen Tessler, Gal Dalal
机构: 英伟达研究所
摘要: 神经网络(NN)在各种任务中取得了显著的成果,但缺乏关键特征:可解释性、对分类特征的支持以及适用于边缘设备的轻量级实现。虽然持续的努力旨在解决这些挑战,但梯度提升树(GBT)固有地满足这些要求。因此,GBT已成为许多现实世界应用和竞赛中监督学习任务的首选方法。然而,它们在在线学习场景中的应用,特别是在强化学习(RL)中,受到了限制。在这项工作中,我们通过引入梯度提升强化学习(GBRL)框架来弥合这一差距,该框架将GBT的优势扩展到RL领域。使用GBRL框架,我们实现了各种演员-评论家算法,并将它们的性能与它们的NN对应物进行了比较。受到NN中共享骨干的启发,我们引入了一种用于策略和值函数的树共享方法,具有不同的学习率,提高了在数百万次交互中的学习效率。GBRL在各种任务中取得了竞争性能,在具有结构化或分类特征的领域表现出色。此外,我们提供了一个高性能的、GPU加速的实现,可以与广泛使用的RL库无缝集成(可在此网址获得)。GBRL扩展了RL从业者的工具包,展示了GBT在RL范式中的可行性和潜力,特别是在具有结构化或分类特征的领域。
论文链接: https://arxiv.org/abs/2407.08250
Github: https://github.com/NVlabs/gbrl
ElasticAST:适用于所有长度和分辨率的音频频谱变换器
原标题: ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
作者: Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
机构: 韩国科学技术院(KAIST)
摘要: Transformer已经迅速取代基于CNN的架构,成为音频分类的新标准。基于Transformer的模型,比如音频频谱Transformer(AST),也继承了从CNN中固定大小输入的范式。然而,当输入长度在推理时与训练时不同时,这会导致AST在推理中性能下降。本文介绍了一种方法,可以在AST模型的训练和推理过程中使用可变长度的音频输入。通过使用序列打包,我们的方法ElasticAST在训练过程中适应任何音频长度,从而在推理时提供了各种长度和分辨率的灵活性。这种灵活性使得ElasticAST能够在各种长度或分辨率下保持评估能力,并实现与在特定长度或分辨率下训练的标准AST相似的性能。此外,实验证明,当在原始长度音频数据集上进行训练和评估时,ElasticAST表现出更好的性能。
论文链接: https://arxiv.org/abs/2407.08691
GeNet:基于多模态大语言模型的网络拓扑和配置副驾驶
原标题: GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration
作者: Beni Ifland, Elad Duani, Rubin Krief, Miro Ohana, Aviram Zilberman, Andres Murillo, Ofir Manor, Ortal Lavi, Hikichi Kenji, Asaf Shabtai, Yuval Elovici, Rami Puzis
机构: 本杰文大学内盖夫分校 福吉通讯
摘要: 在企业环境中,通信网络工程传统上是一个复杂、耗时且容易出错的手动过程。大多数关于网络工程自动化的研究集中在配置合成上,往往忽视了物理网络拓扑的变化。本文介绍了GeNet,这是一个面向企业网络工程师的多模式辅助系统。GeNet是一个新颖的框架,利用大语言模型(LLM)来简化网络设计工作流程。它利用视觉和文本模式来解释和更新基于用户意图的网络拓扑和设备配置。GeNet在从思科认证练习中改编的企业网络场景中进行了评估。我们的结果表明,GeNet能够准确解释网络拓扑图像,潜在地减少网络工程师的工作量,并加快企业环境中的网络设计流程。此外,我们展示了在处理需要修改网络拓扑的意图时,精确理解拓扑结构的重要性。
论文链接: https://arxiv.org/abs/2407.08249
利用大语言模型通过智能手机传感器特征预测情绪状态
原标题: Leveraging LLMs to Predict Affective States via Smartphone Sensor Features
作者: Tianyi Zhang, Songyan Teng, Hong Jia, Simon D’Alfonso
机构: 墨尔本大学
摘要: 随着年轻成年人的心理健康问题成为一个紧迫的公共卫生问题,每日数字情绪监测以进行早期检测已成为一个重要的前景。数字表型学作为一个活跃的研究领域,涉及从个人数字设备(如智能手机(使用和传感器)和可穿戴设备)收集和分析数据,以推断行为和心理健康。虽然这些数据通常使用统计和机器学习方法进行分析,但大语言模型(LLMs)的出现提供了一种新方法来理解智能手机传感数据。尽管在各个领域的有效性已经得到证实,但LLMs在数字心理健康领域仍然相对未被探索,特别是在整合移动传感器数据方面。我们的研究旨在利用LLMs根据大学生的智能手机传感数据来预测情感结果,以弥补这一空白。我们展示了零样本和少样本嵌入LLMs在推断一般幸福感方面的有效性。我们的研究结果显示,LLMs可以仅利用智能手机传感数据进行情感测量的有希望的预测。这项研究揭示了LLMs在情感状态预测方面的潜力,强调了智能手机行为模式与情感状态之间错综复杂的联系。据我们所知,这是第一项利用LLMs进行情感状态预测和数字表型任务的工作。
论文链接: https://arxiv.org/abs/2407.08240
stEnTrans:基于Transformer的深度学习用于空间转录组学增强
原标题: stEnTrans: Transformer-based deep learning for spatial transcriptomics enhancement
作者: Shuailin Xue, Fangfang Zhu, Changmiao Wang, Wenwen Min
机构: 云南大学 云南开放大学 深圳大数据研究院
摘要: 细胞在组织和器官中的空间位置对其特定功能的表现至关重要。空间转录组学技术能够全面测量组织中的基因表达模式,同时保留空间信息。然而,目前流行的空间转录组学技术要么具有较浅的测序深度,要么分辨率较低。我们提出了stEnTrans,这是一种基于Transformer架构的深度学习方法,可以全面预测未测量区域或意外丢失区域的基因表达,并增强原始和输入点的基因表达。利用自监督学习方法,stEnTrans在基因表达谱上建立了代理任务,无需额外数据,挖掘组织的内在特征作为监督信息。我们在六个数据集上评估了stEnTrans,结果表明与其他深度学习和传统插值方法相比,该方法在增强点的分辨率和预测未测量区域的基因表达方面表现出优越性能。此外,我们的方法还可以帮助发现空间转录组学中的空间模式,并丰富更多生物学上显著的通路。我们的源代码可在以下网址找到:https://github.com/…(链接地址)。
论文链接: https://arxiv.org/abs/2407.08224
Github: https://github.com/shuailinxue/stEnTrans
SPOCKMIP:使用最大强度投影作为损失,在 MRA 中增强连续性的血管分割
原标题: SPOCKMIP: Segmentation of Vessels in MRAs with Enhanced Continuity using Maximum Intensity Projection as Loss
作者: Chethan Radhakrishna, Karthikesh Varma Chintalapati, Sri Chandana Hudukula Ram Kumar, Raviteja Sutrave, Hendrik Mattern, Oliver Speck, Andreas Nürnberger, Soumick Chatterjee
机构: 奥托·冯·格里克麦格德堡大学
摘要: 在生物医学图像中识别不同大小的血管结构对于许多神经退行性疾病的诊断至关重要。然而,这些图像的高质量注释稀缺性使得血管分割任务具有挑战性。深度学习通过学习不同大小血管的高级特征表示以及这些特征在维度间的空间连续性,提供了一种有效的分割血管的方式。基于半监督补丁的方法已经有效地识别直径为一个到两个体素的小血管。本研究侧重于通过考虑特征的空间相关性来改善分割质量,使用最大强度投影(MIP)作为额外的损失标准。提出了两种方法,将标签分割的MIPs合并到三维体积的单个(z轴)和多个可感知轴上。提出的基于MIP的方法产生了具有改善血管连续性的分割结果,在感兴趣区域的视觉检查中明显可见。通过引入额外的损失项MIP损失来改进基于补丁的训练,以惩罚预测的血管不连续性。从StudyForrest数据集中选择了包含18个7-Tesla 3D时间飞行(ToF)磁共振血管造影(MRA)图像的14个体积的训练集。使用数据集中的其他未见体积评估了该方法的泛化性能。观察到,提出的具有多轴MIP损失的方法产生了更好质量的分割结果,中位数Dice为 80.245 ± 0.129 80.245 \pm 0.129 80.245±0.129。此外,具有单轴MIP损失的方法产生了中位数Dice为 79.749 ± 0.109 79.749 \pm 0.109 79.749±0.109的分割结果。此外,在预测分割的感兴趣区域进行视觉比较时,当MIP损失纳入训练时,血管连续性显著改善。
论文链接: https://arxiv.org/abs/2407.08655
利用组织学图像进行空间基因表达预测的多模态对比学习
原标题: Multimodal contrastive learning for spatial gene expression prediction using histology images
作者: Wenwen Min, Zhiceng Shi, Jun Zhang, Jun Wan, Changmiao Wang
机构: 云南大学 中南财经政法大学 深圳大数据研究院
摘要: 近年来,空间转录组学(ST)技术的出现为深入研究复杂生物系统内基因表达模式的机会提供了前所未有的机遇。尽管具有改变潜力,但ST技术的高昂成本仍然是其在大规模研究中广泛应用的重要障碍。一种替代成本更低的策略涉及利用人工智能来预测使用用Hematoxylin和Eosin(H&E)染色的易获得的全切片图像(WSIs)中的基因表达水平。然而,现有方法尚未充分利用H&E图像和带有空间位置的ST数据提供的多模态信息。在本文中,我们提出了一种名为\textbf{mclSTExp}的多模态对比学习方法,使用Transformer和Densenet-121编码器进行空间转录组表达预测。我们将每个点概念化为一个“单词”,通过Transformer编码器的自注意机制将其固有特征与空间上下文相结合。通过对比学习进一步丰富了这种整合,从而增强了我们模型的预测能力。我们在两个乳腺癌数据集和一个皮肤鳞状细胞癌数据集上对\textbf{mclSTExp}进行了广泛评估,证明了其在预测空间基因表达方面的优越性能。此外,mclSTExp在解释特异性癌基因、阐明与免疫相关基因以及识别病理学家注释的专门空间领域方面表现出潜力。我们的源代码可在此https URL找到。
论文链接: https://arxiv.org/abs/2407.08216
Github: https://github.com/shizhiceng/mclSTExp
实现并行持续学习的稳定训练
原标题: Towards stable training of parallel continual learning
作者: Li Yuepan, Fan Lyu, Yuyang Li, Wei Feng, Guangcan Liu, Fanhua Shang
机构: 天津大学 自动化与计算学院 中国科学院自动化研究所 东南大学
摘要: 并行持续学习(PCL)任务研究了多源输入的持续学习训练方法,其中来自不同任务的数据在到达时进行学习。PCL 提供了高效的训练效率,并且非常适合复杂的多源数据系统,例如配备多个传感器的自动驾驶车辆。然而,在任何时候,多个任务需要同时进行训练,这导致了 PCL 中严重的训练不稳定性。这种不稳定性在前向和后向传播过程中表现出来,特征交织在一起,梯度发生冲突。本文介绍了稳定的并行持续学习(SPCL),这是一种增强 PCL 前向和后向传播训练稳定性的新方法。对于前向传播,我们应用基于双重块 Toeplitz(DBT)矩阵的正交约束来确保网络参数的稳定和一致传播。对于后向传播,我们采用正交分解进行梯度管理,稳定反向传播并减轻跨任务的梯度冲突。通过通过确保正交性和最小化条件数来优化梯度,SPCL 有效地稳定了复杂优化任务中的梯度下降。实验结果表明,SPCL 胜过了最先进的方法,并实现了更好的训练稳定性。
论文链接: https://arxiv.org/abs/2407.08214
HACMan++:用于操作的空间基础运动基元
原标题: HACMan++: Spatially-Grounded Motion Primitives for Manipulation
作者: Bowen Jiang, Yilin Wu, Wenxuan Zhou, Chris Paxton, David Held
机构: 卡内基梅隆大学 Meta
摘要: 尽管端到端机器人学习在机器人操作方面取得了一些成功,但所学习的策略通常对物体姿态或几何形状的变化不够鲁棒。为了改善策略的泛化能力,我们在我们的方法HACMan++中引入了空间基础参数化运动基元。具体而言,我们提出了一个动作表示,包括三个组件:要执行什么基元类型(例如抓取或推动),基元将被基于哪里(例如夹爪将与世界接触的位置),以及如何执行基元运动,例如指定推动方向或抓取方向的参数。这三个组件为强化学习定义了一个新颖的离散连续动作空间。我们的框架使机器人智能体能够学习将不同的运动基元串联在一起,并选择适当的基元参数来完成长时间跨度的操作任务。通过在环境中的空间位置上基于基元,我们的方法能够有效地泛化到物体形状和姿态的变化。我们的方法在复杂场景中明显优于现有方法,特别是在需要高层次顺序推理和物体泛化的情况下。通过零样本从仿真到真实的转移,我们的策略成功地完成了具有泛化到未见过物体的挑战性真实世界操作任务。项目网站上可以找到视频:https://此处为URL。
论文链接: https://arxiv.org/abs/2407.08585
Github: https://sgmp-rss2024.github.io
ARCO:自适应多智能体强化学习硬件/软件协同优化编译器,用于改进深度神经网络加速器设计性能
原标题: ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design
作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram
机构: 南加州大学
摘要: 这篇论文介绍了ARCO,这是一个自适应的基于多智能体强化学习(MARL)的协同优化编译框架,旨在提高将机器学习(ML)模型(如深度神经网络(DNNs))映射到不同硬件平台的效率。该框架在MARL中整合了三个专门的演员-评论家智能体,每个智能体在抽象层面上专注于编译/优化的不同方面:一个智能体专注于硬件,而另外两个智能体专注于软件优化。这种整合产生了一种协同的硬件/软件协同优化策略,提高了DNN部署的精度和速度。专注于高置信度配置简化了搜索空间,并与当前优化方法相比提供了更优越的性能。ARCO框架超越了现有的主流框架,实现了多个DNN中吞吐量增加高达37.95%,同时将优化时间减少高达42.2%。
论文链接: https://arxiv.org/abs/2407.08192
1500万多模态人脸图像文本数据集
原标题: 15M Multimodal Facial Image-Text Dataset
作者: Dawei Dai, YuTang Li, YingGe Liu, Mingming Jia, Zhang YuanHui, Guoyin Wang
机构: 重庆邮电大学 计算机科学与技术学院
摘要: 目前,图像-文本驱动的多模态深度学习模型在许多领域展示了其卓越的潜力。在实践中,以面部图像为中心的任务具有广阔的应用前景。本文提出了\textbf{FaceCaption-15M},一个大规模、多样化且高质量的面部图像及其自然语言描述(面部图像到文本)数据集。该数据集旨在促进对以面部为中心的任务的研究。FaceCaption-15M 包含超过 1500 万对面部图像及其对应的面部特征自然语言描述,使其成为迄今为止最大的面部图像-字幕数据集。我们对图像质量、文本自然性、文本复杂性和文本-图像相关性进行了全面分析,以展示 FaceCaption-15M 的优越性。为了验证 FaceCaption-15M 的有效性,我们首先训练了一个面部语言-图像预训练模型(FLIP,类似于 CLIP),以在特征空间中对齐面部图像及其相应的字幕。随后,使用图像和文本编码器并仅微调线性层,我们基于 FLIP 的模型在两个具有挑战性的以面部为中心的任务中取得了最先进的结果。目的是通过提供所提出的 FaceCaption-15M 数据集来促进面部相关任务领域的研究。所有数据、代码和模型都是公开可用的。此 https URL
论文链接: https://arxiv.org/abs/2407.08515
其他链接: https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
基础模型工程:工程化基础模型,就像工程化软件一样
原标题: Foundation Model Engineering: Engineering Foundation Models Just as Engineering Software
作者: Dezhi Ran, Mengzhou Wu, Wei Yang, Tao Xie
机构: 北京大学
摘要: 通过将数据和模型视为源代码,基础模型(FMs)成为一种新型软件。类比软件危机的概念,FMs日益复杂化使得FM危机成为未来十年一个切实的关注点,呼吁从软件工程领域引入新的理论和方法论。在本文中,我们概述了引入基础模型(FM)工程的愿景,这是对预期的FM危机的一种策略性回应,采用原则性的工程方法论。FM工程旨在通过引入声明式、自动化和统一的编程接口,为数据和模型管理提供更结构化和直观的开发过程,从而减少与FMs工作中涉及的复杂性。通过建立FM工程,我们旨在提供一个强大、自动化且可扩展的框架,解决即将出现的挑战,并为软件工程领域发现新的研究机会。
论文链接: https://arxiv.org/abs/2407.08176
通过自然梯度下降实现更快的机器学习遗忘
原标题: Faster Machine Unlearning via Natural Gradient Descent
作者: Omri Lev, Ashia Wilson
机构: 麻省理工学院
摘要: 我们解决了使用经验风险最小化(ERM)训练的机器学习模型中高效可靠地删除数据的挑战,这个过程被称为机器遗忘。为了避免从头开始重新训练模型,我们提出了一种利用自然梯度下降(NGD)的新算法。我们的理论框架确保了凸模型的强隐私保证,同时为非凸模型开发了一个实用的最小/最大优化算法。全面的评估显示,与最先进的方法相比,在隐私、计算效率和泛化能力方面都取得了显著的改进,推动了机器遗忘的理论和实践方面的发展。
论文链接: https://arxiv.org/abs/2407.08169
利用条件生成对抗网络生成合成电子视网膜图信号以增强自闭症谱系障碍分类
原标题: Synthetic Electroretinogram Signal Generation Using Conditional Generative Adversarial Network for Enhancing Classification of Autism Spectrum Disorder
作者: Mikhail Kulyabin, Paul A. Constable, Aleksei Zhdanov, Irene O. Lee, David H. Skuse, Dorothy A. Thompson, Andreas Maier
机构: 德国埃尔朗根-纽伦堡大学 澳大利亚弗林德斯大学 伦敦大学学院
摘要: 电子视网膜图(ERG)是一种临床测试,记录视网膜对光的电响应。ERG是研究不同神经发育和神经退行性疾病的一种有前途的方法,包括自闭症谱系障碍(ASD)- 一种影响语言、沟通和相互社交互动的神经发育状况。然而,在异质人群中,如ASD,由于收集大型数据集的能力有限,人工智能(AI)的应用变得复杂。从真实ERG记录生成的合成ERG信号携带与自然ERG类似的信息,因此可以用作自然数据的扩展,以增加数据集,从而充分利用AI应用。作为原理验证,本研究提出了一种能够生成ASD患儿和典型发育正常对照个体的合成ERG信号的生成对抗网络。我们应用了时间序列Transformer和视觉Transformer与连续小波变换,以增强对扩展合成信号数据集的分类结果。这种方法可能支持在ERG可能有助于分类障碍的相关精神状况中的分类模型。
论文链接: https://arxiv.org/abs/2407.08166