2024年7月24日Arxiv人工智能相关论文

HAPFI:基于融合信息的历史感知规划

原标题: HAPFI: History-Aware Planning based on Fused Information

作者: Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang

机构: 中山大学 清华大学

摘要: 具身指令遵循(EIF)是一个任务,即根据高层自然语言指令规划一系列子目标,例如“冲洗一片生菜并放在白色桌子上,靠近叉子”。为了成功执行这些长期规划任务,我们认为智能体在每一步做决策时必须考虑其过去,即历史数据。然而,最近在EIF方面的方法经常忽略了来自历史数据的知识,也没有有效利用跨模态的信息。因此,我们提出了基于融合信息的历史感知规划(HAPFI),有效利用智能体在与环境互动时收集的来自不同模态的历史数据。具体来说,HAPFI通过我们的相互关注融合方法有效地整合多个模态,包括历史RGB观察、边界框、子目标和高层指令。通过与多种方法进行实验比较,我们展示了利用历史多模态信息的智能体在行动规划能力方面超越了所有忽略历史数据的方法,从而能够为下一步生成经过深思熟虑的行动计划。此外,我们提供了定性证据,突出了利用历史多模态数据的重要性,特别是在智能体遇到中间失败的情况下,展示了其强大的重新规划能力。

论文链接: https://arxiv.org/abs/2407.16533

为道德可调节的机器人助手提供德性伦理学

原标题: Virtue Ethics For Ethically Tunable Robotic Assistants

作者: Rajitha Ramanayake, Vivek Nallur

机构: 都柏林大学学院 班菲尔德

摘要: 普遍共识是,设计用于与人类共同工作或为人类服务的机器人必须遵守其运行环境的道德标准。为实现这一目标,已经提出了几种基于已建立的伦理理论的方法。然而,许多经验研究表明,现实世界的道德要求非常多样,且在不同地区之间可能迅速变化。这消除了一个可以适应任何伦理背景的通用机器人的概念。然而,使用现有技术为每个部署创建定制机器人是具有挑战性的。本文提出了一种克服这一挑战的方法,即引入一种受美德伦理启发的计算方法,该方法使得可以基于性格进行调整,以适应环境的特定道德需求。通过使用模拟的老年护理环境,我们阐述了如何利用调整来改变机器人与居住在辅助环境中的老年人的互动行为。此外,我们通过咨询伦理学家来评估机器人的响应,以确定潜在的不足之处。

论文链接: https://arxiv.org/abs/2407.16361

基于Transformer的图神经网络用于AIoT电池交换服务中的电池续航预测

原标题: Transformer-based Graph Neural Networks for Battery Range Prediction in AIoT Battery-Swap Services

作者: Zhao Li, Yang Liu, Chuan Zhou, Xuanwu Liu, Xuming Pan, Buqing Cao, Xindong Wu

机构: 浙江实验室 中国科学院数学与系统科学研究院 中国科学院大学网络空间安全学院 湖南科技大学 合肥工业大学 杭州宇谷科技有限公司

摘要: 在共享经济的概念已经得到广泛认可的背景下,共享电动自行车电池(SEB)已经成为社会关注的焦点。尽管备受欢迎,用户对SEB剩余电池续航里程的期望与现实之间仍存在显著差异,导致用户在紧急情况下倾向于寻找可用的SEB。针对这一挑战,人工智能物联网(AIoT)和电池更换服务的整合被提出作为一种可行解决方案。本文提出了一种新颖的基于Transformer的结构模型,称为SEB-Transformer,专门用于预测SEB的电池续航里程。该场景被构想为一个动态的异构图,包含了用户和自行车之间的互动,为分析提供了一个全面的框架。此外,我们将图结构纳入SEB-Transformer中,以促进对剩余电动自行车电池续航里程的估计,结合平均结构相似性,提高了预测准确性。通过利用我们模型的预测结果,我们能够实时动态调整用户的最佳骑行路线,同时考虑充电站的战略位置,从而优化用户体验。在真实世界数据集上,我们的实证结果展示了我们模型相对于九种竞争基准模型的优越性。这些由AIoT驱动的创新不仅弥合了用户期望与电池续航里程的物理限制之间的差距,还显著提高了SEB服务的运营效率和可持续性。通过这些进步,共享电动自行车生态系统正在发展,朝着更可靠、用户友好和可持续的交通方式迈进。

论文链接: https://arxiv.org/abs/2407.16115

关于知识图嵌入方法的表达能力

原标题: On The Expressive Power of Knowledge Graph Embedding Methods

作者: Jiexing Gao, Dmitry Rodin, Vasily Motolygin, Denis Zaytsev

机构: 莫斯科研究中心 华为技术有限公司

摘要: 知识图谱嵌入(KGE)是一种流行的方法,旨在在潜在空间中表示知识图谱的实体和关系。它们的表示被称为嵌入。为了衡量三元组的合理性,得分函数在嵌入空间中被定义。尽管KGE在各种任务中被广泛传播,但KGE方法在推理能力方面存在局限性。在本文中,我们提出了一个数学框架来比较KGE方法的推理能力。我们展示了STransE比TransComplEx具有更高的能力,然后提出了新的STransCoRe方法,通过将其与TransCoRe的见解相结合,可以降低STransE的空间复杂性。

论文链接: https://arxiv.org/abs/2407.16326

基于 OpenVINO 的神经网络模型的侧信道分析

原标题: Side-Channel Analysis of OpenVINO-based Neural Network Models

作者: Dirmanto Jap, Jakub Breier, Zdenko Lehocký, Shivam Bhasin, Xiaolu Hou

机构: 新加坡南洋理工大学 斯洛伐克科技大学 维也纳TTControl GmbH

摘要: 具有神经网络加速器的嵌入式设备为用户提供了极大的灵活性,减少了使用基于云的服务的需求。与此同时,它们在硬件攻击领域引入了新的安全挑战,其中最突出的是侧信道分析(SCA)。已经表明,SCA可以以高精度恢复模型参数,对希望保持其模型机密性的实体构成威胁。在本文中,我们探讨了在OpenVINO中实现的量化模型在部署神经网络到嵌入式和边缘设备上的易感性。我们展示了可以以高精度恢复模型参数,使恢复的模型性能非常接近原始模型。我们对GoogleNet v1进行的实验显示,Top 1准确率仅有1%的差异,Top 5准确率仅有0.64%的差异。

论文链接: https://arxiv.org/abs/2407.16467

关于异构联邦学习中的ADMM:个性化、鲁棒性和公平性

原标题: On ADMM in Heterogeneous Federated Learning: Personalization, Robustness, and Fairness

作者: Shengkun Zhu, Jinshan Zeng, Sheng Wang, Yuan Sun, Xiaodong Li, Yuan Yao, Zhiyong Peng

机构: 清华大学 百度

摘要: 统计异质性是联邦学习(FL)中准确性、公平性和鲁棒性之间紧张关系的根本原因,也是开辟前进道路的关键。个性化联邦学习(PFL)是一种旨在通过为个体用户开发个性化模型来减少统计异质性影响的方法,同时在公平性和鲁棒性方面具有内在优势。然而,现有的PFL框架侧重于改善个性化模型的性能,而忽视了全局模型。此外,这些框架实现了次线性收敛速率,并依赖于强假设。在本文中,我们提出了FLAME,这是一个利用交替方向乘子法(ADMM)来训练个性化和全局模型的优化框架。我们提出了一种模型选择策略,以提高在客户端具有不同类型异构数据的情况下的性能。我们的理论分析建立了FLAME的全局收敛性和两种收敛速率,这是在温和假设下的。我们在理论上证明了FLAME在一类线性问题上比最先进的方法更具鲁棒性和公平性。我们的实验结果表明,FLAME在收敛性和准确性方面优于最先进的方法,并且在各种攻击下实现更高的测试准确性,并且在客户端之间表现更加均匀。

论文链接: https://arxiv.org/abs/2407.16397

在因子图中高效检测可交换因子

原标题: Efficient Detection of Commutative Factors in Factor Graphs

作者: Malte Luttermann, Johann Machemer, Marcel Gehrke

机构: 德国人工智能研究中心(DFKI) 吕贝克大学 汉堡大学

摘要: 提升的概率推断利用概率图模型中的对称性,实现对于领域大小的可处理概率推断。为了利用因子图中的对称性,例如,关键是要识别可交换因子,即由于它们的参数可互换而在自身内部具有对称性的因子。目前检查因子是否相对于其参数子集是可交换的最先进方法是遍历因子参数的所有可能子集,即在最坏情况下对于具有 n n n个参数的因子需要 O ( 2 n ) O(2^n) O(2n)次迭代。在本文中,我们高效地解决了在因子图中检测可交换因子的问题。具体而言,我们引入了检测可交换因子(DECOR)算法,该算法使我们能够大幅减少实际中检查因子是否可交换的计算工作量。我们证明DECOR有效地识别出限制条件,从而大幅减少所需迭代次数,并通过实证评估验证了DECOR的效率。

论文链接: https://arxiv.org/abs/2407.16280

使用大语言模型和图神经网络对蛋白质模型进行排名

原标题: Ranking protein-protein models with large language models and graph neural networks

作者: Xiaotong Xu, Alexandre M.J. J. Bonvin

机构: 乌得勒支大学

摘要: 蛋白质-蛋白质相互作用(PPIs)与各种疾病相关,包括癌症、感染和神经退行性疾病。获取这些PPIs的三维结构信息可作为干预或指导药物设计的基础。可以采用各种策略来对这些复合物进行建模,通常会生成大量模型。在这个过程中具有挑战性的一步是从生成的大量模型中识别出好的模型(接近天然的PPI构象)。为了解决这一挑战,我们先前开发了DeepRank-GNN-esm,这是一种基于图的深度学习算法,用于对建模的PPI结构进行排序,利用了蛋白质语言模型的强大功能。在这里,我们详细介绍了我们的软件的使用示例。DeepRank-GNN-esm可在此网址免费获取。

论文链接: https://arxiv.org/abs/2407.16375

Github: https://github.com/haddocking/DeepRank-GNN-esm

ODGR:在线动态目标识别

原标题: ODGR: Online Dynamic Goal Recognition

作者: Matan Shamir, Osher Elhadad, Matthew E. Taylor, Reuth Mirsky

机构: 巴伊兰大学 阿尔伯塔大学 人工智能研究所 (Amii)

摘要: 传统上,强化学习(RL)问题旨在优化智能体的行为。本文提出了对RL的新颖看法,用于学习另一个智能体的策略,以实现对该智能体目标的实时识别。目标识别(GR)传统上被构建为一个规划问题,其中必须根据观察到的行动来识别智能体的目标。最近的方法已经展示了如何将强化学习用作GR流程的一部分,但仅限于识别预定义目标,并且在目标空间较大的领域中缺乏可扩展性。本文提出了一个新颖的问题,“在线动态目标识别”(ODGR),作为解决这些限制的第一步。贡献包括将动态目标的概念引入标准GR问题定义中,通过使用ODGR重新制定常见方法,以及展示在导航领域使用迁移学习解决ODGR的可行性。这些新颖的表述为未来扩展现有基于迁移学习的GR方法打开了大门,这些方法将能够应对不断变化和扩展的实时环境。

论文链接: https://arxiv.org/abs/2407.16220

TWIN V2:在快手上扩展超长用户行为序列建模,以提高点击率预测

原标题: TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou

作者: Zihua Si, Lin Guan, ZhongXiang Sun, Xiaoxue Zang, Jing Lu, Yiqun Hui, Xingchao Cao, Zeyu Yang, Yichen Zheng, Dewei Leng, Kai Zheng, Chenbin Zhang, Yanan Niu, Yang Song, Kun Gai

机构: 人民大学 快手科技有限公司

摘要: 在大规模推荐系统中,为了点击率预测任务建模长期用户兴趣的重要性正在逐渐引起研究人员和从业者的关注。现有的工作,如SIM和TWIN,通常采用两阶段方法来模拟长期用户行为序列,以解决效率问题。第一阶段通过名为通用搜索单元(GSU)的基于搜索的机制快速从长序列中检索与目标项目相关的序列子集,而第二阶段则利用精确搜索单元(ESU)计算检索结果的兴趣分数。鉴于用户行为序列的广泛长度跨越整个生命周期,潜在规模可能高达106,目前尚无有效解决方案能够完全模拟如此庞大的用户兴趣。为了克服这个问题,我们引入了TWIN-V2,这是TWIN的增强版,采用分而治之的方法来压缩生命周期行为并揭示更准确和多样化的用户兴趣。具体而言,层次聚类方法在离线阶段将具有相似特征的生命周期行为的项目分组到单个集群中。通过限制集群的大小,我们可以将行为序列压缩到远远超过105的长度,以便在GSU检索中进行在线推断。集群感知目标关注提取用户的全面和多方面的长期兴趣,从而使最终的推荐结果更加准确和多样化。在一个多十亿规模的工业数据集上进行了大量离线实验和在线A/B测试,证明了TWIN-V2的有效性。在一个高效的部署框架下,TWIN-V2已成功部署到快手服务的主要流量中,为数亿日活跃用户提供服务。

论文链接: https://arxiv.org/abs/2407.16357

基于 MCTS 的自主车辆在运营约束下的连续运输调度

原标题: MCTS Based Dispatch of Autonomous Vehicles under Operational Constraints for Continuous Transportation

作者: Milan Tomy, Konstantin M. Seiler, Andrew J. Hill

机构: 米兰托米,康斯坦丁·M·塞勒,安德鲁·J·希尔 就读于

摘要: 在采矿行业,通过调度具有离散运输能力的自主运输卡车实现了物料的连续运输。最近,蒙特卡洛树搜索(MCTS)成功应用于解决长期最优性、可扩展性和适应性等运输卡车调度中的挑战。通常,对矿山现场施加的操作约束由启发式控制器或人类操作员独立于调度计划来满足。本文通过利用基于MCTS的调度规划器Flow-Achieving Scheduling Tree (FAST) 将操作约束满足纳入调度规划中。操作约束的违反和满足被建模为调度中的组合优化问题中的机会成本。通过利用MCTS生成模型来推导机会成本,避免了显式成本公式的使用。对四种类型的操作约束进行的实验研究表明,利用机会成本来满足约束的成功,以及将约束整合到调度规划中的有效性。

论文链接: https://arxiv.org/abs/2407.16200

SOAP:增强了对少样本动作识别的时空关系和运动信息捕捉

原标题: SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

作者: Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang

机构: 东南大学 同济大学 南京师范大学

摘要: 高帧率(HFR)的动作识别视频提高了细粒度表达,同时减少了时空关系和运动信息密度。因此,传统的数据驱动训练需要大量的视频样本。然而,在现实场景中,样本并不总是足够的,这促进了少样本动作识别(FSAR)的研究。我们观察到,最近的少样本动作识别工作通过空间特征提取后的时间对齐来构建视频样本的时空关系,将样本内的空间和时间特征分开。他们还通过相邻帧之间的狭窄视角捕获运动信息,而不考虑密度,导致运动信息捕获不足。因此,我们在本文中提出了一种用于FSAR的新型即插即用架构,称为Spatio-tempOral frAme tuPle enhancer(SOAP)。我们设计的具有这种架构的模型称为SOAP-Net。考虑了不同特征通道之间的时间连接和特征的时空关系,而不是简单的特征提取。还捕获了全面的运动信息,使用包含比相邻帧更多运动信息的多帧帧元组。结合不同帧数的帧元组进一步提供了更广泛的视角。SOAP-Net在诸如SthSthV2、Kinetics、UCF101和HMDB51等知名基准上实现了新的最先进性能。广泛的实证评估突显了SOAP的竞争力、可插拔性、泛化能力和鲁棒性。代码发布在此https网址。

论文链接: https://arxiv.org/abs/2407.16344

Github: https://github.com/wenbohuang1002/SOAP

PhenoFlow:一个由人类驱动的大型语言模型(LLM)视觉分析系统,用于探索庞大复杂的中风数据集

原标题: PhenoFlow: A Human-LLM Driven Visual Analytics System for Exploring Large and Complex Stroke Datasets

作者: Jaeyoung Kim, Sihyeon Lee, Hyeon Jeon, Keon-Joo Lee, Hee-Joon Bae, Bohyoung Kim, Jinwook Seo

摘要: 急性中风需要及时诊断和治疗以实现最佳患者结果。然而,与急性中风相关的临床数据,特别是血压(BP)测量的错综复杂和不规则性质,给有效的视觉分析和决策带来了重大障碍。通过与经验丰富的神经学家一年的合作,我们开发了PhenoFlow,这是一个视觉分析系统,利用人类与大语言模型(LLMs)之间的协作来分析急性缺血性中风患者的广泛和复杂数据。PhenoFlow开创了一种创新的工作流程,其中LLM充当数据整理者,而神经学家则利用可视化和自然语言交互来探索和监督输出。这种方法使神经学家能够更多地专注于决策,减少认知负荷。为了保护敏感患者信息,PhenoFlow仅利用元数据进行推断和合成可执行代码,而不访问原始患者数据。这确保结果既可重现又可解释,同时保护患者隐私。该系统采用切片包裹设计,利用时间折叠创建一个叠加的圆形可视化。结合线性条形图,这种设计有助于探索不规则测量的血压数据中的有意义模式。通过案例研究,PhenoFlow已经证明了其支持广泛临床数据集的迭代分析的能力,减少认知负荷,并使神经学家能够做出明智决策。我们的研究立足于与领域专家的长期合作,展示了利用LLMs应对急性缺血性中风患者数据驱动临床决策当前挑战的潜力。

论文链接: https://arxiv.org/abs/2407.16329

MOMAland:多目标多智能体强化学习基准集

原标题: MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning

作者: Florian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu

机构: 卢森堡大学 费尔曼

摘要: 许多具有挑战性的任务,如管理交通系统、电力网络或供应链,涉及复杂的决策过程,必须平衡多个相互冲突的目标,并协调各种独立决策者(DMs)的行动。一个形式化和解决这类任务的视角是多目标多智能体强化学习(MOMARL)。MOMARL将强化学习(RL)扩展到需要考虑多个目标的多个智能体的问题中。在强化学习研究中,基准对于促进进展、评估和可重复性至关重要。基准的重要性凸显在为各种RL范式开发的众多基准框架的存在,包括单智能体RL(例如Gymnasium)、多智能体RL(例如PettingZoo)和单智能体多目标RL(例如MO-Gymnasium)。为了支持MOMARL领域的发展,我们介绍了MOMAland,这是第一个用于多目标多智能体强化学习的标准化环境集合。MOMAland满足了这一新兴领域全面基准测试的需求,提供了超过10个不同的环境,这些环境在智能体数量、状态表示、奖励结构和效用考虑方面各不相同。为了为未来研究提供强有力的基准,MOMAland还包括能够在这种设置中学习策略的算法。

论文链接: https://arxiv.org/abs/2407.16312

量子计算用于气候适应和可持续性挑战

原标题: Quantum Computing for Climate Resilience and Sustainability Challenges

作者: Kin Tung Michael Ho, Kuan-Cheng Chen, Lily Lee, Felix Burt, Shang Yu, Po-Heng (Henry)Lee

机构: 伦敦帝国理工学院

摘要: 气候变化不断加剧以及对可持续发展和自然资源管理日益增长的需求,需要创新的技术解决方案。量子计算(QC)已经成为一种有潜力彻底改变这些关键领域的工具。本综述探讨了量子机器学习和优化技术在气候变化预测和促进可持续发展方面的应用。传统的计算方法在处理气候模型和自然资源管理的规模和复杂性时经常表现不佳。然而,量子技术在计算效率和问题解决能力方面提供了显著的改进。通过综合最新的研究和发展,本文重点介绍了QC和量子机器学习如何优化多基础设施系统以实现气候中立。本文还评估了当前量子算法和硬件在实际应用中的性能,并提出了现实案例,例如厌氧消化中的废物转能、洪水预测中的灾害预防以及碳捕集新材料的开发。整合这些量子技术有望推动在实现气候适应能力和可持续发展方面取得重大进展。

论文链接: https://arxiv.org/abs/2407.16296

DALL-E、Stable Diffusion、SDXL 和 Midjourney 中的自闭症谱视觉刻板印象

原标题: Visual Stereotypes of Autism Spectrum in DALL-E, Stable Diffusion, SDXL, and Midjourney

作者: Maciej Wodziński, Marcin Rządeczka, Anastazja Szuła, Marta Sokół, Marcin Moskalewicz

机构: 玛丽亚·斯克沃多夫斯卡-居里大学 波兰 华沙 波兰 海德堡大学 德国 波兹南医学科学大学 德国 奥斯纳布吕克大学 德国

摘要: 避免系统性歧视需要调查人工智能模型传播刻板印象的潜力,这些刻板印象源自训练数据集的固有偏见。我们的研究调查了文本到图像模型如何无意中持续传播关于自闭症的非理性信念。研究协议涉及根据53个提示生成图像,旨在可视化与自闭症相关的具体对象和抽象概念,涵盖了四个模型:DALL-E、Stable Diffusion、SDXL 和 Midjourney(N=249)。通过一个包含10个演绎代码的框架对结果进行专家评估,这些代码代表社区有关常见刻板印象的争议,评估结果在序数尺度上量化,并经过统计分析,包括评价者之间的可靠性和规模效应。这些模型经常使用有争议的主题和符号,这些主题和符号分布不均,但在肤色、性别和年龄方面具有显著的同质性,自闭症患者被描绘为从事孤独活动,与物体而非人交互,并展示刻板的情绪表达,如苍白、愤怒或悲伤。其次,我们观察到在自闭症图像方面存在表现不敏感,尽管有指导性提示旨在证伪上述结果。此外,DALL-E明确否认持续传播刻板印象。我们将这解释为人工神经网络反映人类认知结构,涉及背景知识和反思性知识之间的差异,这一解释得到了我们先前关于人类自闭症相关刻板印象的研究的支持。

论文链接: https://arxiv.org/abs/2407.16292

通过主体内自监督学习的联邦学习用于人脸识别

原标题: Federated Learning for Face Recognition via Intra-subject Self-supervised Learning

作者: Hansol Kim, Hoyeol Choi, Youngjun Kwak

摘要: 联邦学习(FL)用于人脸识别,将来自各个客户端的局部优化模型聚合起来构建一个通用的人脸识别模型。然而,先前的研究提出了两个主要挑战:未充分整合自监督学习以及客户端需要适应多个主体。为了解决这些限制,我们提出了FedFS(通过主体内自监督学习框架进行个性化人脸识别的联邦学习),这是一种新颖的联邦学习架构,旨在训练个性化人脸识别模型而无需强加主体。我们提出的FedFS包括两个关键组件,利用本地和全局模型的聚合特征与现成模型的表示进行合作。这两个组件是:(1)自适应软标签构建,利用点积运算重新格式化实例内的标签,以及(2)主体内自监督学习,利用余弦相似度运算加强强大的主体内表示。此外,我们引入了正则化损失以防止过拟合并确保优化模型的稳定性。为了评估FedFS的有效性,我们在DigiFace-1M和VGGFace数据集上进行了全面实验,表明与先前方法相比表现更优异。

论文链接: https://arxiv.org/abs/2407.16289

对LLM的深度修剪进行更深入的研究

原标题: A deeper look at depth pruning of LLMs

作者: Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, Pavlo Molchanov

机构: 谷歌(Google) 德国马普计算机科学研究所(Max Planck Institute for Informatics)

摘要: 大语言模型(LLMs)不仅在训练过程中需要大量资源,而且在生产部署中成本更高。因此,最近的工作尝试根据廉价的代理来修剪LLMs的块,以估计块的重要性,有效地在训练良好的LLaMa-2和Mistral 7b模型中移除了10%的块,而不会对下游指标造成显著的降级。在本文中,我们通过考虑自适应指标(如Shapley值)来探讨不同的块重要性度量,除了之前工作中探讨的静态指标。我们展示了自适应指标在任务性能之间存在权衡,即在一个任务上的改进可能会因计算的块影响力差异而降低另一个任务的性能。此外,我们将这种分析从完整的块扩展到单独的自注意力和前馈层,突出了自注意力层更容易被修剪的倾向,甚至允许删除Mistral 7b的MMLU中高达33%的自注意力层而不会造成性能下降(显著减少KV-cache的昂贵维护)。最后,我们研究了简单的性能恢复技术,通过训练轻量级的附加偏置或低秩线性适配器来模拟修剪的层。使用模拟更新进行性能恢复可以避免初始块的性能下降(MMLU最多提高5%的绝对值),这要么具有竞争力,要么优于基于学习的技术。

论文链接: https://arxiv.org/abs/2407.16286

对AES、Blowfish、Twofish、Salsa20和ChaCha20进行图像加密的比较分析

原标题: Comparative Analysis of AES, Blowfish, Twofish, Salsa20, and ChaCha20 for Image Encryption

作者: Rebwar Khalid Muhammed, Ribwar Rashid Aziz, Alla Ahmad Hassan, Aso Mohammed Aladdin, Shaida Jumaah Saydah, Tarik Ahmed. Rashid, Bryar Ahmad Hassan

摘要: 如今,网络安全已经发展成为一个更为重要和困难的科学问题。对于互联网上针对知识和安全的威胁和攻击的识别变得越来越难以检测。由于网络安全保证了通过互联网发送的数据的隐私和安全,因此它是至关重要的,同时也提供了对恶意攻击的保护。加密已经成为信息安全系统中不可或缺的要素。为了确保共享数据(包括文本、图像或视频)的安全,必须采用各种方法和策略。本研究深入探讨了用于预防和流加密的流行加密方法和算法,检查它们的编码技术,如高级加密标准(AES)、Blowfish、Twofish、Salsa20 和 ChaCha20。本研究的主要目标是确定数据加密和解密过程的最佳时间和吞吐量(速度)。本研究的方法涉及选择五种不同类型的图像,以比较评估本研究中评估的技术的结果。评估侧重于处理时间和速度参数,使用 Java 作为主要平台进行视觉编码和解码的检查。进行了几种对称密钥密码的比较分析,重点关注处理大型数据集。尽管存在这种限制,但比较不同图像有助于评估技术的新颖性。结果显示,ChaCha20 在加密和解密方面的平均时间最佳,比一些其他算法快50%以上。然而,在测试过程中,Twofish 算法的吞吐量较低。论文总结了研究结果,并提出了未来改进的建议。

论文链接: https://arxiv.org/abs/2407.16274

使用事件相机进行瞳孔跟踪的框架

原标题: A Framework for Pupil Tracking with Event Cameras

作者: Khadija Iddrisu, Waseem Shariff, Suzanne Little

机构: 都柏林城市大学 加尔韦大学

摘要: 眼球迅速移动是两只眼睛同时发生的极快速度运动,通常在个体将注意力从一个物体转移到另一个物体时观察到。这些运动是人类产生的最快速度之一,具有超过眨眼速度的潜力。眼球在眼球迅速移动过程中的峰值角速度可以达到每秒700°,尤其是在涵盖25°视角的较大眼球迅速移动过程中。先前的研究已经通过研究眼球迅速移动来理解神经疾病的结果令人鼓舞。眼球迅速移动检测的一个必要步骤是准确识别眼球内瞳孔的精确位置,从而可以推断出注视角度等额外信息。传统基于帧的摄像头通常难以具备跟踪非常快速运动所需的高时间精度,导致运动模糊和延迟问题。另一方面,事件摄像头通过异步记录视觉场景的变化并提供高时间分辨率和低延迟,提供了一种有前途的替代方案。通过弥合传统计算机视觉和基于事件的视觉之间的差距,我们将事件呈现为可以被标准深度学习算法轻松利用的帧。这种方法利用了YOLOv8,一种最先进的目标检测技术,通过处理这些帧来进行瞳孔跟踪,使用了公开可访问的Ev-Eye数据集。实验结果展示了该框架的有效性,突显了其在神经科学、眼科学和人机交互领域的潜在应用。

论文链接: https://arxiv.org/abs/2407.16665

HSVLT:用于多标签图像分类的分层尺度感知视觉语言Transformer

原标题: HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification

作者: Shuyi Ouyang, Hongyi Wang, Ziwei Niu, Zhenjia Bai, Shiao Xie, Yingying Xu, Ruofeng Tong, Yen-Wei Chen, Lanfen Lin

机构: 浙江大学 立命馆大学

摘要: 多标签图像分类任务涉及识别单个图像中的多个对象。考虑到标签中包含的有价值的语义信息以及图像中呈现的基本视觉特征,紧密的视觉-语言交互在提高分类性能方面起着至关重要的作用。此外,考虑到单个图像中对象大小和外观的潜在变化,关注不同尺度的特征可以帮助发现图像中可能存在的对象。最近,基于Transformer的方法通过利用建模长距离依赖关系的优势在多标签图像分类方面取得了巨大成功,但它们也存在一些局限性。首先,现有方法将视觉特征提取和跨模态融合视为单独的步骤,导致联合语义空间中视觉-语言对齐不足。此外,它们仅在单一尺度上提取视觉特征并执行跨模态融合,忽略了具有不同特征的对象。为解决这些问题,我们提出了一种具有两个吸引人设计的分层尺度感知视觉语言Transformer(HSVLT):(1)涉及跨尺度聚合模块的分层多尺度架构,该模块利用从多个尺度提取的联合多模态特征来识别图像中不同大小和外观的对象;(2)交互式视觉-语言注意力,一种新颖的注意力机制模块,紧密整合跨模态交互,实现视觉、语言和多模态特征的联合更新。我们在三个基准数据集上评估了我们的方法。实验结果表明,HSVLT在更低的计算成本下超越了最先进的方法。

论文链接: https://arxiv.org/abs/2407.16244

OriGen:通过代码增强和自我反思提升 RTL 代码生成

原标题: OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection

作者: Fan Cui, Chenyang Yin, Kexing Zhou, Youwei Xiao, Guangyu Sun, Qiang Xu, Qipeng Guo, Demin Song, Dahua Lin, Xingcheng Zhang, Yun (Eric)Liang

机构: 北京大学 上海人工智能实验室 中文大学香港

摘要: 最近的研究表明,大语言模型(LLMs)在 RTL(寄存器传输级)代码生成领域展现出了巨大潜力,商用模型如 GPT-4 和 Claude3-Opus 显示出了显著的进展。尽管它们表现出色,这些商用LLMs常常引发隐私和安全方面的担忧。相比之下,提供了针对这些问题解决方案的开源LLMs,在 RTL 代码生成任务中的性能不及商用模型,这是因为缺乏高质量的开源 RTL 数据集。为了解决这个问题,我们引入了 OriGen,这是一个完全开源的框架,具有自我反思能力和数据集增强方法,用于生成高质量、大规模的 RTL 代码。我们提出了一种新颖的代码增强方法,利用知识蒸馏来提升开源 RTL 代码数据集的质量。此外,OriGen 能够通过利用基于编译器反馈的自我反思过程来纠正语法错误。该模型的自我反思能力得益于精心构建的数据集,其中包括了全面的样本集合。实验结果表明,OriGen 在 RTL 代码生成方面明显优于其他开源替代方案,在 VerilogEval-Human 基准测试中超过了之前表现最佳的LLM 9.8%。此外,OriGen 在自我反思和错误纠正方面表现出优越能力,在旨在评估自我反思能力的基准测试中,超过了 GPT-4 18.1%。

论文链接: https://arxiv.org/abs/2407.16237

基于知识驱动的人工智能生成数据,用于准确和可解释的乳腺超声诊断。

原标题: Knowledge-driven AI-generated data for accurate and interpretable breast ultrasound diagnoses

作者: Haojun Yu, Youcheng Li, Nan Zhang, Zihan Niu, Xuantong Gong, Yanwen Luo, Quanlin Wu, Wangyan Qin, Mengyuan Zhou, Jie Han, Jia Tao, Ziwei Zhao, Di Dai, Di He, Dong Wang, Binghui Tang, Ling Huo, Qingli Zhu, Yong Wang, Liwei Wang

机构: 北京大学 北京大学肿瘤医院与研究所 北京协和医院 中国医学科学院肿瘤医院 南昌人民医院 亿准医疗人工智能有限公司

摘要: 数据驱动的深度学习模型已经显示出在协助放射科医生进行乳腺超声(US)诊断方面具有很强的能力。然而,它们的有效性受到训练数据长尾分布的限制,这导致在罕见情况下存在不准确性。在这项研究中,我们解决了一个长期存在的挑战,即利用长尾数据提高罕见情况下诊断模型性能的问题。具体来说,我们引入了一个名为TAILOR的流水线,它构建了一个知识驱动的生成模型来生成定制的合成数据。这个生成模型利用3,749个病变作为源数据,可以生成数百万张乳腺-US图像,特别是针对易出错的罕见情况。生成的数据可以进一步用于构建一个诊断模型,进行准确和可解释的诊断。在前瞻性外部评估中,我们的诊断模型在特异性方面的表现比九名放射科医生的平均表现提高了33.5%,而敏感性相同,通过提供具有可解释决策过程的预测来提高他们的表现。此外,在原始数据中只有34个DCIS病变的情况下,我们的诊断模型在原位导管癌(DCIS)方面远远优于所有放射科医生。我们相信,TAILOR 可能被扩展到各种疾病和成像模式。

论文链接: https://arxiv.org/abs/2407.16634

从机器学习的角度实现 n 克隆:潜在空间的相关性

原标题: Implementing engrams from a machine learning perspective: the relevance of a latent space

作者: J Marco de Lucas

机构: Instituto de Física de Cantabria (IFCA) CSIC-Universidad de Cantabria

摘要: 在我们之前的工作中,我们提出大脑中的痕迹可以作为循环神经网络上的自编码器进行生物实现。这些自编码器将包括基本的兴奋/抑制模式,学分分配源自简单的稳态准则。这篇简短的笔记探讨了这些自编码器中潜在空间的相关性。我们考虑了这些自编码器的维度与被编码信息复杂性之间的关系。我们讨论了观察到的不同物种在其连接组中的差异如何与它们的认知能力相关联。最后,我们将这一分析与一个基本但经常被忽视的事实联系起来:人类认知可能受到我们自身大脑结构的限制。然而,这种限制并不适用于机器学习系统,我们应意识到需要学习如何利用这种增强的视野。

论文链接: https://arxiv.org/abs/2407.16616

静态应用安全测试工具与大语言模型在存储库级别漏洞检测方面的比较

原标题: Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection

作者: Xin Zhou, Duc-Manh Tran, Thanh Le-Cong, Ting Zhang, Ivana Clairine Irsan, Joshua Sumarlin, Bach Le, David Lo

机构: 新加坡管理大学 越南河内科技大学 墨尔本大学 澳大利亚墨尔本大学

摘要: 软件漏洞对社会构成重大安全挑战和潜在风险,需要在自动漏洞检测方面进行广泛的努力。有两种流行的方法来解决自动漏洞检测问题。一方面,通常利用静态应用程序安全性测试(SAST)来扫描源代码中的安全漏洞,尤其是在工业领域。另一方面,深度学习(DL)方法,特别是自大语言模型(LLMs)引入以来,已经展示了在软件漏洞检测方面的潜力。然而,目前还没有对SAST工具和LLMs进行比较研究,旨在确定它们在漏洞检测中的有效性,了解SAST和LLMs的优缺点,并探索这两种方法的潜在结合。
在本文中,我们比较了15种不同的SAST工具与12种流行或最新的开源LLMs,在检测三种流行编程语言(Java、C和Python)的存储库中的软件漏洞方面的表现。实验结果显示,SAST工具获得了较低的漏洞检测率,同时具有相对较低的误报率,而LLMs可以检测出90%至100%的漏洞,但误报率较高。通过进一步将SAST工具和LLMs进行集成,可以在一定程度上缓解SAST工具和LLMs的缺点。我们的分析为软件漏洞检测的当前进展和未来方向提供了启示。

论文链接: https://arxiv.org/abs/2407.16235

基于物理的乒乓球动画的策略和技能学习

原标题: Strategy and Skill Learning for Physics-based Table Tennis Animation

作者: Jiashun Wang, Jessica Hodgins, Jungdam Won

机构: 卡内基梅隆大学 韩国首尔国立大学 人工智能研究所

摘要: 最近物理学角色动画方面的进展利用深度学习生成灵活自然的动作,使角色能够执行翻转、拳击和网球等动作。然而,在动态环境中复制人类解决复杂任务时选择和使用多样化运动技能的能力仍然是一个挑战。我们提出了一种基于物理的乒乓球动画的策略和技能学习方法。我们的方法解决了模式坍塌的问题,即角色没有充分利用他们执行复杂任务所需的运动技能。更具体地,我们展示了一种用于多样化技能学习的分层控制系统和用于有效决策的策略学习框架。我们通过与最先进方法的比较分析展示了我们方法的有效性,展示了其在乒乓球中执行各种技能的能力。我们的策略学习框架通过虚拟现实中的智能体-智能体交互和人-智能体交互进行验证,处理竞争性和合作性任务。

论文链接: https://arxiv.org/abs/2407.16210

不费吹灰之力:软机器人中的形态计算驱动自适应行为

原标题: No-brainer: Morphological Computation driven Adaptive Behavior in Soft Robots

作者: Alican Mertan, Nick Cheney

机构: 佛蒙特大学

摘要: 在当代人工智能和机器人领域,普遍存在这样一种观点:单独假设由神经网络建模的大脑,并将其用于学习智能和适应性行为。虽然这种方法对许多类型的任务都非常有效,但并不是自然界中存在的唯一智能类型。在这项工作中,我们研究了在机器人控制中创建智能行为的方式,而无需单独和明确的大脑,而是仅仅作为机器人体内发生的计算结果。具体来说,我们展示了如何通过使用能够在不同环境提示下主动改变机器人形状的简单反应性材料,在基于体素的虚拟软机器人中创建适应性和复杂行为。我们展示了一个封闭环形态计算理念的概念验证,并展示在我们的实现中,它使行为模仿逻辑门成为可能,从而使我们能够展示这些行为如何结合以构建更复杂的集体行为。

论文链接: https://arxiv.org/abs/2407.16613

INF-LLaVA:双视角感知用于高分辨率多模态大语言模型

原标题: INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

作者: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji

机构: 厦门大学

摘要: 随着数据可用性和计算资源的进步,多模态大语言模型(MLLMs)展示了在各个领域的能力。然而,在MLLMs中视觉编码器的二次复杂度限制了输入图像的分辨率。大多数当前方法通过将高分辨率图像裁剪成较小的子图像来缓解这个问题,然后由视觉编码器独立处理这些子图像。尽管捕获了足够的局部细节,但这些子图像缺乏全局上下文,并且无法相互交互。为了解决这一局限性,我们提出了一种新颖的MLLM,INF-LLaVA,旨在有效地感知高分辨率图像。INF-LLaVA包含两个创新组件。首先,我们引入了双视角裁剪模块(DCM),确保每个子图像既包含来自局部视角的连续细节,又包含来自全局视角的综合信息。其次,我们引入了双视角增强模块(DEM),以实现全局和局部特征的相互增强,使INF-LLaVA能够通过同时捕获详细的局部信息和全面的全局上下文来有效处理高分辨率图像。大量消融研究验证了这些组件的有效性,并在各种基准测试上的实验表明,INF-LLaVA优于现有的MLLMs。代码和预训练模型可在此https网址获取。

论文链接: https://arxiv.org/abs/2407.16198

Github: https://github.com/WeihuangLin/INF-LLaVA

深度贝叶斯结肠息肉分割:医学影像中的良好校准预测

原标题: Deep Bayesian segmentation for colon polyps: Well-calibrated predictions in medical imaging

作者: Daniela L. Ramos, Hector J. Hortua

机构: 哥伦比亚圣林学院 哥伦比亚圣林学院

摘要: 结直肠息肉通常是良性变化,如果不能及时识别和成功管理,可能会发展成癌症,并在结肠粘膜上引起影响,即腺癌。如今,深度学习在医学诊断应用中的图像分类和检测方面已经展示出显著的性能。然而,这些模型容易过拟合,仅基于点估计做出决策可能会提供不正确的预测。因此,为了获得更明智的决策,我们必须考虑点估计以及它们可靠的不确定性量化。在本文中,我们基于后验分布的灵活性构建了不同的贝叶斯神经网络方法,以开发结直肠息肉图像的语义分割。我们发现,这些模型不仅在这一医学数据集的分割上提供了最先进的性能,而且提供了准确的不确定性估计。我们在确定性和贝叶斯版本中测试了多个骨干结构上的UNET、FPN和LINKNET架构,并应用了乘法归一化流(MNF)和重新参数化技巧。我们报告说,FPN + EfficientnetB7架构与MNF相结合是最有前途的选择,因为其IOU为0.94,期望校准误差(ECE)为0.004,并且在识别难以检测的结直肠息肉方面具有优势,这在早期发现可以预防结肠癌发展的临床领域中非常有效。

论文链接: https://arxiv.org/abs/2407.16608

自动环境塑造是强化学习的下一个前沿领域。

原标题: Automatic Environment Shaping is the Next Frontier in RL

作者: Younghyo Park, Gabriel B. Margolis, Pulkit Agrawal

机构: 1. 加利福尼亚大学伯克利分校 2. 1Pulkit Agrawal

摘要: 许多机器人学家梦想着在晚上给机器人一个任务,第二天早上回来时发现机器人能够解决这个任务。是什么阻止了我们实现这一目标?Sim-to-real强化学习在具有挑战性的机器人任务上取得了令人印象深刻的表现,但需要大量人力来设置任务,使其适合于强化学习。我们认为,策略优化等方面的算法改进应该致力于解决塑造训练环境的主要瓶颈,即设计观察、动作、奖励和模拟动态。大多数从业者不是调整强化学习算法,而是调整其他环境参数以获得理想的控制器。我们认为,只有当社区专注于自动化环境塑造程序时,将强化学习扩展到各种机器人任务才能实现。

论文链接: https://arxiv.org/abs/2407.16186

GenRec:一个灵活的推荐数据生成器

原标题: GenRec: A Flexible Data Generator for Recommendations

作者: Erica Coppolillo, Simone Mungari, Ettore Ritacco, Giuseppe Manco

机构: 卡拉布里亚大学 伊卡尔-意大利国家研究委员会 雷维利斯有限公司 乌迪内大学

摘要: 现实数据集的稀缺性在基准推荐系统和社交网络分析方法和技术中构成了一个重要挑战。一个常见且有效的解决方案是生成模拟真实互动的合成数据。然而,尽管已经提出了各种方法,但现有文献仍然缺乏完全可适应并允许轻松操纵基础数据分布和结构属性的生成器。为了解决这个问题,本研究介绍了GenRec,这是一个新颖的框架,用于生成展现推荐场景中观察到的现实和众所周知属性的合成用户-物品互动。该框架基于基于潜在因素建模的随机生成过程。在这里,潜在因素可以被利用以产生长尾偏好分布,同时它们表征用户的子群和基于主题的物品簇。值得注意的是,所提出的框架非常灵活,提供了广泛的超参数范围,用于定制用户-物品互动的生成。用于执行实验的代码可在https://anonymous.4open.science/r/GenRec-DED3 上公开获取。

论文链接: https://arxiv.org/abs/2407.16594

一个更快的分支算法用于最大 k k k-缺陷团问题

原标题: A Faster Branching Algorithm for the Maximum k k k-Defective Clique Problem

作者: Chunyu Luo, Yi Zhou Zhengren Wang, Mingyu Xiao

机构: 中国电子科技大学 北京大学

摘要: 一个无向图 G G G k k k-缺陷团是其顶点的一个子集,诱导出一个最多缺失 k k k 条边的几乎完全图。最大 k k k-缺陷团问题要求从给定图中找到最大的 k k k-缺陷团,在许多应用中至关重要,比如社交和生物网络分析。在本文中,我们提出了一种利用 k k k-缺陷团的结构特性并将高效的最大团算法作为子程序的新分支算法。结果表明,该算法的渐近运行时间优于现有算法。我们还研究了上界技术,并提出了一种利用顶点对之间的“冲突关系”作为新上界的方法。由于冲突关系在许多图问题中很常见,我们相信这种技术具有潜在的泛化能力。最后,实验证明我们的算法在广泛的开放基准测试中优于最先进的求解器。

论文链接: https://arxiv.org/abs/2407.16588

音频提示适配器:通过轻量微调释放文本转音乐的音乐编辑能力

原标题: Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning

作者: Fang-Duo Tsai, Shih-Lun Wu, Haven Kim, Bo-Yu Chen, Hao-Chung Cheng, Yi-Hsuan Yang

机构: 国立台湾大学 卡内基梅隆大学 加州圣地亚哥大学

摘要: 文本转音乐模型允许用户通过文本命令生成几乎逼真的音乐音频。然而,编辑音乐音频仍然具有挑战性,因为在对音频进行细粒度修改的同时保持简单用户界面的需求存在冲突。为了解决这一挑战,我们提出了音频提示适配器(或称为AP-Adapter),这是一个轻量级的附加组件,用于预训练的文本转音乐模型。我们利用AudioMAE从输入音频中提取特征,并构建基于注意力的适配器将这些特征馈送到基于扩散的文本转音乐模型AudioLDM2的内部层。具有22M可训练参数的AP-Adapter使用户能够利用原始音频和简短文本作为输入,掌握音乐的全局(例如流派和音色)和局部(例如旋律)方面。通过客观和主观研究,我们评估了AP-Adapter在三个任务上的表现:音色转换、流派转换和伴奏生成。此外,我们展示了它在包含训练中未见乐器的域外音频上的有效性。

论文链接: https://arxiv.org/abs/2407.16564

学习三模态关系以解决 AVQA 中缺失模态问题

原标题: Learning Trimodal Relation for AVQA with Missing Modality

作者: Kyu Ri Park, Hong Joo Lee, Jung Uk Kim

摘要: 最近的音频-视觉问答(AVQA)方法依赖完整的视觉和音频输入来准确回答问题。然而,在现实场景中,诸如设备故障和数据传输错误等问题经常导致音频或视觉模态缺失。在这种情况下,现有的AVQA方法会遭受显著的性能下降。在本文中,我们提出了一个框架,即使某种模态缺失,也能确保稳健的AVQA性能。首先,我们提出了一个关系感知缺失模态(RMM)生成器,配合关系感知缺失模态回溯(RMMR)损失,以增强生成器通过理解可用模态之间的关系和上下文来回溯缺失模态信息的能力。其次,我们设计了一个音频-视觉关系感知(AVR)扩散模型,配合音频-视觉增强(AVE)损失,通过利用音频-视觉模态之间的关系和共享线索进一步增强音频-视觉特征。因此,我们的方法能够通过有效利用可用信息提供准确答案,即使输入模态缺失。我们相信我们的方法不仅在AVQA研究中具有潜在应用,而且在各种多模态场景中也有应用前景。

论文链接: https://arxiv.org/abs/2407.16171

修补的RTC:评估大语言模型在多样化软件开发任务中的表现

原标题: Patched RTC: evaluating LLMs for diverse software development tasks

作者: Asankhaya Sharma

机构: Patched Codes Inc

摘要: 这篇论文介绍了一种名为Patched Round-Trip Correctness(Patched RTC)的新颖评估技术,应用于大语言模型(LLMs)在各种软件开发任务中的应用,特别关注“外部循环”活动,如错误修复、代码审查和文档更新。Patched RTC将原始的Round-Trip Correctness方法扩展到适用于任何LLM和下游任务,提供了一个自我评估框架,可以在没有人类干预的情况下衡量模型响应的一致性和稳健性。研究表明Patched RTC分数与任务特定准确度指标之间存在相关性,将其提出作为开放领域任务评估的LLM作为评判者范式的替代方案。我们在一个名为patchwork的开源框架中实现了Patched RTC,允许在各种patchflows中进行透明评估。对比GPT-3.5和GPT-4模型在不同软件开发任务中的实验表明,Patched RTC有效区分了模型性能和任务难度。该论文还探讨了一致性提示对提高模型准确性的影响,表明Patched RTC可以指导提示的改进和模型选择,用于复杂软件开发工作流程。

论文链接: https://arxiv.org/abs/2407.16557

使用5D张量进行3D卷积对视频分析真的有必要吗?

原标题: Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis?

作者: Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu

摘要: 在这篇论文中,我们提出了一项全面的研究,并提出了几种新颖的技术,用于使用仅具有4D和/或3D张量的2D和/或1D卷积来实现3D卷积块。我们的动机是,使用5D张量进行的3D卷积在计算上非常昂贵,并且一些实时应用中使用的边缘设备可能不支持它们,例如机器人。现有方法通过将3D内核分割为空间和时间域来缓解这一问题,但它们仍然在实现中使用5D张量的3D卷积。我们通过引入一些适当的4D/3D张量重塑以及新的空间和时间分割组合技术来解决这个问题。所提出的实现方法在效率和准确性方面都显示出显著改进。实验结果证实,所提出的时空处理结构在速度和准确性方面优于原始模型,仅使用较少参数的4D张量。

论文链接: https://arxiv.org/abs/2407.16514

机器学习中的表达工作和调试以实现公平

原标题: Articulation Work and Tinkering for Fairness in Machine Learning

作者: Miriam Fahimi, Mayra Russo, Kristen M. Scott, Maria-Esther Vidal, Bettina Berendt, Katharina Kinder-Kurlanda

机构: 克拉根福大学 数字时代研究中心 奥地利 德国 汉诺威莱布尼茨大学L3S研究中心 德国 鲁汶大学 鲁汶.AI 比利时 汉诺威莱布尼茨大学 TIB莱布尼茨科技信息中心 德国 柏林工业大学 Weizenbaum研究所 比利时 德国 克拉根福大学 数字时代研究中心 奥地利

摘要: 公平人工智能领域旨在通过计算建模来对抗存在偏见的算法。然而,它面临越来越多的批评,因为它在延续使用过度技术化和简化方法。因此,该领域出现了新的方法,以解决更多社会导向和跨学科(SOI)视角下的公平人工智能问题。在本文中,我们以此动态为起点,研究计算机科学(CS)和SOI研究之间的紧张关系。通过借鉴STS和CSCW理论,我们将公平人工智能研究定位为一种“组织对齐”的问题:研究的“可行性”取决于成功对齐三个工作组织层次(社会世界、实验室和实验)。通过对CS研究人员进行定性访谈,我们分析了在公平人工智能案例中进行可行研究所需的任务、资源和参与者。我们发现,CS研究人员在一定程度上与SOI进行了接触,但组织条件、表达工作以及社会世界的模糊性限制了SOI研究的可行性。根据我们的研究结果,我们确定并讨论了在公平人工智能不断发展的过程中,对齐CS和SOI所面临的问题。

论文链接: https://arxiv.org/abs/2407.16496

FoRA:超越多模态孪生网络的低秩适应模型

原标题: FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network

作者: Weiying Xie, Yusi Zhang, Tianlin Hui, Jiaqing Zhang, Jie Lei, Yunsong Li

机构: 西安电子科技大学

摘要: 多模态目标检测为在各种视觉条件下促进稳健检测提供了一个有前途的前景。然而,现有的双流骨干网络面临着复杂融合和大量参数增加的挑战。这主要是由于多模态同质信息的大数据分布偏差所致。在本文中,我们提出了一种新颖的多模态目标检测器,名为低秩模态适配器(LMA),采用共享骨干。共享参数增强了同质信息的一致性,而轻量级模态适配器专注于模态独特特征。此外,我们设计了一种自适应秩分配策略,以适应不同特征层次上的异质性变化。在应用于两个多模态目标检测数据集时,实验证实了我们方法的有效性。值得注意的是,在DroneVehicle数据集上,LMA相比最先进方法提高了10.4%的准确率,并减少了149M参数。代码可在此https网址获得。
我们的工作于2024年4月提交给ACM MM,但被拒绝了。我们将继续完善我们的工作和论文写作,主要包括FoRA的理论证明和多任务应用。

论文链接: https://arxiv.org/abs/2407.16129

Github: https://github.com/zyszxhy/FoRA

通过渐进式自主学习逐步推进脑部成像分析

原标题: Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning

作者: Yanwu Yang, Hairui Chen, Jiesi Hu, Xutao Guo, Ting Ma

机构: 哈尔滨工业大学深圳校区 深圳 518000 中国 彭成实验室 广东省航空航天通信与网络技术重点实验室

摘要: 最近深度学习的进展已经改变了脑成像分析的发展。然而,仍然存在一些挑战,比如异质性、个体差异以及脑成像数据集的高维度和小规模之间的矛盾。这些问题使学习过程变得复杂,阻碍了模型捕捉内在的、有意义的模式,可能导致由于偏见和过拟合而表现不佳。课程学习(CL)提出了一个有希望的解决方案,通过将训练示例从简单到复杂地组织,模仿人类学习过程,可能促进更健壮和准确模型的发展。尽管具有潜力,但由于初始训练数据集的固有限制带来了重大挑战,包括过拟合和泛化能力差。在本文中,我们介绍了渐进自主调节(PSPD)框架,采用自适应和渐进的步调和蒸馏机制。这允许根据过去和现在模型的状态进行动态课程调整。过去的模型充当教师,通过逐渐完善的课程知识指导当前模型,并帮助防止先前获得的知识的丢失。我们通过使用阿尔茨海默病神经影像计划(ADNI)数据集验证了PSPD在各种卷积神经网络中的有效性和适应性,突显了其在增强模型性能和泛化能力方面的优越性。这种方法的源代码将在此 https URL 上发布。

论文链接: https://arxiv.org/abs/2407.16128

Github: https://github.com/Hrychen7/PSPD

对矢量场数据的视觉分析的不确定性感知深度神经表示

原标题: Uncertainty-Aware Deep Neural Representations for Visual Analysis of Vector Field Data

作者: Atul Kumar, Siddharth Garg, Soumya Dutta

机构: IEEE Transactions on Visualization and Computer Graphics (IEEE计算机图形学与可视化交易)

摘要: 深度神经网络(DNNs)的广泛应用最近导致它们被应用于具有挑战性的科学可视化任务。虽然先进的DNNs展示了令人印象深刻的泛化能力,但理解诸如预测质量、置信度、稳健性和不确定性等因素至关重要。这些见解帮助应用科学家做出明智的决策。然而,DNNs缺乏衡量预测不确定性的固有机制,促使创建不同框架来构建针对各种可视化任务的稳健不确定性感知模型。在这项工作中,我们开发了一种能够有效建模稳态矢量场的不确定性感知隐式神经表示。我们全面评估了两种原则性的深度不确定性估计技术的有效性:(1)深度集成和(2)蒙特卡洛辍学,旨在实现对稳定矢量场数据中特征的不确定性通知的视觉分析。我们对几个矢量数据集进行了详细的探索,结果表明,具有不确定性感知的模型生成了有关矢量场特征的信息丰富的可视化结果。此外,融入预测不确定性提高了我们的DNN模型的韧性和可解释性,使其适用于分析非平凡的矢量场数据集。

论文链接: https://arxiv.org/abs/2407.16119

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值