2024年7月26日Arxiv人工智能相关论文

个性化和上下文感知的边缘辅助车辆路径规划

原标题: Personalized and Context-aware Route Planning for Edge-assisted Vehicles

作者: Dinesh Cyril Selvaraj, Falko Dressler, Carla Fabiana Chiasserini

机构: 意大利都灵理工大学 CARS@Polito 德国柏林工业大学 School of Electrical Engineering and Computer Science

摘要: 传统的路线规划服务通常为所有驾驶员提供相同的路线,主要关注一些标准化因素,如行驶距离或时间,忽视了个体驾驶员的偏好。随着预计未来将出现自动驾驶车辆,这些车辆将依赖这些规划者决定的路线,有必要纳入每位驾驶员的具体偏好,确保个性化导航体验。在这项工作中,我们提出了一种基于图神经网络(GNNs)和深度强化学习(DRL)的新方法,旨在定制路线以适应个体偏好。通过分析个体驾驶员的历史轨迹,我们对其驾驶行为进行分类,并将其与相关道路属性联系起来,作为驾驶员偏好的指标。GNN能够有效地将道路网络表示为图结构化数据,而DRL能够利用奖励机制做出决策,优化路线选择,考虑行驶成本、拥堵程度和驾驶员满意度等因素。我们使用真实道路网络评估了我们提出的基于GNN的DRL框架,并展示了其能够满足驾驶员偏好的能力,为个体驾驶员提供一系列定制的路线选项。结果表明,与通用路线规划器相比,我们的框架可以选择符合驾驶员偏好的路线,改善了高达17%,并将行驶时间相对于基于最短距离方法分别缩短了33%(下午)和46%(晚上)。

论文链接: https://arxiv.org/abs/2407.17980

ReCorD:用于 HOI 生成的推理和修正扩散

原标题: ReCorD: Reasoning and Correcting Diffusion for HOI Generation

作者: Jian-Yu Jiang-Lin, Kang-Yang Huang, Ling Lo, Yi-Ning Huang, Terence Lin, Jhih-Ciang Wu, Hong-Han Shuai, Wen-Huang Cheng

机构: 国立台湾大学 国立阳明交通大学

摘要: 扩散模型通过利用自然语言来引导多媒体内容的生成,彻底改变了图像生成的方式。尽管在这类生成模型方面取得了显著进展,但在描绘详细的人-物体互动方面仍存在挑战,特别是在姿势和物体放置准确性方面。我们引入了一种名为Reasoning and Correcting Diffusion (ReCorD)的无需训练的方法来解决这些挑战。我们的模型将潜在扩散模型与视觉语言模型相结合,以优化生成过程,确保精确描绘人-物体互动。我们提出了一种互动感知推理模块来改善对互动的解释,以及一个互动校正模块来精细调整输出图像,以更精确地生成人-物体互动。通过精心的姿势选择和物体定位过程,ReCorD在生成图像的保真度方面表现出色,同时有效降低了计算需求。我们在三个基准测试上进行了全面实验,展示了在解决文本到图像生成任务方面取得的显著进展,展示了ReCorD在准确渲染复杂互动方面的能力,通过在HOI分类得分、FID和Verb CLIP-Score方面优于现有方法。项目网站链接:https://这里是网址。

论文链接: https://arxiv.org/abs/2407.17911

Github: https://alberthkyhky.github.io/ReCorD/

隐私威胁和对策在物联网联邦学习中的应用:一项系统性综述

原标题: Privacy Threats and Countermeasures in Federated Learning for Internet of Things: A Systematic Review

作者: Adel ElZemity, Budi Arief

机构: 肯特大学

摘要: 在物联网(IoT)环境中的联邦学习(FL)可以通过利用分散的数据增强机器学习,但同时,由于物联网设备的受限性质,也可能引入重大的隐私和安全问题。这代表了我们在本文中致力于解决的一个研究挑战。我们系统地分析了最近的文献,以识别物联网环境中FL中的隐私威胁,并评估可用于减轻这些威胁的防御措施。采用系统文献综述(SLR)方法,我们搜索了五个出版数据库(Scopus、IEEE Xplore、Wiley、ACM和Science Direct),整理了2017年至2024年4月间发表的相关论文,这一时期涵盖了FL引入至今。在PRISMA协议的指导下,我们选择了49篇论文来集中进行系统综述。我们分析了这些论文,特别关注隐私威胁和防御措施,特别是在物联网环境下,使用旨在突出最新进展和关键见解的包含和排除标准。我们确定了各种隐私威胁,包括推断攻击、毒化攻击和窃听,以及防御措施,如差分隐私和安全多方计算。这些防御措施被评估其在保护隐私的同时不损害FL在物联网环境中的功能完整性的有效性。我们的综述强调了为物联网环境量身定制的强大和高效的隐私保护策略的必要性。值得注意的是,有必要针对重放、规避和模型窃取攻击制定策略。探索轻量级的防御措施和区块链等新兴技术可能有助于提高物联网中FL的隐私性,从而创建可以在不同网络条件下运行的FL模型。

论文链接: https://arxiv.org/abs/2407.18096

EEG-SSM:利用状态空间模型进行痴呆症检测

原标题: EEG-SSM: Leveraging State-Space Model for Dementia Detection

作者: Xuan-The Tran, Linh Le, Quoc Toan Nguyen, Thomas Do, Chin-Teng Lin

机构: 悉尼科技大学 (UTS) GrapheneX-UTS人本人工智能中心

摘要: 状态空间模型(SSMs)因有效处理长数据序列而受到关注,减少了需要将时间序列分段为较短间隔进行模型训练和推断的需求。传统上,SSMs仅捕获时间序列数据的时间动态,忽略了同样关键的频谱特征。本研究介绍了 EEG-SSM,这是一种基于状态空间模型的新方法,利用 EEG 数据进行痴呆分类。我们的模型具有两个主要创新点:EEG-SSM 时间和 EEG-SSM 频谱组件。时间组件旨在高效处理长度不同的 EEG 序列,而频谱组件通过整合来自 EEG 信号的频域信息增强了模型。这些组件的协同作用使得 EEG-SSM 能够熟练处理多变量 EEG 数据的复杂性,显著提高了在不同时间分辨率下的准确性和稳定性。在分类健康对照组(HC)、颞叶额叶痴呆(FTD)和阿尔茨海默病(AD)组方面,EEG-SSM 展示了惊人的 91.0% 准确率,优于同一数据集上现有模型。EEG-SSM 的开发代表了状态空间模型在痴呆筛查中的改进,为临床神经科学提供了更精确和经济高效的工具。

论文链接: https://arxiv.org/abs/2407.17801

通过 Tseitin 意识剪枝布尔 d-DNNF 电路

原标题: Pruning Boolean d-DNNF Circuits Through Tseitin-Awareness

作者: Vincent Derkinderen

机构: 比利时鲁汶大学

摘要: 布尔电路以d-DNNF形式使得可进行可处理的概率推理。然而,作为本工作的一个关键见解,我们展示了常用的d-DNNF编译方法引入了不相关的子电路。我们将这些子电路称为Tseitin人工制品,因为它们是由于Tseitin转换步骤引入的——这是一种将任何电路转换为几个d-DNNF知识编译器所需的CNF格式的成熟程序。我们讨论了如何检测和消除Tseitin变量和Tseitin人工制品,从而导致更简洁的电路。我们在实证中观察到,当同时移除Tseitin变量和人工制品时,平均尺寸减小了77.5%。额外修剪Tseitin人工制品平均减小了22.2%的尺寸。这显著改善了受益于更简洁电路的下游任务,例如概率推理任务。

论文链接: https://arxiv.org/abs/2407.17951

因果深度集用于空间或时空干扰下的离线策略评估

原标题: Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences

作者: Runpeng Dai, Jianing Wang, Fan Zhou, Shikai Luo, Zhiwei Qin, Chengchun Shi, Hongtu Zhu

机构: 上海财经大学 北卡罗来纳大学教堂山分校 字节跳动 独立研究者 伦敦政治经济学院

摘要: 离线策略评估(OPE)被广泛应用于制药和电子商务等领域,用于评估来自离线数据集的新产品或政策的有效性。本文介绍了一种因果深度集框架,放宽了几个关键结构假设,主要是处理时空干扰的现有 OPE 方法中普遍存在的平均场假设。这些传统假设在现实世界中经常表现不佳,从而限制了当前 OPE 方法有效解决复杂干扰效应的能力。为此,我们主张实施排列不变性(PI)假设。这种创新方法使得对平均场函数的数据驱动自适应学习成为可能,提供了一种超越传统平均的更灵活的估计方法。此外,我们提出了将 PI 假设纳入 OPE 的新算法,并彻底检验了它们的理论基础。我们的数值分析表明,这种新方法比现有基准算法产生了显著更精确的估计,从而大大提高了 OPE 方法的实际适用性和有效性。我们提出方法的 Python 实现可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.17910

Github: https://github.com/BIG-S2/Causal-Deepsets

关于单模态模型和视觉-语言预训练模型的对抗性脆弱性的统一理解

原标题: A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models

作者: Haonan Zheng, Xinyang Deng, Wen Jiang, Wenrui Li

机构: 西北工业大学 哈尔滨工业大学

摘要: 随着视觉语言预训练(VLP)模型展示出强大的多模态交互能力,神经网络的应用场景不再局限于单模态领域,而是扩展到更复杂的多模态 V+L 下游任务。单模态模型的安全漏洞已经得到广泛检查,而 VLP 模型的安全漏洞仍然具有挑战性。我们注意到,在计算机视觉模型中,对图像的理解来自带注释的信息,而 VLP 模型旨在直接从原始文本中学习图像表示。受到这种差异的启发,我们开发了特征引导攻击(FGA),这是一种利用文本表示来引导对干净图像的扰动,从而生成对抗性图像的新方法。FGA 与单模态领域的许多先进攻击策略正交,有助于将单模态的丰富研究成果直接应用于多模态场景。通过适当引入文本攻击到 FGA 中,我们构建了带文本攻击的特征引导(FGA-T)。通过攻击两种模态的相互作用,FGA-T 实现了对 VLP 模型的优越攻击效果。此外,结合数据增强和动量机制显著提高了 FGA-T 的黑盒可迁移性。我们的方法在各种数据集、下游任务以及黑盒和白盒设置下展示了稳定且有效的攻击能力,为探索 VLP 模型的稳健性提供了统一基准。

论文链接: https://arxiv.org/abs/2407.17797

使用深度学习修补的3D孔洞填充

原标题: 3D Hole Filling using Deep Learning Inpainting

作者: Marina Hernández-Bautista, F.J. Melero

机构: 格拉纳达大学 西班牙 软件工程系

摘要: 这项研究提出了一种新颖的方法,用于在三维数字化技术生成的三维表面中完成在几何数据匮乏的地方。这些三维(3D)模型中的不完整或缺失数据可能导致错误或有缺陷的渲染,从而限制了它们在可视化、几何计算和3D打印等各种应用中的有用性。传统的表面估计方法通常会产生不合理的结果,特别是在处理复杂表面时。为了解决这个问题,我们提出了一种技术,将基于神经网络的2D修补方法纳入其中,以有效重建3D表面。我们定制的神经网络是在包含超过100万个曲率图像的数据集上进行训练的。这些图像显示了顶点的曲率,呈现为2D平面表示。此外,我们使用了一种粗到细的表面变形技术来提高重建图片的准确性并确保表面的适应性。这种策略使系统能够从输入数据中学习和泛化模式,从而开发出精确和全面的三维表面。我们的方法在形状完成过程中表现出色,能够有效地填补三维表面中复杂孔洞,具有显著的逼真度和精度。

论文链接: https://arxiv.org/abs/2407.17896

在AgentScope中进行非常大规模的多智能体模拟

原标题: Very Large-Scale Multi-Agent Simulation in AgentScope

作者: Xuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou

机构: 阿里巴巴集团 中国人民大学

摘要: 最近大语言模型(LLMs)的进展为在非常大规模模拟中应用多智能体系统开辟了新途径。然而,在使用现有平台进行多智能体模拟时仍然存在一些挑战,如可扩展性有限、效率低下、智能体多样性不足以及繁琐的管理流程。为了解决这些挑战,我们为AgentScope开发了几个新功能和组件,这是一个用户友好的多智能体平台,增强了其便利性和灵活性,以支持非常大规模的多智能体模拟。具体来说,我们提出了一个基于actor的分布式机制作为技术基础设施,以实现很高的可扩展性和效率,并为模拟各种真实场景提供灵活的环境支持,实现多智能体的并行执行、集中式工作流编排,以及智能体之间的相互作用和智能体与环境之间的互动。此外,我们在AgentScope中集成了一个易于使用的可配置工具和一个自动生成背景的管道,简化了创建具有多样化但详细背景设置的智能体的过程。最后,我们提供了一个基于Web的界面,方便监控和管理可能部署在多个设备上的大量智能体。我们进行了全面的模拟,以展示AgentScope中提出的增强功能的有效性,并提供详细的观察和讨论,以突显在大规模模拟中应用多智能体系统的巨大潜力。源代码已在GitHub的此URL上发布,以激发在大规模多智能体模拟中进一步的研究和发展。

论文链接: https://arxiv.org/abs/2407.17789

Github: https://github.com/modelscope/agentscope

在网约车平台上的长期公平性

原标题: Long-term Fairness in Ride-Hailing Platform

作者: Yufan Kang, Jeffrey Chan, Wei Shao, Flora D. Salim, Christopher Leckie

机构: 墨尔本皇家理工大学 澳大利亚 新南威尔士大学 悉尼 澳大利亚 墨尔本大学 卡尔顿 澳大利亚 CSIRO公司 克莱顿 澳大利亚

摘要: 在诸如网约车这样的双边市场中的匹配问题最近受到了重视。然而,现有关于网约车的研究主要集中在优化效率上,而网约车中的公平性问题却被忽视了。网约车中的公平性问题,包括司机之间的收入差异显著以及不同地点乘客等待时间的方差,对经济和伦理方面有潜在影响。最近关注网约车公平性的研究利用传统优化方法和马尔可夫决策过程来平衡效率和公平性。然而,这些现有研究存在几个问题,比如传统优化方法导致的短视的短期决策和传统优化方法以及基于马尔可夫决策过程的方法在相对较长的时间跨度内公平性的不稳定性。为了解决这些问题,我们提出了一个动态马尔可夫决策过程模型,以缓解网约车目前面临的公平性问题,并寻求在效率和公平性之间取得平衡,具有两个明显特点:(i) 一个预测模块,用于预测未来不同地点提出的请求数量,使得所提出的方法能够考虑基于整个时间轴的长期公平性,而不仅仅基于历史和当前数据模式考虑公平性;(ii) 一个定制的标量化函数,用于多目标多智能体 Q 学习,旨在平衡效率和公平性。对一个公开可用的真实世界数据集进行的大量实验表明,我们提出的方法优于现有的最先进方法。

论文链接: https://arxiv.org/abs/2407.17839

主题建模的迭代方法

原标题: An Iterative Approach to Topic Modelling

作者: Albert Wong, Florence Wing Yau Cheng, Ashley Keung, Yamileth Hercules, Mary Alexandra Garcia, Yew-Wei Lim, Lien Pham

机构: Langara College

摘要: 主题建模已经越来越受欢迎,用于总结文本数据,比如社交媒体帖子和文章。然而,主题建模通常是一次性完成的。评估生成主题的质量是具有挑战性的。目前还没有有效的方法或度量标准用于评估结果或进一步改进主题。在这项研究中,我们提出使用迭代过程来执行主题建模,当过程完成时,会产生对生成主题的完整感。使用BERTopic包,这是主题建模中一种流行的方法,我们演示了如何迭代应用建模过程,以得出一组主题,这些主题在使用三种选择的聚类比较措施作为决策标准时无法进一步改进。这个演示是使用COVIDSenti-A数据集的一个子集进行的。早期的成功让我们相信,进一步研究使用这种方法结合其他主题建模算法可能是可行的。

论文链接: https://arxiv.org/abs/2407.17892

GaussianSR:用于任意尺度图像超分辨率的高保真度2D高斯喷溅

原标题: GaussianSR: High Fidelity 2D Gaussian Splatting for Arbitrary-Scale Image Super-Resolution

作者: Jintong Hu, Bin Xia, Bin Chen, Wenming Yang, Lei Zhang

机构: 清华大学 香港中文大学 北京大学 香港理工大学 OPPO研究院

摘要: 隐式神经表示(INRs)显著推动了任意尺度超分辨率(ASSR)图像领域的发展。大多数现有基于INR的ASSR网络首先利用编码器从给定的低分辨率图像中提取特征,然后通过多层感知器解码器呈现超分辨结果。尽管这些方法显示出有希望的结果,但它们的性能受到编码特征中离散潜在代码有限表示能力的限制。在本文中,我们提出了一种名为GaussianSR的新型ASSR方法,通过2D高斯喷洒(2DGS)克服了这一限制。与传统方法将像素视为离散点不同,GaussianSR将每个像素表示为连续的高斯场。通过呈现相互堆叠的高斯场,编码特征同时得到精细化和上采样。因此,建立了长距离依赖关系以增强表示能力。此外,开发了一个分类器,动态地为所有像素分配高斯核以进一步提高灵活性。GaussianSR的所有组件(即编码器、分类器、高斯核和解码器)都是端到端联合学习的。实验证明,GaussianSR在比现有方法更少的参数下实现了优越的ASSR性能,同时享受可解释和内容感知的特征聚合。

论文链接: https://arxiv.org/abs/2407.18046

HC-GST:基于异质性感知的分布一致性图自训练

原标题: HC-GST: Heterophily-aware Distribution Consistency based Graph Self-training

作者: Fali Wang, Tianxiang Zhao, Junjie Xu, Suhang Wang

机构: 宾夕法尼亚州立大学

摘要: 图自训练(GST)是一种流行的方法,用于解决图中标签稀疏性问题,它选择并为未标记节点分配伪标签。然而,最近对同质图的研究表明,GST方法可能会引入和放大训练和测试节点之间的分布偏移,因为它们倾向于为它们擅长的节点分配伪标签。由于GNNs通常在同质节点上表现更好,可能会出现朝向同质伪节点的潜在偏移,这方面尚未得到充分探讨。我们在异质图上的初步实验验证了这些方法可能导致同质比率分布发生变化,从而导致\textit{训练偏差},在同质节点上提高性能,但在异质节点上降低性能。因此,我们研究了在异质图上进行自我训练时减少同质比率分布偏移的新问题。一个关键挑战是在没有大量标记数据的情况下准确计算同质比率及其分布。为了解决这些问题,我们提出了一种新颖的基于异质感知分布一致性的图自训练(HC-GST)框架,该框架使用软标签估计同质比率,并优化选择向量以使伪节点与全局同质比率分布对齐。在同质和异质图上进行的大量实验表明,HC-GST有效减少了训练偏差,并增强了自我训练性能。

论文链接: https://arxiv.org/abs/2407.17787

在人工神经网络中研究学习无关的抽象推理

原标题: Investigating learning-independent abstract reasoning in artificial neural networks

作者: Tomer Barak, Yonatan Loewenstein

机构: 希伯来大学 安德莉亚斯·席尔伯曼生命科学研究所 生德曼理性研究中心 沙法拉大脑科学中心

摘要: 人类有能力解决复杂的抽象推理测试。这种能力是否反映了一种适用于任何新颖未学习问题的学习无关推理机制,还是它是在整个生命中经过广泛训练的表现,这是一个悬而未决的问题。在人类中探讨这个问题是具有挑战性的,因为不可能控制他们的先前训练。然而,假设人工神经网络(ANNs)的认知处理与人类之间存在相似性,那么对于ANNs的抽象推理需要多少训练对于解答这个问题在人类中具有信息量。先前的研究表明,ANNs可以解决抽象推理测试。然而,这种成功需要大量训练。在这项研究中,我们研究了ANNs的学习无关抽象推理。具体来说,我们评估了它们在没有任何预训练的情况下的表现,ANNs的权重是随机初始化的,只有在解决问题的过程中发生变化。我们发现,天真的ANN模型可以解决非平凡的视觉推理测试,类似于用于评估人类学习无关推理的测试。我们进一步研究了支持这种能力的机制。我们的结果表明,存在不需要大量训练的学习无关抽象推理的可能性。

论文链接: https://arxiv.org/abs/2407.17791

揭开生命周期和活力过程永无止墅的故事

原标题: Unraveling the Never-Ending Story of Lifecycles and Vitalizing Processes

作者: Stephan A. Fahrenkrog-Petersen, Saimir Bala, Luise Pufahl, Jan Mendling

机构: 魏岑鲍姆网络社会研究所 慕尼黑工业大学 维也纳经济大学

摘要: 业务流程管理(BPM)被广泛应用于发现、建模、分析和优化组织流程。BPM通过分析技术来审视这些流程,假定这些流程具有明确定义的开始和结束。然而,并非所有流程都遵循这种逻辑,导致它们的行为无法被BPM分析技术恰当捕捉。本文在概念层面解决了这一研究问题。更具体地,我们引入了“激活业务流程”的概念,该概念针对一个或多个实体的生命周期过程。我们展示了许多行业中存在生命周期过程,并且它们的适当概念化为适当的建模和分析技术的定义铺平了道路。本文提供了对它们分析的一组要求,并对生命周期和激活流程进行了概念化。

论文链接: https://arxiv.org/abs/2407.17881

在联邦蒸馏中的峰值控制Logits毒化攻击

原标题: Peak-Controlled Logits Poisoning Attack in Federated Distillation

作者: Yuhan Tang, Aoxu Zhang, Zhiyuan Wu, Bo Gao, Tian Wen, Yuwei Wang, Sheng Sun

机构: 北京交通大学 中国科学院 中国科学院大学

摘要: 联邦蒸馏(FD)提供了一种创新的分布式机器学习方法,利用知识蒸馏实现跨设备知识传输的高效灵活性,而无需将大量模型参数上传到中央服务器。虽然FD变得越来越受欢迎,但其对毒化攻击的脆弱性仍未得到充分探讨。为了填补这一空白,我们之前引入了FDLA(Federated Distillation Logits Attack),这是一种通过操纵logits通信来误导和降低客户端模型性能的方法。然而,FDLA对具有不同身份的参与者的影响以及在知识传输的各个阶段进行恶意修改的影响尚未被探索。为此,我们提出了PCFDLA(Peak-Controlled Federated Distillation Logits Attack),这是一种先进且更隐蔽的logits毒化攻击方法,用于FD。PCFDLA通过精心控制logits的峰值来增强FDLA的有效性,从而创建高度误导性但不易察觉的修改。此外,我们引入了一种新颖的度量标准,以更好地评估攻击效果,证明PCFDLA在保持隐蔽性的同时,与其前身相比对受害模型造成的破坏更为显著。跨多个数据集的实验结果证实了PCFDLA对模型准确性的卓越影响,巩固了其在联邦蒸馏系统中潜在威胁的地位。

论文链接: https://arxiv.org/abs/2407.18039

一个视觉Transformer可以有多轻量化

原标题: How Lightweight Can A Vision Transformer Be

作者: Jen Hong Tan

机构: 新加坡中央医院 数据科学与人工智能实验室 (DSAIL)

摘要: 在这篇论文中,我们探讨了一种使用专家混合(MoE)来简化而非增强视觉Transformer的策略。MoE层中的每个专家都是一个SwiGLU前馈网络,其中V和W2在整个层中是共享的。没有使用复杂的注意力或卷积机制。深度缩放被应用于逐渐减小隐藏层的大小,并且专家数量在各个阶段增加。使用了分组查询注意力。我们研究了在小数据集上进行预训练和不进行预训练的提出方法,并调查了在这一规模下是否可以进行迁移学习。我们发现,即使在0.67M参数规模下,该架构也具有竞争力。

论文链接: https://arxiv.org/abs/2407.17783

HG-PIPE:使用混合粒度管道加速 Vision Transformer

原标题: HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline

作者: Qingyu Guo, Jiayong Wan, Songqiang Xu, Meng Li, Yuan Wang

机构: 北京大学集成电路学院 软件与微电子学院 人工智能研究所 北京大学高级集成电路创新中心

摘要: 使用现场可编程门阵列(FPGA)加速视觉Transformer(ViT)是具有前景但具有挑战性的。现有基于FPGA的ViT加速器主要依赖于时间架构,通过重用相同的硬件块处理不同的运算符,并且受到大量内存访问开销的影响。流水线架构,无论是粗粒度还是细粒度,都会在空间上展开ViT计算以提高内存访问效率。然而,它们通常受到显著的硬件资源限制和由ViT的全局计算依赖引起的流水线气泡的影响。在本文中,我们介绍了HG-PIPE,这是一种用于高吞吐量和低延迟ViT处理的流水线FPGA加速器。HG-PIPE采用混合粒度流水线架构,以减少片上缓冲成本,并将计算数据流和并行设计相结合,以消除流水线气泡。HG-PIPE进一步引入了谨慎的近似方法,使用丰富的查找表(LUTs)实现线性和非线性运算符,从而缓解资源限制。在ZCU102 FPGA上,HG-PIPE的吞吐量比先前的加速器(例如AutoViTAcc)提高了2.78倍,资源效率提高了2.52倍。使用VCK190 FPGA,HG-PIPE在单个设备上实现了端到端的ViT加速,并实现了7118张图像/秒的处理速度,比V100 GPU快了2.81倍。

论文链接: https://arxiv.org/abs/2407.17879

通过可扩展的模态对齐推进多模态感知

原标题: Advancing Multi-Modal Sensing Through Expandable Modality Alignment

作者: Shenghong Dai, Shiqi Jiang, Yifan Yang, Ting Cao, Mo Li, Suman Banerjee, Lili Qiu

机构: 微软研究 威斯康星大学麦迪逊分校 香港科技大学

摘要: 感知技术被广泛应用于理解物理世界,过去几十年探索了许多模态。虽然在多模态学习方面已经进行了大量工作,但它们都需要所有模态的数据成对出现。如何利用部分配对的多模态数据仍然是一个悬而未决的问题。为了解决这一挑战,我们引入了Babel框架,包括神经网络架构、数据准备和处理,以及训练策略。Babel作为一个可扩展的预训练多模态感知神经网络,目前对齐了六种感知模态,即Wi-Fi、毫米波、IMU、LiDAR、视频和深度。为了克服完整配对数据的稀缺性,Babel的关键思想是通过设计可扩展的网络架构,将N模态对齐转化为一系列两模态对齐。这一概念还通过一系列新颖技术实现,包括利用可用的单模态网络的预训练模态塔,以及平衡新纳入模态与先前建立的模态对齐贡献的自适应训练策略。
评估表明,与各种基线(例如顶级多模态感知框架、单模态感知网络和多模态大语言模型)相比,Babel在八个人类活动识别数据集上表现出色。Babel不仅有效地融合了多个可用的模态(准确率提高了22%),还提高了单个模态的性能(平均准确率提高了12%)。案例研究还突出了Babel赋予的令人兴奋的应用场景,包括跨模态检索(即感知成像)和为感知理解构建LLM。

论文链接: https://arxiv.org/abs/2407.17777

在异步量子强化学习中的可微分量子架构搜索

原标题: Differentiable Quantum Architecture Search in Asynchronous Quantum Reinforcement Learning

作者: Samuel Yen-Chi Chen

机构: 威尔斯·法戈公司 纽约,美国

摘要: 量子强化学习(QRL)的出现是由量子计算(QC)和机器学习(ML)的进展推动的,特别是通过建立在变分量子电路(VQC)上的量子神经网络(QNN)。这些进展已经成功地解决了顺序决策任务。然而,构建有效的QRL模型需要相当的专业知识,因为设计量子电路架构存在挑战,包括数据编码和参数化电路,这些因素深刻影响模型性能。在本文中,我们提出使用可微量子架构搜索(DiffQAS)来解决这一挑战,通过基于梯度的优化来实现可训练的电路参数和结构权重。此外,我们通过异步强化学习(RL)方法增强训练效率,促进并行训练。通过数值模拟,我们展示了我们提出的DiffQAS-QRL方法在各种环境中取得了与手工设计的电路架构相媲美的性能,展示了在不同场景下的稳定性。这种方法为设计QRL模型提供了一条途径,无需广泛的量子知识,确保了稳健的性能,并促进了QRL的更广泛应用。

论文链接: https://arxiv.org/abs/2407.18202

AttentionHand:在野外进行3D手部重建的文本驱动可控手部图像生成

原标题: AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild

作者: Junho Park, Kyeongbo Kong, Suk-Ju Kang

机构: 西江大学 三星电子公司 釜山国立大学

摘要: 最近,已经进行了大量关于3D手部重建的研究,以利用各种形式的人机交互。然而,在野外进行3D手部重建是具有挑战性的,因为缺乏野外3D手部数据集。特别是当手部处于复杂姿势,如互动手部时,问题如外观相似性、自遮挡和深度模糊等使得情况更加困难。为了克服这些问题,我们提出了AttentionHand,这是一种用于基于文本驱动的可控手部图像生成的新方法。由于AttentionHand能够生成与3D手部标签良好对齐的各种各样的野外手部图像,我们可以获取一个新的3D手部数据集,并且可以缓解室内和室外场景之间的域差异。我们的方法需要使用四种易于使用的模态(即RGB图像、来自3D标签的手部网格图像、边界框和文本提示)。这些模态通过编码阶段嵌入到潜在空间中。然后,通过文本注意阶段,从给定文本提示中提取与手部相关的标记以突出潜在嵌入的手部相关区域。在视觉注意阶段,突出显示的嵌入通过使用扩散式管道将全局和局部手部网格图像进行条件化,以关注嵌入中的与手部相关区域。在解码阶段,最终特征被解码为新的手部图像,这些图像与给定的手部网格图像和文本提示对齐。结果,AttentionHand在文本到手部图像生成模型中取得了最先进的成果,并且通过额外训练使用AttentionHand生成的手部图像,改善了3D手部网格重建的性能。

论文链接: https://arxiv.org/abs/2407.18034

从预训练的单细胞转录组 Transformer 中推断基因调控网络,采用联合图学习。

原标题: Gene Regulatory Network Inference from Pre-trained Single-Cell Transcriptomics Transformer with Joint Graph Learning

作者: Sindhura Kommu, Yizhi Wang, Yue Wang, Xuan Wang

摘要: 从单细胞RNA测序(scRNA-seq)数据推断基因调控网络(GRNs)是一个复杂的挑战,需要捕捉基因之间及其调控相互作用之间错综复杂的关系。在这项研究中,我们通过利用基于单细胞BERT预训练Transformer模型(scBERT)来解决这一挑战,该模型在大量未标记的scRNA-seq数据上进行训练,以增强现有GRNs中的结构化生物知识。我们引入了一种新颖的联合图学习方法,将预训练的单细胞语言模型学习到的丰富上下文表示与使用图神经网络(GNNs)编码的GRNs中的结构化知识相结合。通过整合这两种模态,我们的方法有效地推理出scRNA-seq数据提供的基因表达水平约束和GRNs中固有的结构化生物知识。我们在来自BEELINE研究的人类细胞基准数据集上评估了我们的方法,该数据集具有特定细胞类型的地面真实网络。结果表明,我们的方法在当前最先进的基线方法上表现出卓越的性能,为细胞调控机制提供了更深入的理解。

论文链接: https://arxiv.org/abs/2407.18181

通过自我观察学习心智状态估计:意图和信念表示之间的发展协同在一个深度学习模型的心灵理论中。

原标题: Learning mental states estimation through self-observation: a developmental synergy between intentions and beliefs representations in a deep-learning model of Theory of Mind

作者: Francesca Bianco, Silvia Rigato, Maria Laura Filippetti, Dimitri Ognibene

摘要: 心灵理论(ToM),即将信念、意图或心理状态归因于他人的能力,是人类社会互动的关键特征。在复杂环境中,人类感官系统达到极限时,行为很大程度上受我们对周围世界状态的信念驱动。访问他人的心理状态,例如信念和意图,可以在自然环境中实现更有效的社会互动。然而,这些变量并不是直接可观察的,这使得理解ToM成为心理学、机器学习和机器人学等不同领域感兴趣的挑战性课题。在本文中,我们通过展示学习预测低层心理状态(例如意图、目标)与归因高层心理状态(即信念)之间的发展协同关系,为这一主题做出了贡献。具体而言,我们假设学习信念归因可以通过观察涉及信念的自身决策过程来实现,例如在部分可观察环境中。通过使用简单的前馈深度学习模型,我们展示了当学习预测他人意图和行动时,如果同时学习信念归因,更准确的预测可以更早地获得。此外,我们还展示了即使观察者和被观察者具有不同的具象化形式,当观察信念驱动的行为块时,学习表现也会提高。我们提出,我们的计算方法可以为理解人类社会认知发展提供信息,并对未来能够自主理解、协助和从人类互动伙伴中学习的自适应社交机器人的设计具有相关性,尤其是在新颖的自然环境和任务中。

论文链接: https://arxiv.org/abs/2407.18022

Mew: 通过高效的多重网络进行多重免疫荧光图像分析

原标题: Mew: Multiplexed Immunofluorescence Image Analysis through an Efficient Multiplex Network

作者: Sukwon Yun, Jie Peng, Alexandro E. Trevino, Chanyoung Park, Tianlong Chen

机构: 北卡罗来纳大学教堂山分校 中国科学技术大学 Enable Medicine 韩国科学技术院 麻省理工学院 哈佛大学

摘要: 最近在基于图的多重免疫荧光(mIF)图像处理方法方面取得的进展显著推动了该领域的发展,为深入了解患者水平的表型提供了更深入的见解。然而,当前基于图的方法面临两个主要挑战:(1)细胞异质性,现有方法未能充分解决图中固有的归纳偏见,特别是在细胞连接性中观察到的同质性特征;(2)可扩展性,处理来自高维图像的细胞图在管理大量细胞时面临困难。为了克服这些限制,我们引入了Mew,这是一个新颖的框架,旨在通过多重网络的视角高效处理mIF图像。Mew创新地构建了一个包含两个不同层的多重网络:用于几何信息的Voronoi网络和用于捕获细胞同质性的细胞类型网络。该框架配备了一个可扩展且高效的图神经网络(GNN),能够在训练期间处理整个图。此外,Mew集成了一个可解释的注意力模块,可以自主识别图像分类中相关的层。对来自各个机构的真实患者数据集进行的大量实验突显了Mew在mIF图像分析中的显著功效和效率,标志着该领域的重大进展。Mew的源代码可以在此处找到:\url{this https URL}

论文链接: https://arxiv.org/abs/2407.17857

Github: https://github.com/UNITES-Lab/Mew

PianoMime:从互联网演示中学习通用、灵巧的钢琴演奏者

原标题: PianoMime: Learning a Generalist, Dexterous Piano Player from Internet Demonstrations

作者: Cheng Qian, Julen Urain, Kevin Zakka, Jan Peters

机构: 慕尼黑工业大学 德国达姆施塔特工业大学 加州大学伯克利分校

摘要: 在这项工作中,我们介绍了PianoMime,这是一个使用互联网演示来训练钢琴演奏智能体的框架。互联网是一个有希望的大规模演示数据源,可用于训练我们的机器人智能体。特别是对于钢琴演奏这种情况,Youtube 上充满了各种专业钢琴家演奏各种歌曲的视频。在我们的工作中,我们利用这些演示来学习一个通用的钢琴演奏智能体,能够演奏任何任意的歌曲。我们的框架分为三个部分:数据准备阶段,从Youtube视频中提取信息特征;策略学习阶段,从演示中训练特定歌曲的专家策略;策略蒸馏阶段,将这些策略蒸馏成一个通用的智能体。我们探索了不同的策略设计来表示智能体,并评估了训练数据量对智能体对于数据集中不存在的新歌曲的泛化能力的影响。我们展示了我们能够学习一个在未见过的歌曲上达到56%的F1分数的策略。

论文链接: https://arxiv.org/abs/2407.18178

Mpox检测高级:通过合成数据实现快速疫情响应

原标题: Mpox Detection Advanced: Rapid Epidemic Response Through Synthetic Data

作者: Yudara Kularathne, Prathapa Janitha, Sithira Ambepitiya, Prarththanan Sothyrajah, Thanveer Ahamed, Dinuka Wijesundara

机构: HeHealth Inc. San Francisco, USA

摘要: 使用计算机视觉快速开发疾病检测模型在应对流行病或生物恐怖主义事件等医疗紧急情况中至关重要。在这些情况下,传统的数据收集方法往往过于缓慢,需要创新方法从最少的数据中快速、可靠地生成模型。我们的研究通过构建一个全面的计算机视觉模型,仅使用合成数据来检测 Mpox 病变,引入了一种新颖的方法。最初,这些模型生成了一组多样化的合成图像,代表了不同皮肤色调(根据菲茨帕特里克皮肤色调等级,包括白皮肤、棕皮肤、黑皮肤)上的各种部位(面部、背部、胸部、腿部、颈部、手臂)上的 Mpox 病变。随后,我们使用这个合成数据集训练和测试了一个视觉模型,评估扩散模型在生成高质量训练数据方面的有效性,以及对视觉模型的医学图像识别性能的影响。结果是令人鼓舞的;视觉模型实现了 97% 的准确率,对于 Mpox 病例的精确度和召回率均为 96%,对于正常和其他皮肤疾病病例也有类似高的指标,表明其能够正确识别真正阳性并最小化假阳性。该模型对于 Mpox 病例的 F1 分数为 96%,对于正常和其他皮肤疾病为 98%,反映了一个平衡的精确度-召回率关系,从而确保了其预测的可靠性和稳健性。我们提出的 SynthVision 方法表明了利用最少的数据输入为未来医疗紧急情况开发准确的计算机视觉模型的潜力。

论文链接: https://arxiv.org/abs/2407.17762

利用量子随机平滑技术的二次优势应用于时间序列分析

原标题: Quadratic Advantage with Quantum Randomized Smoothing Applied to Time-Series Analysis

作者: Nicola Franco, Marie Kempkes, Jakob Spiegelberg, Jeanette Miriam Lorenz

机构: 弗劳恩霍夫认知系统研究所 德国慕尼黑
大众汽车集团创新部 大众汽车股份公司 德国沃尔夫斯堡

摘要: 随着量子机器学习的快速发展,确保量子算法的稳健性和效率至关重要。我们的研究分析了量子随机平滑,展示了如何将数据编码和扰动建模方法相匹配,以实现有意义的稳健性证书。通过利用集成了Grover算法的创新方法,实现了比经典随机平滑更具二次采样优势。这种策略需要基态编码,从而限制了有意义扰动的空间。我们展示了受限的 k k k-距离汉明权重扰动在这里是一个合适的噪声分布,并阐明了它们如何在量子计算机上构建。所提出的框架在应用一种词袋预处理解决方案进行时间序列分类任务时的有效性得到了证明。特别是在大量样本的情况下,二次采样减少的优势得以恢复。这可能使量子计算机能够将随机平滑高效扩展到超出经典方法能力范围的更复杂任务。

论文链接: https://arxiv.org/abs/2407.18021

Quasar-ViT:面向硬件的量化感知架构搜索,用于Vision Transformers

原标题: Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers

作者: Zhengang Li, Alec Lu, Yanyue Xie, Zhenglun Kong, Mengshu Sun, Hao Tang, Zhong Jia Xue, Peiyan Dong, Caiwen Ding, Yanzhi Wang, Xue Lin, Zhenman Fang

机构: 东北大学 Simon Fraser大学 ETH Zurich 康涅狄格大学

摘要: Vision transformers(ViTs)已经证明在计算机视觉任务中相较于卷积神经网络(CNNs)具有更高的准确性。然而,ViT模型通常对于在资源有限的边缘设备上进行高效部署而言计算密集。本文提出了Quasar-ViT,这是一个面向硬件的量化感知架构搜索框架,用于为ViTs设计高效的模型以便在硬件实现中保持准确性。首先,Quasar-ViT使用我们的逐行灵活的混合精度量化方案、混合精度权重纠缠和超网络层缩放技术训练一个超网络。然后,它应用一个高效的面向硬件的搜索算法,结合硬件延迟和资源建模,确定在不同推理延迟目标下从超网络中确定一系列最佳子网络。最后,我们提出了一系列针对FPGA平台的模型自适应设计,以支持架构搜索并减轻理论计算减少与实际推理加速之间的差距。我们搜索得到的模型在AMD/Xilinx ZCU102 FPGA上实现了101.5、159.6和251.6帧每秒(FPS)的推理速度,对于ImageNet数据集,分别达到80.4%、78.6%和74.9%的top-1准确率,始终优于先前的工作。

论文链接: https://arxiv.org/abs/2407.18175

TwIPS:一个由大语言模型驱动的文本应用,旨在简化自闭症用户的对话细微差别。

原标题: TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users

作者: Rukhshan Haroon, Fahad Dogar

机构: 塔夫茨大学

摘要: 自闭症患者通常在传达和解释情感语调以及非字面细微差别方面会遇到困难。许多人还会掩饰他们的沟通风格,以避免被他人误解,这在过程中需要花费大量时间和精力。为了解决这些文本交流中的挑战,我们提出了 TwIPS,这是一个由大语言模型(LLM)驱动的原型文本应用,可以帮助用户:a)解释传入消息的语调和含义,b)确保他们的消息的情感语调符合其意图,c)为可能被他人误解并产生负面反应的消息提供替代措辞。我们利用基于AI的模拟和对话脚本,在实验室环境中与8名自闭症参与者评估了TwIPS。我们的研究结果显示,TwIPS为参与者提供了一种便捷的方式来寻求澄清,提供了比语调指示更好的选择,并促进了对写作技巧和风格的建设性反思。我们还研究了自闭症用户如何在即时通讯中利用语言进行自我表达和解释,并收集反馈以增强我们的原型。最后,我们讨论了在AI辅助通信背景下如何平衡用户自主权和AI调解、建立AI系统的适当信任水平以及自闭症用户在定制需求方面的需求。

论文链接: https://arxiv.org/abs/2407.17760

DragText:重新思考基于点的图像编辑中的文本嵌入

原标题: DragText: Rethinking Text Embedding in Point-based Image Editing

作者: Gayoon Choi, Taejin Jeong, Sujung Hong, Jaehoon Joo, Seong Jae Hwang

机构: 延世大学

摘要: 基于点的图像编辑通过内容拖动实现准确灵活的控制。然而,在编辑过程中文本嵌入的作用尚未得到深入研究。一个尚未被探索的重要方面是文本和图像嵌入之间的交互作用。在这项研究中,我们展示了在扩散模型中对输入图像进行渐进编辑时,文本嵌入保持不变。随着图像嵌入越来越偏离其初始状态,图像和文本嵌入之间的差异提出了重大挑战。此外,我们发现文本提示显著影响拖动过程,特别是在保持内容完整性和实现所需操作方面。为了利用这些见解,我们提出了DragText,它优化文本嵌入以配合修改后的图像嵌入的拖动过程。同时,我们规范文本优化过程以保持原始文本提示的完整性。我们的方法可以与现有基于扩散的拖动方法无缝集成,只需几行代码。

论文链接: https://arxiv.org/abs/2407.17843

对细胞自动机和异质拓扑网络的敏感性分析:部分局部细胞自动机和同质随机布尔网络

原标题: A Sensitivity Analysis of Cellular Automata and Heterogeneous Topology Networks: Partially-Local Cellular Automata and Homogeneous Homogeneous Random Boolean Networks

作者: Tom Eivind Glover, Ruben Jahren, Francesco Martinuzzi, Pedro Gonçalves Lind, Stefano Nichele

机构: 奥斯陆都市大学 东福尔德大学学院

摘要: 元胞自动机(ECA)是一个经过深入研究的计算宇宙,尽管其配置简单,但具有令人印象深刻的计算多样性。历史上,以有用的方式利用这种计算一直被证明是困难的,但如果与储层计算(RC)结合,这将变得更加可行。此外,RC和ECA实现了能源高效的人工智能,使得这种组合成为边缘人工智能的一个有前途的概念。在这项工作中,我们将ECA与部分局部CA(PLCA)和同质随机布尔网络(HHRBN)的基质进行对比。相比之下,它们是ECA的拓扑异质对应物。这代表了从ECA向更具生物合理性的基质迈出的一步。我们通过在RC基准测试(5位记忆)上进行测试,使用时间Derrida图来估计灵敏度并评估缺陷崩溃率来分析这些基质。我们发现,令人意外的是,无序的拓扑结构并不一定意味着无序的计算。拓扑结构缺陷导致更高的崩溃率(秩序)和然而,如果考虑在内,对初始条件的敏感性增加。这些观察结果一起表明了一个缩小的临界范围。

论文链接: https://arxiv.org/abs/2407.18017

关于通过基础模型重新探索大气科学的机会:案例研究

原标题: On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study

作者: Lujia Zhang, Hanzhe Cui, Yurong Song, Chenyue Li, Binhang Yuan, Mengqian Lu

机构: 香港科技大学

摘要: 大多数大气科学领域的最先进人工智能应用都基于经典的深度学习方法。然而,这些方法无法自动整合多个复杂程序以构建智能体,因为每个功能都是由从独立气候数据集中学习的单独模型实现的。基础模型的出现,特别是多模态基础模型,以其处理异构输入数据和执行复杂任务的能力,为克服这一挑战提供了重要机遇。在本报告中,我们希望探讨一个核心问题 - 即最先进的基础模型,即 GPT-4o,如何执行各种大气科学任务。为此,我们通过将任务分类为气候数据处理、物理诊断、预测和预测以及适应和缓解四个主要类别,进行了案例研究。对于每个任务,我们全面评估了 GPT-4o 的性能,并进行了具体讨论。我们希望这份报告能为未来大气科学领域的人工智能应用和研究带来新的启示。

论文链接: https://arxiv.org/abs/2407.17842

在开放世界感知中,基于双曲空间的分类感知连续语义分割

原标题: Taxonomy-Aware Continual Semantic Segmentation in Hyperbolic Spaces for Open-World Perception

作者: Julia Hindel, Daniele Cattaneo, Abhinav Valada

机构: 弗莱堡大学

摘要: 语义分割模型通常在固定类别集上进行训练,限制了它们在开放世界场景中的适用性。类增量语义分割旨在更新具有新出现类别的模型,同时防止对先前学习的类别产生灾难性遗忘。然而,现有方法对旧类别施加严格的刚性,降低了它们在学习新增类别时的有效性。在这项工作中,我们提出了基于分类学导向的Poincaré正则化增量类别分割(TOPICS),该方法在双曲空间中学习特征嵌入,遵循显式的分类树结构。这种监督为旧类别提供了可塑性,基于新类别更新祖先,同时在适当位置整合新类别。此外,我们在Poincaré球的几何基础上保持隐式类别关系约束。这确保潜在空间可以持续适应新约束,同时保持强大的结构以抵御灾难性遗忘。我们还为自动驾驶场景建立了八种现实增量学习协议,其中新类别可以源自已知类别或背景。在Cityscapes和Mapillary Vistas 2.0基准测试上对TOPICS进行的广泛评估表明,它实现了最先进的性能。我们将代码和训练模型公开提供在此 http URL。

论文链接: https://arxiv.org/abs/2407.18145

其他链接: http://topics.cs.uni-freiburg.de

将看似不相关的事物联系起来:对生成模型在算术推理任务中泛化的原则性理解

原标题: Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks

作者: Xingcheng Xu, Zibo Zhao, Haipeng Zhang, Yanqing Yang

机构: 上海人工智能实验室 上海科技大学 复旦大学

摘要: 大语言模型(LLMs)在许多任务中展现出令人印象深刻的多功能性,但它们的泛化能力仍然不太被理解。为了研究这些行为,算术任务被视为重要的场所。在先前的研究中,似乎存在着不相关的谜团——(1)具有适当位置嵌入的模型可以正确执行更长的未见算术运算,如加法,但它们在更复杂的任务如乘法中的效果有所不同;(2)在特定模数(例如模100)下,模型在更长的未见情况下执行模加法时表现良好,但在非常接近的模数(例如模101)下则表现出困难,而不论使用的位置编码如何。我们认为先前的研究一直在处理症状而不是解决根本原因——它们过分关注改进模型组件,而忽视了可能是真正驱动因素的任务属性的差异。这一点得到了我们针对不同算术场景的统一理论框架的证实。例如,与乘法不同,数字加法任务具有平移不变性的特性,这与相对位置编码自然地对齐,这种组合导致了加法成功地泛化到未见的更长域。模100和101的操作差异源于基数。与101不同,模100与十进制系统(基数10)兼容,因此对于任务实际上不需要超出个位数和十位数的数字的未见信息。类似GPT的模型的大量实验证实了我们的理论预测。这些发现加深了我们对泛化机制的理解,并促进了更具数据效率的模型训练和面向目标的AI对齐。

论文链接: https://arxiv.org/abs/2407.17963

UMono:物理模型指导的水下单目深度估计混合 CNN-Transformer 框架

原标题: UMono: Physical Model Informed Hybrid CNN-Transformer Framework for Underwater Monocular Depth Estimation

作者: Jian Wang, Jing Wang, Shenghui Rong, Bo He

摘要: 水下单目深度估计是水下场景三维重建等任务的基础。然而,由于光线和介质的影响,水下环境经历了独特的成像过程,这给从单幅图像准确估计深度带来了挑战。现有方法未能考虑水下环境的独特特征,导致估计结果不足以及泛化性能有限。此外,水下深度估计需要提取和融合局部和全局特征,这在现有方法中尚未得到充分探讨。本文提出了一种名为UMono的水下单目深度估计端到端学习框架,将水下图像形成模型特征纳入网络架构,并有效利用水下图像的局部和全局特征。实验结果表明,所提出的方法对水下单目深度估计是有效的,并在定量和定性分析中优于现有方法。

论文链接: https://arxiv.org/abs/2407.17838

通过熵优势估计的最大熵政策演员-评论家算法

原标题: Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation

作者: Jean Seong Bjorn Choe, Jong-Kook Kim

机构: 韩国大学

摘要: 熵正则化是一种广泛采用的技术,可以增强策略优化的性能和稳定性。一种值得注意的熵正则化形式是通过增加一个熵项来扩展目标,从而同时优化期望回报和熵。这种框架被称为最大熵强化学习(MaxEnt RL),在理论和实证上取得了成功。然而,在直接的在线策略演员-评论家设置中,其实际应用仍然受到意外的忽视。我们假设这是由于实践中管理熵奖励的困难所致。本文提出了一种简单的方法,将熵目标与MaxEnt RL目标分离,从而促进了MaxEnt RL在在线策略设置中的实施。我们的实证评估表明,在MuJoCo和Procgen任务中,将Proximal Policy Optimization(PPO)和Trust Region Policy Optimization(TRPO)扩展到MaxEnt框架中可以提高策略优化性能。此外,我们的结果突显了MaxEnt RL增强泛化能力的潜力。

论文链接: https://arxiv.org/abs/2407.18143

使用 Yolo-v9 实时检测美国手语

原标题: Real Time American Sign Language Detection Using Yolo-v9

作者: Amna Imran, Meghana Shashishekhara Hulikal, Hamza A. A. Gardi

机构: ETIT -KIT 德国 IIIT 德国

摘要: 这篇论文关注实时美国手语检测。YOLO是一种基于卷积神经网络(CNN)的模型,最早在2015年发布。近年来,由于其实时检测能力而备受欢迎。我们的研究专门针对YOLO-v9模型,该模型于2024年发布。由于这个模型是新推出的,对它的研究工作并不多,尤其是在手语检测方面。我们的论文深入探讨了YOLO-v9的工作原理,并指出其优于先前的模型。

论文链接: https://arxiv.org/abs/2407.17950

通过具有理论保证的真实拥挤距离克服NSGA-II的困难

原标题: Overcome the Difficulties of NSGA-II via Truthful Crowding Distance with Theoretical Guarantees

作者: Weijie Zheng, Benjamin Doerr

摘要: NSGA-II 已被证明在超过两个目标时会遇到困难,推断的原因是通过独立考虑不同目标计算的拥挤距离。NSGA-III 和 SMS-EMOA 的最近理论效率也支持了这一推断,因为这两种算法在非支配排序后考虑了目标的依赖关系,但结构复杂或计算困难。然而,仍然存在一个问题,即原始拥挤距离的简单修改是否有助于解决问题。

本文提出了这样一个变体,称为真实拥挤距离。这个变体继承了为每个目标求和的简单结构。对于每个目标,它首先按降序目标值对解集进行排序,并使用当前解与排序列表中较早位置的解之间的最小归一化 L1 距离作为组成部分。将所有组成部分相加得到真实拥挤距离的值。我们将这个 NSGA-II 变体称为 NSGA-II-T,它用真实拥挤距离替换原始拥挤距离,并在每次移除后顺序更新拥挤距离值。

我们证明了 NSGA-II-T 能够有效地覆盖许多目标 mOneMinMax 和 mOJZJ 的完整帕累托前沿,与原始 NSGA-II 的指数运行时间形成对比。此外,我们还证明了它在理论上比原始 NSGA-II 的顺序生存选择对于 OneMinMax 达到了略好的帕累托前沿近似。此外,它是第一个具有简单结构且在理论上保证在许多目标上表现良好的 NSGA-II 变体。

论文链接: https://arxiv.org/abs/2407.17687

比特币价格预测的不同人工神经网络比较

原标题: Comparison of different Artificial Neural Networks for Bitcoin price forecasting

作者: Silas Baumann, Karl A. Busch, Hamza A. A. Gardi

机构: 卡尔斯鲁厄理工学院

摘要: 这项研究调查了使用人工神经网络(ANNs)预测加密货币回报准确性时,不同序列长度对其影响。利用平均绝对误差(MAE)作为阈值标准,我们旨在通过排除小于此阈值的回报来提高预测准确性,从而减轻与较小回报相关的误差。随后的评估侧重于超过此阈值的预测回报的准确性。我们比较了四种序列长度:168小时(7天)、72小时(3天)、24小时和12小时,每个序列长度的回报预测间隔为2小时。我们的研究结果揭示了序列长度对预测准确性的影响,并强调了在金融预测模型中优化序列配置的潜力。

论文链接: https://arxiv.org/abs/2407.17930

使用扩散模型进行自监督预训练,用于 X 光图像中的少样本地标检测

原标题: Self-supervised pre-training with diffusion model for few-shot landmark detection in x-ray images

作者: Roberto Di Via, Francesca Odone, Vito Paolo Pastore

机构: 热那亚大学 MaLGa, DIBRIS

摘要: 在过去几年中,深度神经网络已被广泛应用于医疗领域的不同任务,包括图像分类、分割和地标检测。然而,这些技术在医疗领域的应用通常受到数据稀缺的限制,无论是可用的注释还是图像。本研究介绍了一种基于扩散模型的新型自监督预训练协议,用于X光图像中的地标检测。我们的结果表明,所提出的自监督框架可以在最少数量的可用注释训练图像(最多50张)下提供准确的地标检测,优于ImageNet监督预训练和三个流行X光基准数据集的最先进自监督预训练方法。据我们所知,这是首次探索扩散模型在地标检测中的自监督学习,这可能为少样本情况下的有价值的预训练方法提供帮助,以缓解数据稀缺问题。

论文链接: https://arxiv.org/abs/2407.18125

NC-NCD:节点分类的新类别发现

原标题: NC-NCD: Novel Class Discovery for Node Classification

作者: Yue Hou, Xueyuan Chen, He Zhu, Romei Liu, Bowen Shi, Jiaheng Liu, Junran Wu, Ke Xu

机构: 北京航空航天大学 中国传媒大学

摘要: 新类别发现(NCD)涉及通过利用先前建立的类别所获知识,在未标记数据中识别新类别。然而,现有的NCD方法通常难以在旧类别和新类别之间保持平衡。以类增量方式发现未标记的新类别更为实际,但也更具挑战性,因为往往会受到对旧类别的灾难性遗忘或无法学习新类别的阻碍。此外,在连续可扩展的图结构数据上实现NCD仍然是一个未充分探讨的领域。针对这些挑战,我们首次引入了一个更为实际的节点分类NCD场景(即NC-NCD),并提出了一种新颖的自训练框架,采用原型重放和蒸馏,称为SWORD,适用于我们的NC-NCD设置。我们的方法使模型能够在学习标记节点后对未标记的新类别节点进行聚类,同时在不依赖旧类别节点的情况下保持对旧类别的性能。SWORD通过采用自训练策略来学习新类别,并通过特征原型和知识蒸馏的联合使用来防止对旧类别的遗忘。对四个常见基准数据集的大量实验证明了SWORD相对于其他最先进方法的优越性。

论文链接: https://arxiv.org/abs/2407.17816

深度图像质量度量对仿射变换的不变性

原标题: Invariance of deep image quality metrics to affine transformations

作者: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo

机构: ValgrAI Image Processing Lab Universitat de València

摘要: 深度架构是当前在预测主观图像质量方面的最先进技术。通常,这些模型根据它们与人类意见在可能出现在数字媒体中的各种失真相关的能力进行评估。然而,这些模型忽视了可能更好地代表实际发生在自然条件下的图像变化的仿射变换。与数字变换相反,人类可能对这些自然变换特别不变。在这项工作中,我们通过评估最先进的深度图像质量度量来评估它们对仿射变换的不变性,具体包括:旋转、平移、缩放和光谱照明变化。我们提出了一种方法来为任何感知度量分配不可见阈值。这种方法涉及将任意度量测得的距离转换为基于可用的主观评分数据库的通用距离表示。我们在该通用表示中心理物理地测量绝对检测阈值,并将其表示为每种度量的每种仿射变换的物理单位。通过这样做,我们使得分析的度量可以直接与实际人类阈值进行比较。我们发现,在基于不可见阈值的这种强测试下,没有任何最先进的度量显示出类似于人类的结果。这意味着,将模型调整为仅预测通用失真的可见性可能会忽略人类视觉的其他特性,例如不变性或不可见阈值。

论文链接: https://arxiv.org/abs/2407.17927

MapTune:通过强化学习引导库调整推进 ASIC 技术映射

原标题: MapTune: Advancing ASIC Technology Mapping via Reinforcement Learning Guided Library Tuning

作者: Mingju Liu, Daniel Robinson, Yingjie Li, Cunxi Yu

机构: 马里兰大学学院公园 麻省理工学院

摘要: 技术映射涉及将逻辑电路映射到一个单元库中。传统上,会使用完整的技术库,导致搜索空间庞大且潜在开销较大。受随机抽样技术映射案例的启发,我们提出了MapTune框架,通过利用强化学习在单元选择过程中做出针对设计的选择来解决这一挑战。通过从环境中学习,MapTune优化了单元选择过程,减少了搜索空间,可能提高了映射质量。

MapTune的有效性在各种基准测试、不同技术库和技术映射器上进行了评估。实验结果表明,MapTune在各种电路设计、技术库和映射器中实现了更高的映射准确性,并减少了延迟/面积。该论文还讨论了帕累托最优探索,并确认了永久的延迟-面积权衡。在基准套件ISCAS 85/89、ITC/ISCAS 99、VTR8.0和EPFL基准上进行的技术映射和后续调整质量结果(QoR)得到了显著改善,在MapTune的所有不同探索设置中,平均面积-延迟乘积(ADP)改进了22.54%。这些改进在四种不同技术(7nm、45nm、130nm和180nm)和两种不同映射器中始终保持一致。

论文链接: https://arxiv.org/abs/2407.18110

提升模型性能:视觉-语言指导调优的另一种方法

原标题: Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

作者: Vedanshu, MM Tripathi, Bhavnesh Jaint

机构: 德里工业大学

摘要: 大语言模型(LLMs)与视觉语言(VL)任务的整合是人工智能领域的一项革命性发展,突显了LLMs作为多功能通用聊天机器人的潜力。然而,当前这一演进趋势集中在整合视觉和语言,以创建能够在更多样化和真实世界背景下运行的模型。我们提出了一种新颖的方法,称为瓶颈适配器,专门设计用于增强这些复杂模型的多模态功能,通过一种称为多模态模型调整(MMT)的过程实现整个多模态LLM框架的联合优化。我们的方法利用轻量级适配器连接图像编码器和LLM,无需大型、复杂的神经网络。与传统的模块化训练方案不同,我们的方法采用端到端优化机制,结合适配器,利用明显较小的参数集进行联合优化。我们的方法表现出强大的性能,准确率达到90.12%,优于人类水平表现(88.4%)和LaVIN-7B(89.41%)。

论文链接: https://arxiv.org/abs/2407.17813

函数调用的黑暗面:越狱大语言模型的途径

原标题: The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models

作者: Zihui Wu, Haichang Gao, Jianping He, Ping Wang

机构: 西安电子科技大学

摘要: 大语言模型(LLMs)展示了卓越的能力,但其强大性带来了重要的安全考虑。虽然对LLMs在聊天模式下的安全性进行了广泛研究,但对其函数调用功能的安全影响却被大多数人忽视了。本文揭示了LLMs函数调用过程中的一个关键漏洞,引入了一种新颖的“越狱函数”攻击方法,利用了对齐差异、用户强制和缺乏严格的安全过滤器。我们的实证研究在包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro在内的六款最先进的LLMs上进行,揭示了这种攻击的惊人平均成功率超过90%。我们对函数调用为何容易受到此类攻击进行了全面分析,并提出了防御策略,包括使用防御性提示。我们的研究结果突显了LLMs函数调用能力中加强安全措施的迫切需求,通过识别以前未曾探讨的风险、设计有效的攻击方法和建议实用的防御措施,为AI安全领域做出了贡献。我们的代码可在此https网址上找到。

论文链接: https://arxiv.org/abs/2407.17915

Github: https://github.com/wooozihui/jailbreakfunction

多分辨率组织病理学斑块图用于卵巢癌亚型分类

原标题: Multi-Resolution Histopathology Patch Graphs for Ovarian Cancer Subtyping

作者: Jack Breen, Katie Allen, Kieran Zucker, Nicolas M. Orsi, Nishant Ravikumar

机构: 利兹大学 癌症中心 圣詹姆斯大学医学院

摘要: 计算机视觉模型越来越能够对卵巢上皮癌亚型进行分类,但它们与病理学家的不同之处在于处理单一分辨率下的小组织块。多分辨率图模型利用多个放大倍数下的组织块之间的空间关系,学习每个组织块的上下文。在这项研究中,我们对迄今为止用于卵巢癌亚型分类的图模型进行了最彻底的验证。通过在来自利兹教学医院国家医疗服务信托的434名患者的1864个全切片图像(WSIs)上进行五折交叉验证来调整和训练七个模型。交叉验证模型进行了集成,并使用来自30名患者的100个WSIs的平衡留置测试集以及来自Transcanadian Study的80名患者的80个WSIs的外部验证集进行评估。表现最佳的模型是使用10x+20x放大数据的图模型,在交叉验证、留置测试和外部验证中分别获得了73%、88%和99%的平衡准确率。然而,在外部验证中,这仅仅超过了基于注意力的多实例学习的表现,后者的平衡准确率为93%。与使用ImageNet预训练的ResNet50进行特征提取相比,图模型极大地受益于使用UNI基础模型,这对性能的影响要大得多,而改变后续的分类方法对性能的影响较小。结合基础模型和多分辨率图网络的准确性为这些模型的临床适用性迈出了一步,为这一任务报告的最高性能,尽管仍需要进一步验证以确保模型的稳健性和可用性。

论文链接: https://arxiv.org/abs/2407.18105

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值