cs.AI: 通过大量数据增强改进基于深度学习的自动颅骨缺损重建:从图像配准到潜在扩散模型
原标题: Improving Deep Learning-based Automatic Cranial Defect Reconstruction by Heavy Data Augmentation: From Image Registration to Latent Diffusion Models
作者: Marek Wodzinski, Kamil Kwarciak, Mateusz Daniol, Daria Hemmerling
机构: 阿尔及利亚哈吉拉赫大学、瑞士西部应用科学大学(HES-SO Valais)
摘要: 个性化颅骨植入物的建模和制造是重要的研究领域,可以缩短患有颅骨损伤的患者的等待时间。个性化植入物的建模可以通过使用基于深度学习的方法部分自动化。然而,这项任务面临着泛化到以前未见分布数据的困难,这使得难以在真实临床环境中使用研究成果。由于获取地面真实标注的困难,必须考虑并引入用于训练深度网络的数据集异质性改进技术。在这项工作中,我们展示了几种增强技术的大规模研究,从经典的几何变换、图像配准、变分自动编码器和生成对抗网络,到最新的潜在扩散模型。我们表明,大量数据增强的使用显著提高了定量和定性结果,导致SkullBreak数据集的平均Dice分数超过0.94,SkullFix数据集超过0.96。此外,我们展示合成增强网络成功重建了真实临床缺陷。这项工作对人工智能领域在自动建模个性化颅骨植入物方面做出了重要贡献。
论文链接: https://arxiv.org/pdf/2406.06372
cs.AI: 在多智能体MDPs中的自适应对手策略检测:使用运行误差估计进行实时策略切换识别
原标题: Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation
作者: Mohidul Haque Mridul, Mohammad Foysal Khan, Redwan Ahmed Rizvee, Md Mosaddek Khan
机构: 达卡大学
摘要: 在多智能体强化学习(MARL)中,准确感知对手策略对于合作和对抗环境至关重要,特别是在动态环境中。虽然 Proximal Policy Optimization(PPO)和相关算法,如带经验重放的演员-评论家(ACER)、信任区域策略优化(TRPO)和深度确定性策略梯度(DDPG)在单智能体、静态环境中表现良好,但由于对手的非静态和隐藏策略,它们在MARL中存在高方差问题,导致奖励性能下降。此外,MARL中的现有方法面临重大挑战,包括需要智能体间通信、依赖显式奖励信息、高计算需求和采样效率低下。这些问题使它们在对手可能在没有事先通知的情况下突然改变策略的连续环境中效果较差。在这种背景下,我们提出了OPS-DeMo(在线策略切换检测模型),这是一种在线算法,采用动态误差衰减来检测对手策略的变化。OPS-DeMo使用假设对手策略(AOP)库不断更新其信念,并从预先训练的响应策略库中选择相应的响应。每个响应策略针对一直在制定策略的对手进行训练,减少训练不确定性,并使得像PPO这样的算法在多智能体环境中能够有效使用。比较评估表明,我们的方法在动态场景(如捕食者-猎物设置)中优于经过PPO训练的模型,提供更强的对突然策略变化的鲁棒性,并通过准确的对手策略洞察力实现更明智的决策。
论文链接: https://arxiv.org/pdf/2406.06500
cs.AI: 探究视觉强化学习中的泛化预训练目标
原标题: Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning
作者: Donghu Kim, Hojoon Lee, Kyungmin Lee, Dongyoon Hwang, Jaegul Choo
机构: 东华大学 韩国科学技术研究院
摘要: 最近,在基于视觉的强化学习(RL)中引入了各种预训练方法。然而,由于评估仅限于分布环境和非统一实验设置,它们的泛化能力仍不清楚。为了解决这个问题,我们引入了Atari预训练基准(Atari-PB),该基准在50个Atari游戏的1000万次迁移中对ResNet-50模型进行预训练,并在不同环境分布下进行评估。我们的实验表明,以学习任务不可知特征为重点的预训练目标(例如,识别对象和理解时间动态)增强了在不同环境中的泛化能力。相比之下,以学习任务特定知识为重点的目标(例如,识别代理和拟合奖励函数)提高了在类似于预训练数据集的环境中的性能,但在不同环境中并没有改善。我们在此https URL上公开了我们的代码、数据集和模型检查点。
论文链接: https://arxiv.org/pdf/2406.06037
Github: https://github.com/dojeon-ai/Atari-PB
cs.AI: 自动化食物分配:动态和公平食物分配的两种选择的力量
原标题: Automating Food Drop: The Power of Two Choices for Dynamic and Fair Food Allocation
作者: Marios Mertzanidis, Alexandros Psomas, Paritosh Verma
机构: 普渡大学
摘要: 食物浪费和食品不安全是两个密切相关的全球性紧迫问题。全球范围内的食物拯救组织开展旨在解决这两个问题的项目。在本文中,我们与印第安纳州的一个非营利组织合作,该组织领导着“食物投放”项目,旨在将被拒绝的整车食物从填埋场转移至食物银行。目前,整车到食物银行的匹配决策是由我们合作组织的一名员工进行的。除了这是一项非常耗时的任务外,正如从基于人类的匹配决策中可能预期的那样,分配往往是倾斜的:少数可能的接收者中只有很小比例收到了大部分捐赠。我们在这次合作中的目标是完全自动化“食物投放”。为此,我们需要一个匹配算法,用于做出实时决策,既能确保接收食物的食物银行的公平性,又能优化卡车司机的效率。在本文中,我们描述了指导我们在为合作组织构建和部署的平台中选择算法的理论保证和实验。我们的工作还为负载平衡和球进箱游戏的文献做出了贡献,这可能是独立感兴趣的。具体来说,我们研究了将 m m m个加权球分配到 n n n个加权箱中,其中每个球有两个非均匀抽样的随机箱选择,并证明了对于任何箱的最大负载,这些上界以高概率成立。
论文链接: https://arxiv.org/pdf/2406.06363
cs.AI: 神经-TransUNet:使用Transformer在MRI中分割中风病灶
原标题: Neuro-TransUNet: Segmentation of stroke lesion in MRI using transformers
作者: Muhammad Nouman, Mohamed Mabrok, Essam A. Rashed
摘要: 使用磁共振成像(MRI)准确分割中风病灶与困难相关,这是由于大脑复杂的解剖结构和病灶的不同特性所致。本研究引入了Neuro-TransUNet框架,该框架将U-Net的空间特征提取与SwinUNETR的全局上下文处理能力相结合,进一步通过先进的特征融合和分割合成技术增强。全面的数据预处理流程提高了框架的效率,其中包括重采样、偏差校正和数据标准化,增强了数据质量和一致性。消融研究证实了U-Net与SwinUNETR的高级集成以及数据预处理流程对性能的显著影响,并展示了模型的有效性。提出的Neuro-TransUNet模型,使用ATLAS v2.0 \emph{training}数据集进行训练,优于现有的深度学习算法,并在中风病灶分割中建立了新的基准。
论文链接: https://arxiv.org/pdf/2406.06017
cs.AI: 人工智能对学术研究和出版的影响
原标题: The Impact of AI on Academic Research and Publishing
作者: Brady Lund, Manika Lamba, Sang Hoo Oh
机构: 北得克萨斯大学 伊利诺伊大学厄巴纳-香槟分校
摘要: 生成人工智能(AI)技术,如ChatGPT,通过其生成的内容在与人类作家相媲美或超越的水平上,显著影响了学术写作和出版。通过对最近跨学科文献的审查,本文探讨了围绕将AI整合到学术界中的伦理考虑,重点关注这项技术被用于学术不端行为以及在学术论文的撰写、编辑和审阅中使用时所需的监督。研究结果强调了出版商、编辑、审阅人员和作者之间合作使用AI的必要性,以确保这项技术在伦理和生产力方面得到合理应用。
论文链接: https://arxiv.org/pdf/2406.06009
cs.AI: 用生成式人工智能重新发现地方:通过图像到图像人工智能探索城市漫游的体验和设计
原标题: Re.Dis.Cover Place with Generative AI: Exploring the Experience and Design of City Wandering with Image-to-Image AI
作者: Peng-Kai Hung, Janet Yi-Ching Huang, Stephan Wensveen, Rung-Huei Liang
机构: 恩荷芬理工大学 台湾国立科技大学
摘要: HCI领域展示了对利用新兴技术丰富城市体验的日益浓厚兴趣。然而,尽管AI图像技术(AIGT)被广泛采用,但仍然缺乏研究探讨用于城市互动游戏的AIGT应用的体验和设计空间。为了探索这一空白,我们进行了一项探索性研究,涉及四名参与者在埃因霍温中心漫步、拍照,并与图像到图像AI进行互动。初步研究结果呈现了他们的观察、他们对地点的熟悉程度的影响,以及AIGT如何成为探险者的工具或共同推测者。然后,我们强调了AIGT支持游戏性、重新想象和通过使城市景观熟悉化和非熟悉化来重新发现地点的能力。此外,我们提出了将AIGT比作“游客”的隐喻,讨论了它在参与探索和地点刻板印象风险方面的机会。总的来说,我们的研究提供了初步的实证见解和设计考虑,激发了未来HCI努力,以利用生成AI创造城市游戏。
论文链接: https://arxiv.org/pdf/2406.06356
cs.AI: fSEAD:一个可组合的基于FPGA的流式集成异常检测库
原标题: fSEAD: a Composable FPGA-based Streaming Ensemble Anomaly Detection Library
作者: Binglei Lou, David Boland, Philip H.W. Leong
机构: 悉尼大学
摘要: 机器学习集成将多个基本模型结合在一起,以产生更准确的输出。它们可以应用于一系列机器学习问题,包括异常检测。在本文中,我们研究了如何最大化基于 FPGA 的流式集成异常检测器(fSEAD)的可组合性和可扩展性。为了实现这一目标,我们提出了一个灵活的计算架构,由多个部分可重构的区域(pblocks)组成,每个区域实现异常检测器。我们的概念验证设计支持三种最先进的异常检测算法:Loda、RS-Hash 和 xStream。每种算法都是可扩展的,意味着可以在一个 pblock 中放置多个实例以提高性能。此外,fSEAD 是使用高级综合(HLS)实现的,这意味着可以支持进一步定制的异常检测器。通过 AXI-交换机连接 pblocks,使它们能够在运行时以任意方式组合,然后将结果合并以创建一个最大化 FPGA 资源利用和准确性的集成。通过利用可重构的动态功能交换(DFX),检测器可以在运行时进行修改,以适应不断变化的环境条件。我们将 fSEAD 与等效的中央处理单元(CPU)实现进行了比较,使用了四个标准数据集,加速比范围从 3 × 3\times 3× 到 8 × 8\times 8×。
论文链接: https://arxiv.org/pdf/2406.05999
Github: https://github.com/bingleilou/fsead
cs.AI: 从语音中使用数据驱动和基于知识的特征预测心脏活动
原标题: Predicting Heart Activity from Speech using Data-driven and Knowledge-based features
作者: Gasser Elbanna, Zohreh Mostaani, Mathew Magimai.-Doss
机构: 哈佛医学院、Idiap研究所、洛桑联邦理工学院
摘要: 准确预测心脏活动和其他生物信号对于诊断和监测至关重要。考虑到语音是多个生理系统的结果,大量研究工作研究了心脏活动的声学相关性。最近,自监督模型在与传统声学方法相比在与语音相关的任务中表现出色。然而,数据驱动表示在预测心脏活动中的鲁棒性仍未被探索。在这项研究中,我们证明了自监督语音模型在预测心脏活动参数方面优于声学特征。我们还强调了个体差异对模型泛化能力的影响。这些发现强调了在这些任务中数据驱动表示的价值,以及需要更多基于语音的生理数据来减轻与说话者相关的挑战。
论文链接: https://arxiv.org/pdf/2406.06341
cs.AI: 在统计异质性变化下优化联邦学习设置
原标题: Optimisation of federated learning settings under statistical heterogeneity variations
作者: Basem Suleiman, Muhammad Johan Alibasa, Rizka Widyarini Purwanto, Lewis Jeffries, Ali Anaissi, Jacky Song
机构: 新南威尔士大学 森普尔纳大学 莫纳什大学 悉尼大学
摘要: 联邦学习(FL)使本地设备通过仅定期与中央聚合器共享模型参数来协作学习共享的预测模型。然而,FL 可能会受到由每个本地设备数据分布的多样性产生的统计异质性的影响,这会导致不同水平的独立同分布(IID)数据。此外,当优化不同组合的 FL 参数并选择最佳聚合时,情况可能会更加复杂。在本文中,我们对三个数据集上的不同 FL 训练参数和聚合器进行了实证分析。我们提出了一种系统的数据分区策略,以模拟不同水平的统计异质性,并提出了一种衡量 IID 水平的度量标准。此外,我们从经验上确定了不同特征数据集的最佳 FL 模型和关键参数。基于这些结果,我们提出了针对不同 IID 水平和不同数据集优化模型性能的 FL 参数和聚合器的推荐指南。
论文链接: https://arxiv.org/pdf/2406.06340
cs.AI: 深度多目标强化学习用于基于效用的基础设施维护优化
原标题: Deep Multi-Objective Reinforcement Learning for Utility-Based Infrastructural Maintenance Optimization
作者: Jesse van Remmerden, Maurice Kenter, Diederik M. Roijers, Charalampos Andriotis, Yingqian Zhang, Zaharah Bukhsh
机构: 埃因霍温科技大学
摘要: 在这篇论文中,我们介绍了多目标深度集中式多智能体演员-评论家(MO-DCMAC),这是一种基础设施维护优化的多目标强化学习(MORL)方法,传统上由单目标强化学习(RL)方法主导。先前的单目标RL方法将多个目标(如倒塌概率和成本)通过奖励塑造合并为单一奖励信号。相比之下,MO-DCMAC可以直接为多个目标优化策略,即使效用函数是非线性的。我们使用两个效用函数评估了MO-DCMAC,这两个函数使用倒塌概率和成本作为输入。第一个效用函数是阈值效用,其中MO-DCMAC应该最小化成本,以使倒塌概率永远不超过阈值。第二个基于资产管理者使用的故障模式、影响和重要性分析(FMECA)方法。我们在多个维护环境中评估了具有两个效用函数的MO-DCMAC,包括基于阿姆斯特丹历史码头墙案例研究的环境。MO-DCMAC的性能与基于启发式当前用于制定维护计划的多个基于规则的策略进行了比较。我们的结果表明,在各种环境和效用函数中,MO-DCMAC优于传统的基于规则的策略。
论文链接: https://arxiv.org/pdf/2406.06184
cs.AI: 通过社交媒体进行精神障碍检测的可解释人工智能:调查和展望
原标题: Explainable AI for Mental Disorder Detection via Social Media: A survey and outlook
作者: Yusif Ibrahimov, Tarique Anwar, Tommy Yuan
摘要: 心理健康构成了一个复杂而普遍的全球挑战,影响着数百万人的生活,并经常导致严重后果。在本文中,我们进行了一项彻底的调查,探讨数据科学、人工智能和心理保健的交叉领域,重点关注通过在线社交媒体(OSM)进行心理障碍检测的最新发展。大部分人口积极参与OSM平台,创造了一个包含着巨大潜力的个人数据庞大存储库,可用于心理健康分析。本文介绍了传统诊断方法、最新的数据和人工智能驱动研究,以及心理保健中可解释人工智能(XAI)模型的出现。我们审查了最先进的机器学习方法,特别是基于现代深度学习的方法,同时强调了医疗保健人工智能模型需要可解释性的必要性。实验设计部分提供了关于普遍实践的见解,包括可用数据集和评估方法。我们还确定了该领域的关键问题和挑战,并提出了有前途的未来研究方向。由于心理健康决策需要透明度、可解释性和伦理考虑,本文通过社交媒体在推进心理保健中XAI的持续讨论方面做出了贡献。这里提供的全面概述旨在指导研究人员、从业者和决策者发展心理障碍检测领域。
论文链接: https://arxiv.org/pdf/2406.05984
cs.AI: EXPIL:用于游戏学习的解释性谓词发明
原标题: EXPIL: Explanatory Predicate Invention for Learning in Games
作者: Jingyuan Sha, Hikaru Shindo, Quentin Delfosse, Kristian Kersting, Devendra Singh Dhami
机构: 达姆斯塔特理工大学 德国人工智能赫森中心 荷兰技术大学
摘要: 强化学习(RL)已被证明是训练在各种游戏中表现出色的智能体的强大工具。然而,神经网络模型的黑盒特性通常会阻碍我们理解智能体行为背后的推理。最近的研究尝试通过利用预训练的神经智能体的指导来编码基于逻辑的策略来解决这个问题,从而实现可解释的决策。这种方法的一个缺点是需要大量预定义的背景知识,以谓词的形式存在,从而限制了其适用性和可扩展性。在这项工作中,我们提出了一种新颖的方法,即游戏中的解释性谓词发明学习(EXPIL),该方法从预训练的神经智能体中识别和提取谓词,后者用于基于逻辑的智能体中,减少了对预定义背景知识的依赖。我们在各种游戏上的实验评估表明,EXPIL在实现逻辑智能体的可解释行为方面具有有效性,同时需要更少的背景知识。
论文链接: https://arxiv.org/pdf/2406.06107
cs.AI: 关于在人机协作中考虑人类对AI行为的实用性
原标题: On the Utility of Accounting for Human Beliefs about AI Behavior in Human-AI Collaboration
作者: Guanghui Yu, Robert Kasumba, Chien-Ju Ho, William Yeoh
机构: 华盛顿大学圣路易斯分校
摘要: 为了实现有效的人工智能与人类协作,仅仅优化人工智能的性能而忽视人类是不够的。最近的研究表明,设计考虑人类行为的人工智能智能体会提高人工智能与人类协作的性能。然而,大多数现有方法的局限性在于它们假设人类行为是静态的,不考虑人工智能的行为。实际上,人类可能会根据他们对人工智能行为的观察来调整他们的行动计划。在本文中,我们通过使协作人工智能智能体考虑其人类伙伴的信念,即人类伙伴认为人工智能智能体正在做什么,并设计其行动计划以促进与人类伙伴更轻松的协作来解决这一局限性。具体来说,我们开发了一个人类信念模型,考虑了人类如何推理他们的人工智能伙伴的行为。基于这个信念模型,我们开发了一个人工智能智能体,考虑了人类行为和人类信念,制定了与人类合作的策略。通过大量的真实世界人类实验,我们证明了我们的信念模型更准确地预测了人类对人工智能行为的信念。此外,我们展示了我们设计的考虑人类信念的人工智能智能体增强了人工智能与人类协作的性能。
论文链接: https://arxiv.org/pdf/2406.06051
cs.AI: LLM在不确定情境下的决策行为评估框架
原标题: Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context
作者: Jingru Jia, Zehua Yuan, Junhao Pan, Paul McNamara, Deming Chen
机构: 伊利诺伊大学香槟分校
摘要: 在面对不确定性时做决策时,个体经常偏离理性行为,这可以通过三个维度进行评估:风险偏好、概率加权和损失规避。鉴于大语言模型(LLMs)在决策过程中的广泛应用,评估它们的行为是否符合人类规范和道德期望,或者是否存在潜在偏见至关重要。一些实证研究已经调查了LLMs的理性和社会行为表现,但它们的内部决策倾向和能力仍未得到充分理解。本文提出了一个基于行为经济学的框架,用于评估LLMs的决策行为。通过一个多选列表实验,我们在无上下文环境中估计了三个商业LLMs(ChatGPT-4.0-Turbo、Claude-3-Opus和Gemini-1.0-pro)的风险偏好、概率加权和损失规避程度。我们的结果显示,LLMs通常表现出与人类类似的模式,如风险规避和损失规避,倾向于高估小概率。然而,这些行为表现程度在不同LLMs之间存在显著差异。我们还探讨了当LLMs嵌入社会人口特征时的行为,揭示了显著的差异。例如,当模拟具有性少数群体或身体残疾属性时,Claude-3-Opus表现出增加的风险规避,导致更为保守的选择。这些发现强调了在决策场景中部署LLMs时需要仔细考虑道德影响和潜在偏见的必要性。因此,本研究主张制定标准和指南,以确保LLMs在增强复杂决策环境中的效用的同时在道德边界内运作。
论文链接: https://arxiv.org/pdf/2406.05972
cs.AI: 使用分类插件进行值函数估计是否对离线强化学习来说是即插即用的?
原标题: Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning?
作者: Denis Tarasov, Kirill Brilliantov, Dmitrii Kharlapenko
机构: ETH Zürich
摘要: 在深度强化学习(RL)中,价值函数通常使用深度神经网络来近似,并通过均方误差回归目标进行训练以拟合真实价值函数。最近的研究提出了一种替代方法,利用交叉熵分类目标,已经证明了RL算法的性能和可扩展性得到了改善。然而,现有研究并没有广泛基准测试这种替代方案在各个领域的影响,因为主要目标是展示该概念在广泛任务范围内的有效性,而不是深入分析。我们的工作旨在在离线RL设置中实证调查这种替代方案的影响,并分析不同方面对性能的影响。通过在不同算法下进行跨多样任务的大规模实验,我们旨在更深入地了解这种方法的含义。我们的结果显示,引入这种改变可以在某些任务的某些算法中实现比最先进解决方案更优越的性能,同时在其他任务中保持可比性水平,然而对于其他算法,这种修改可能会导致性能急剧下降。这些发现对于进一步将分类方法应用于研究和实际任务至关重要。
论文链接: https://arxiv.org/pdf/2406.06309
Github: https://github.com/dt6a/clorl
cs.AI: 将大语言模型与表示编辑对齐:一个控制视角
原标题: Aligning Large Language Models with Representation Editing: A Control Perspective
作者: Lingkai Kong, Haorui Wang, Wenhao Mu, Yuanqi Du, Yuchen Zhuang, Yifei Zhou, Yue Song, Rongzhi Zhang, Kai Wang, Chao Zhang
机构: 佐治亚理工学院 康奈尔大学 加州大学伯克利分校 特伦托大学
摘要: 对大语言模型(LLMs)进行与人类目标的对齐对于实际应用至关重要。然而,为了实现对齐,对LLMs进行微调通常会遇到训练不稳定的问题,并且需要大量的计算资源。测试时对齐技术,如提示和引导解码,不会修改基础模型,并且它们的性能仍然取决于原始模型的能力。为了解决这些挑战,我们提出通过表示编辑来对齐LLMs。我们方法的核心是将预训练的自回归LLM视为离散时间随机动力系统。为了实现特定目标的对齐,我们将外部控制信号引入到这种语言动力系统的状态空间中。我们根据贝尔曼方程直接在隐藏状态上训练值函数,从而使基于梯度的优化能够在测试时获得最佳控制信号。我们的实验证明,我们的方法在需要比微调方法更少的资源的情况下优于现有的测试时对齐技术。
论文链接: https://arxiv.org/pdf/2406.05954
cs.AI: 分层网络的模块化增长:高效、通用和稳健的课程学习
原标题: Modular Growth of Hierarchical Networks: Efficient, General, and Robust Curriculum Learning
作者: Mani Hamidi, Sina Khajehabdollahi, Emmanouil Giannakakis, Tim Schäfer, Anna Levina, Charley M. Wu
机构: 图宾根大学 生物赛博净研究所
摘要: 结构模块化是生物神经网络的一种普遍特征,已被证明与几种功能和计算优势相关。然而,尽管早期取得了成功,但人工神经网络中模块化架构的使用相对有限。在这里,我们通过迭代增长课程探讨了一个在记忆任务上训练的模块化网络的性能和功能动态。我们发现,对于给定的经典非模块化递归神经网络(RNN),一个等效的模块化网络在多个指标上表现更好,包括训练时间、泛化能力和对某些扰动的稳健性。我们进一步研究了模块化网络连接的不同方面如何影响其计算能力。然后,我们证明了模块化拓扑引入的归纳偏差足够强,使网络在模块内部连接固定且只训练模块之间的连接时仍能表现良好。我们的研究结果表明,逐渐增长的RNN模块化可能为在进化时间尺度上学习越来越复杂的任务提供优势,并有助于构建更具可扩展性和可压缩性的人工网络。
论文链接: https://arxiv.org/pdf/2406.06262
cs.AI: MakeSinger: 一种半监督训练方法,通过无分类器扩散引导实现高效合成歌声的数据-efficient Singing Voice Synthesis
原标题: MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance
作者: Semin Kim, Myeonghun Jeong, Hyeonseung Lee, Minchan Kim, Byoung Jin Choi, Nam Soo Kim
机构: 首尔国立大学INMC
摘要: 在这篇论文中,我们提出了MakeSinger,这是一种用于歌声合成(SVS)的半监督训练方法,通过无分类器扩散引导。SVS中的挑战在于收集文本、音高和音频数据的对齐集合过程成本高昂。MakeSinger使得基于扩散的SVS模型的训练可以从任何语音和歌声数据开始,而不受其标记的限制,从而利用大量未标记数据提高生成声音的质量。在推断时,我们的新颖双向引导机制通过估计掩码输入的分数,在反向扩散步骤上提供文本和音高指导。实验结果表明,以半监督方式训练的模型在发音、音高准确性和整体质量方面优于仅在标记数据上训练的其他基线模型。此外,我们证明通过在训练中添加文本到语音(TTS)数据,即使没有他们的歌声,模型也可以合成TTS发言者的歌声。
论文链接: https://arxiv.org/pdf/2406.05965
cs.AI: 2024年CVPR多模态算法推理任务SMART-101挑战的解决方案
原标题: Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024
作者: Jinwoo Ahn, Junhyeok Park, Min-Jun Kim, Kang-Hyeon Kim, So-Yeong Sohn, Yun-Ji Lee, Du-Seong Chang, Yu-Jung Heo, Eun-Sol Kim
机构: 汉阳大学 KT 公司
摘要: 在这篇论文中,介绍了HYU MLLAB KT团队对多模态算法推理任务的解决方案:SMART-101 CVPR 2024挑战。除了传统的视觉问答问题外,SMART-101挑战旨在通过解决为6-8岁儿童设计的复杂视觉语言谜题,实现人类级别的多模态理解。为了解决这个问题,我们提出了两个主要想法。首先,利用大型语言模型(LLM)的推理能力,将给定的视觉线索(图像)落实到文本模态中。为此,我们生成了描述图像背景的高度详细的文本标题,并将这些标题用作LLM的输入。其次,由于谜题图像的特性,通常包含各种几何视觉模式,我们利用目标检测算法确保这些模式在标题过程中不被忽视。我们采用了SAM算法,可以检测各种大小的对象,捕获这些几何模式的视觉特征,并将此信息用作LLM的输入。在谜题分割配置下,我们在测试集上实现了29.5的选项选择准确率(Oacc),在挑战集上实现了27.1的加权选项选择准确率(WOSA)。
论文链接: https://arxiv.org/pdf/2406.05963
cs.AI: IllumiNeRF:无需反渲染的3D重新照明
原标题: IllumiNeRF: 3D Relighting without Inverse Rendering
作者: Xiaoming Zhao, Pratul P. Srinivasan, Dor Verbin, Keunhong Park, Ricardo Martin Brualla, Philipp Henzler
机构: 谷歌研究 谷歌DeepMind 伊利诺伊大学香槟分校
摘要: 现有的可重光视图合成方法——使用一组对象在未知光照下的图像来恢复一个可以在目标照明下从新视点呈现的3D表示——基于反渲染,并尝试将解释输入图像的对象几何形状、材质和照明进行分离。此外,这通常涉及通过可微分蒙特卡洛渲染进行优化,这种方法脆弱且计算成本高。在这项工作中,我们提出了一种更简单的方法:我们首先使用一个基于光照的图像扩散模型对每个输入图像进行重光,然后利用这些重光图像重建一个神经辐射场(NeRF),从中我们可以在目标照明下呈现新的视图。我们展示了这种策略出人意料地具有竞争力,并在多个重光基准测试中取得了最先进的结果。请查看我们的项目页面,网址为https://URL。
论文链接: https://arxiv.org/pdf/2406.06527
Github: https://illuminerf.github.io/
cs.AI: 链式审查:检测大语言模型的后门攻击
原标题: Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models
作者: Xi Li, Yusen Zhang, Renze Lou, Chen Wu, Jiaqi Wang
机构: 阿拉巴马大学伯明翰分校 宾夕法尼亚州立大学
摘要: 后门攻击对大语言模型(LLMs)构成重大威胁,特别是随着提供API集成和快速工程的第三方服务的兴起。不可信的第三方可能会在LLMs中植入后门,并通过将恶意指令嵌入用户查询中来对用户造成风险。当输入中嵌入了攻击者预先确定的特定触发器时,带有后门的LLM将生成恶意输出。传统的防御策略,主要涉及模型参数微调和梯度计算,对LLMs来说是不足够的,因为它们需要大量的计算和干净的数据。在本文中,我们提出了一种新颖的解决方案,Chain-of-Scrutiny(CoS),以解决这些挑战。后门攻击从根本上创建了从触发器到目标输出的快捷方式,因此缺乏推理支持。因此,CoS指导LLMs生成输入的详细推理步骤,然后审查推理过程以确保与最终答案的一致性。任何不一致都可能表明存在攻击。CoS只需要对LLM进行黑盒访问,为API可访问的LLMs提供了实用的防御手段。它用户友好,使用户能够自行进行防御。整个防御过程基于自然语言,对用户透明。我们通过对各种任务和LLMs进行广泛实验来验证CoS的有效性。此外,实验结果表明CoS对于更强大的LLMs更为有益。
论文链接: https://arxiv.org/pdf/2406.05948
cs.AI: 去中心化个性化联邦学习
原标题: Decentralized Personalized Federated Learning
作者: Salma Kharrat, Marco Canini, Samuel Horvath
机构: 阿卜杜拉国王科技大学
摘要: 这项工作解决了分散式联邦学习中数据异构性和通信限制的挑战。我们专注于创建一个协作图,指导每个客户端选择适合的合作伙伴,以训练能够有效利用其本地数据的个性化模型。我们的方法通过一种新颖的、通信高效的策略来解决这些问题,提高资源利用效率。与传统方法不同,我们的公式通过考虑客户端的组合关系在细粒度级别上识别合作伙伴,增强了个性化同时最小化通信开销。我们通过采用受限贪婪算法的双层优化框架实现了这一点,从而为个性化学习构建了一个资源高效的协作图。针对各种基准测试数据集进行的广泛评估显示了我们方法DPFL的优越性。DPFL始终优于其他方法,展示了其在处理真实世界数据异构性、最小化通信开销、提高资源利用效率以及在分散式联邦学习场景中构建个性化模型方面的有效性。
论文链接: https://arxiv.org/pdf/2406.06520
cs.AI: 地球观测中的数据增强:一种扩散模型方法
原标题: Data Augmentation in Earth Observation: A Diffusion Model Approach
作者: Tiago Sousa, Benoît Ries, Nicolas Guelfi
机构: 卢森堡大学
摘要: 高质量地球观测(EO)图像的稀缺性构成了一个重要挑战,尽管这些图像在各个领域中发挥着关键作用,能够支持精确分析和明智决策。这种稀缺性主要是由于大气条件、季节变化和有限的地理覆盖范围,这使得人工智能(AI)在EO中的应用变得复杂。数据增强是AI中广泛使用的一种技术,主要通过参数化图像转换来生成额外数据,已被用于增加数据的量和多样性。然而,这种方法通常在跨关键语义轴上生成足够多样性方面存在不足,从而对EO应用的准确性产生不利影响。为了解决这个问题,我们提出了一种新颖的四阶段方法,旨在通过整合扩散模型来提高增强数据的多样性。我们的方法采用元提示进行指令生成,利用通用视觉语言模型生成丰富的标题,微调地球观测扩散模型,并迭代地增强数据。我们使用四种不同的数据增强技术进行了大量实验,我们的方法始终表现出改进,优于已建立的增强方法,显示出其在生成语义丰富和多样化的EO图像方面的有效性。
论文链接: https://arxiv.org/pdf/2406.06218
cs.AI: 安全对齐应该不仅仅是几个 Token 的深度。
原标题: Safety Alignment Should Be Made More Than Just a Few Tokens Deep
作者: Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson
机构: 普林斯顿大学 谷歌DeepMind
摘要: 当前大语言模型(LLMs)的安全对齐存在漏洞。相对简单的攻击,甚至良性的微调,都可能越狱对齐模型。我们认为这些漏洞中许多与一个共同的潜在问题有关:安全对齐可能会采取捷径,即对齐主要调整模型的生成分布仅限于其最初的几个输出标记。我们将这个问题称为浅安全对齐。在本文中,我们提供案例研究来解释为什么浅安全对齐可能存在,并提供证据表明当前对齐的LLMs受到这个问题的影响。我们还展示了这些发现如何帮助解释LLMs中多个最近发现的漏洞,包括对敌对后缀攻击、预填充攻击、解码参数攻击和微调攻击的易感性。重要的是,我们讨论了这种浅安全对齐的综合概念如何为减轻这些漏洞提供了有希望的研究方向。例如,我们表明,将安全对齐深化超出仅仅前几个标记往往可以显著提高对一些常见攻击的鲁棒性。最后,我们设计了一个正则化微调目标,通过限制对初始标记的更新,使安全对齐更加持久抵御微调攻击。总的来说,我们主张未来的安全对齐应该不仅仅局限于几个标记的深度。
论文链接: https://arxiv.org/pdf/2406.05946
Github: https://github.com/unispac/shallow-vs-deep-alignment
cs.AI: 基于正则化的持续学习的统计理论
原标题: A Statistical Theory of Regularization-Based Continual Learning
作者: Xuyang Zhao, Huiyuan Wang, Weiran Huang, Wei Lin
摘要: 我们对基于正则化的持续学习在一系列线性回归任务上进行了统计分析,重点关注不同正则化项如何影响模型性能。我们首先推导了作为如果所有数据同时可用的神谕估计器的收敛速率。接下来,我们考虑了一族由矩阵值超参数索引的广义 ℓ 2 \ell_2 ℓ2正则化算法,其中包括最小范数估计器和持续岭回归作为特例。随着引入更多任务,我们推导了广义 ℓ 2 \ell_2 ℓ2正则化估计器的估计误差的迭代更新公式,从中确定导致最佳算法的超参数。有趣的是,超参数的选择可以有效平衡前向和后向知识传递之间的权衡,并调整数据异质性。此外,我们明确推导了最佳算法的估计误差,其与神谕估计器的数量级相同。相比之下,我们对最小范数估计器和持续岭回归的下界显示它们的次优性。我们理论分析的一个副产品是早停和广义 ℓ 2 \ell_2 ℓ2正则化在持续学习中的等价性,这可能是独立感兴趣的。最后,我们进行实验以补充我们的理论。
论文链接: https://arxiv.org/pdf/2406.06213
cs.AI: 梅林:用于3D计算机断层扫描的视觉语言基础模型
原标题: Merlin: A Vision Language Foundation Model for 3D Computed Tomography
作者: Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari
机构: 斯坦福大学 威斯康星大学麦迪逊分校 以色列爱因斯坦医院 苏黎世大学医院 赫尔辛基大学医院
摘要: 每年在美国进行的超过8500万次计算机断层扫描(CT扫描)中,大约四分之一集中在腹部。鉴于目前放射科医生短缺的情况,有很大的动力利用人工智能来减轻解释这些复杂影像研究的负担。以往自动化医学图像解释的最新方法利用了视觉语言模型(VLMs)。然而,目前的医学VLMs通常仅限于2D图像和简短报告,并且不利用电子健康记录(EHR)数据进行监督。我们介绍了Merlin - 一个3D VLM,我们使用配对的CT扫描(来自15,331个CT的600多万张图像)、EHR诊断代码(180多万个代码)和放射学报告(600多万个标记)进行训练。我们在6种任务类型和752个单独任务上评估了Merlin。未经调整(现成的)任务包括零样本发现分类(31种发现)、表型分类(692种表型)和零样本跨模态检索(图像到发现和图像到印象),而模型适应的任务包括5年疾病预测(6种疾病)、放射学报告生成和3D语义分割(20个器官)。我们在一个包含5,137个CT的测试集上进行内部验证,并在7,000个临床CT和两个公共CT数据集(VerSe,TotalSegmentator)上进行外部验证。除了这些与临床相关的评估之外,我们评估了各种网络架构和训练策略的有效性,以展示Merlin相对于现有的特定任务基准具有良好的性能。我们推导出数据缩放定律,以经验性地评估下游任务性能所需的训练数据量。此外,与需要数百个GPU进行训练的传统VLMs不同,我们在单个GPU上执行所有训练。
论文链接: https://arxiv.org/pdf/2406.06512
cs.AI: 量子架构搜索:一项调查
原标题: Quantum Architecture Search: A Survey
作者: Darya Martyniuk, Johannes Jung, Adrian Paschke
机构: 弗劳恩霍夫应用研究所 自由柏林大学
摘要: 量子计算在近年取得了显著进展,不仅在研究实验室引起了极大兴趣,也在各个行业中引起了关注。然而,将量子计算应用于解决现实世界问题仍然面临着许多挑战,包括硬件限制以及相对未被充分探索的量子算法领域,特别是与经典计算的广泛发展相比。量子电路的设计,特别是包含由经典方法优化的可学习参数的参数化量子电路(PQC),是一项非常复杂且耗时的任务,需要专业知识。因此,自动生成PQC的研究,即量子架构搜索(QAS),备受关注。QAS专注于利用机器学习和优化驱动技术生成适用于特定问题和量子硬件特征的PQC。本文通过检查该领域的相关研究,提供了QAS方法的概述。我们讨论了设计和执行自动搜索最佳PQC的主要挑战,并调查了解决这些挑战的方法,以便简化未来研究。
论文链接: https://arxiv.org/pdf/2406.06210
cs.AI: 猴子看见,猴子做:利用自注意力在运动扩散中实现零样本运动转移
原标题: Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer
作者: Sigal Raab, Inbar Gat, Nathan Sala, Guy Tevet, Rotem Shalev-Arkushin, Ohad Fried, Amit H. Bermano, Daniel Cohen-Or
机构: 特拉维夫大学 Reichman大学
摘要: 鉴于扩散模型在运动合成方面取得了显著的成果,一个自然的问题出现了:我们如何有效地利用这些模型进行运动编辑?现有基于扩散的运动编辑方法忽视了预训练模型权重中嵌入的先验潜力,这使得可以操纵潜在特征空间;因此,它们主要集中在处理运动空间。在这项工作中,我们探索了预训练运动扩散模型的注意力机制。我们揭示了注意力元素在捕捉和表示复杂人体运动模式中的作用和相互作用,并精心整合这些元素,将领导者运动转移到跟随者运动,同时保持跟随者的微妙特征,从而实现零样本运动转移。编辑与选定运动相关的特征使我们能够应对先前运动扩散方法中观察到的挑战,这些方法使用一般指令(例如文本、音乐)进行编辑,最终未能有效传达微妙之处。我们的工作受到猴子如何在保持其独特运动模式的同时紧密模仿所见的内容的启发;因此我们称之为“猴看、猴做”,并将其命名为MoMo。采用我们的技术可以完成诸如合成超出分布的运动、风格转移和空间编辑等任务。此外,扩散反演很少用于运动;因此,编辑工作集中在生成的运动上,限制了真实运动的可编辑性。MoMo利用运动反演,将其应用扩展到真实和生成的运动。实验结果显示我们的方法优于当前技术的优势。特别是,与通过训练针对特定应用程序量身定制的方法不同,我们的方法在推理时应用,无需训练。我们的网页位于此 https URL。
论文链接: https://arxiv.org/pdf/2406.06508
Github: https://monkeyseedocg.github.io https://github.com/monkeyseedocg/momo-code
cs.AI: 2DP-2MRC: 用于多模态时刻检索的二维指针机器阅读理解方法
原标题: 2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval
作者: Jiajun He, Tomoki Toda
机构: 名古屋大学
摘要: Moment retrieval旨在根据给定的自然语言查询在未修剪的视频中定位最相关的时刻。现有解决方案可以大致分为基于时刻和基于片段的方法。前者通常涉及大量计算,而后者由于忽视粗粒度信息,通常表现不如基于时刻的模型。因此,本文提出了一种新颖的基于二维指针的机器阅读理解Moment Retrieval Choice(2DP-2MRC)模型,以解决基于片段的方法中不精确定位的问题,同时保持比基于时刻的方法更低的计算复杂度。具体而言,我们引入了一个AV编码器来捕获时刻和视频级别的粗粒度信息。此外,还引入了一个二维指针编码器模块,进一步增强对目标时刻的边界检测。对HiREST数据集进行的大量实验证明,2DP-2MRC明显优于现有基准模型。
论文链接: https://arxiv.org/pdf/2406.06201
cs.AI: 将连续潜变量模型扩展为概率积分电路
原标题: Scaling Continuous Latent Variable Models as Probabilistic Integral Circuits
作者: Gennaro Gala, Cassio de Campos, Antonio Vergari, Erik Quaeghebeur
机构: 埃因霍温科技大学 英国爱丁堡大学
摘要: 概率积分电路(PICs)最近被引入作为享有表达式生成模型关键要素的概率模型:连续潜变量(LVs)。PICs是符号计算图,将连续LV模型定义为函数层次结构,这些函数相加和相乘,或者在某些LV上进行积分。如果LVs可以被解析积分掉,则它们是可处理的,否则它们可以通过可处理的概率电路(PC)来近似,这些电路编码了一种称为QPCs的分层数值积分过程。
到目前为止,只有树状PICs被探索过,并且通过数值积分对它们进行训练需要大规模的内存密集型处理。在本文中,我们解决了这些问题,并提出:(i)一个用于从任意变量分解构建DAG形状PICs的流水线,(ii)一个用于使用张量化电路架构训练PICs的过程,以及(iii)神经功能共享技术,以实现可扩展的训练。在广泛的实验中,我们展示了功能共享的有效性以及QPCs相对于传统PCs的优越性。
论文链接: https://arxiv.org/pdf/2406.06494
cs.AI: 公众对社会规模人工智能风险的认知对治理的影响
原标题: Implications for Governance in Public Perceptions of Societal-scale AI Risks
作者: Ross Gruetzemacher, Toby D. Pilditch, Huigang Liang, Christy Manning, Vael Gates, David Moss, James W. B. Elsey, Willem W. A. Sleegers, Kyle Kilian
机构: 威奇托州立大学 变革未来研究所 剑桥大学 学院 牛津大学 伦敦大学学院
摘要: 在对人工智能的社会风险日益关注的背景下,从文明崩溃到信息误导和系统偏见等各种风险,这项研究探讨了人工智能专家和美国普通注册选民对18种特定人工智能风险的可能性和影响的看法,以及他们管理这些风险的政策偏好。虽然两组都倾向于国际监督而不是国家或企业治理,但我们的调查揭示了一个差异:选民认为人工智能风险比专家更可能发生,也更具影响力,并主张减缓人工智能的发展。具体而言,我们的研究结果表明,如果政策干预试图更谨慎地平衡跨所有社会规模风险类别的缓解努力,将有效地消除关于人工智能风险的近期与长期辩论。更广泛地说,我们的研究结果不仅将有助于促进预防和减轻人工智能风险的更实质性政策讨论,还将强调共识建立对有效政策实施的挑战。
论文链接: https://arxiv.org/pdf/2406.06199
cs.AI: AI 猫叙述者:设计一个用于探索与猫共享世界和社交连接的 AI 工具
原标题: AI Cat Narrator: Designing an AI Tool for Exploring the Shared World and Social Connection with a Cat
作者: Zhenchi Lai, Janet Yi-Ching Huang, Rung-Huei Liang
机构: 国立台湾科技大学 荷兰埃因霍温科技大学
摘要: 随着技术的不断进步,人类和猫之间的互动变得更加多样化。我们的研究引入了一种名为AI猫叙述者的新工具,为人类和猫共同生活提供了独特的视角。我们将民族志方法与虚构叙事相结合,使用一种疏离化策略,将通过猫的视角看到的真实世界数据与猫文学摘录相融合。这种组合构成了一个数据库的基础,用于指导AI猫叙述者创作替代叙事。我们的研究结果表明,使用疏离化数据进行训练显著促进了塑造更具共情力和个性化的角色。我们研究的贡献是双重的:1)提出了一种创新方法,促使重新评估与猫共同生活;2)建立了一个由人类、猫和AI共同开发的协作性探索工具。
论文链接: https://arxiv.org/pdf/2406.06192
cs.AI: 应用于风力涡轮机场景的损失编码的广义嵌套潜变量模型
原标题: Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios
作者: Raül Pérez-Gonzalo, Andreas Espersen, Antonio Agudo
机构: 西班牙 巴塞罗那 工业机器人与信息学研究所 CSIC-UPC
丹麦 哥本哈根 风力 LAB
摘要: 通过神经网络进行速率失真优化在压缩效率和图像质量方面取得了竞争性的结果。这种基于学习的方法旨在通过自动提取和保留关键信息,同时丢弃不太关键的细节,来最小化压缩率和重建图像质量之间的折衷。一种成功的技术是引入一个在2级嵌套潜变量模型内运行的深度超先验,通过捕获复杂的数据依赖关系来增强压缩。本文通过设计一个具有马尔可夫链结构的广义L级嵌套生成模型来扩展这一概念。我们展示随着L的增加,可训练先验是有害的,并探索沿着不同潜变量的共同维度以提高压缩性能。由于这种结构化框架可以表示自回归编码器,我们在超先验模型上表现出色,并在大幅减少计算成本的同时实现了最先进的性能。我们的实验评估是在风力涡轮机场景上进行的,以研究其在视觉检查中的应用。
论文链接: https://arxiv.org/pdf/2406.06165
cs.AI: 调查社交和电子商务推荐系统中生成式人工智能的落地情况 - 行业视角
原标题: Survey for Landing Generative AI in Social and E-commerce Recsys – the Industry Perspectives
作者: Da Xu, Danqing Zhang, Guangyu Yang, Bo Yang, Shuyuan Xu, Lingling Zheng, Cindy Liang
机构: 亚马逊 谷歌 微软 Rutgers University Tiktok
摘要: 最近,生成式人工智能(GAI)凭借其新兴的能力,为增强和革新工业推荐系统(Recsys)提供了独特的机遇。尽管在这些领域交叉点上的研究工作不断增加,但由于现代工业Recsys基础设施、运营和产品复杂性的复杂性,将GAI整合到工业Recsys中仍处于起步阶段。借鉴我们成功将GAI整合到几个主要社交和电子商务平台的经验,本调查旨在全面审视潜在的系统和人工智能基础、解决方案框架、与关键研究进展的联系,以及总结在将GAI整合到工业Recsys的努力中遇到的实际见解和挑战。作为该领域的开创性工作,我们希望概述相关领域的代表性发展,为工业中实际采用GAI提供启示,并激励未来的研究。
论文链接: https://arxiv.org/pdf/2406.06475
cs.AI: 快速致富:精确解决方案揭示了不平衡的初始化如何促进快速特征学习
原标题: Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning
作者: Daniel Kunin, Allan Raventós, Clémentine Dominé, Feng Chen, David Klindt, Andrew Saxe, Surya Ganguli
机构: 斯坦福大学 伦敦大学学院 冷泉港实验室
摘要: 尽管现代神经网络的出色性能通常归因于它们有效地从数据中提取与任务相关的特征的能力,但支撑这种丰富特征学习机制的机制仍然难以捉摸,我们对此的理论理解很大程度上源自相反的懒惰机制。在这项工作中,我们推导出一个在懒惰学习和丰富学习之间转变的最小模型的精确解,准确阐明了不平衡的层特定初始化方差和学习率如何决定特征学习的程度。我们的分析揭示了它们通过一组守恒量来影响学习机制,这些守恒量限制并修改了参数和函数空间中学习轨迹的几何形状。我们将我们的分析扩展到具有多个神经元、输出和层的更复杂的线性模型,以及具有分段线性激活函数的浅层非线性网络。在线性网络中,只有在初始化平衡时才会出现快速特征学习,即所有层以相似的速度学习。而在非线性网络中,促进较早层更快学习的不平衡初始化可以加速丰富学习。通过一系列实验,我们提供证据表明,这种不平衡的丰富学习机制推动了深度有限宽度网络中的特征学习,促进了CNN中早期层的可解释性,降低了学习分层数据的样本复杂度,并减少了在模块算术中理解的时间。我们的理论激励进一步探索不平衡初始化以增强高效特征学习。
论文链接: https://arxiv.org/pdf/2406.06158
cs.AI: GKAN:图科尔莫戈洛夫-阿诺德网络
原标题: GKAN: Graph Kolmogorov-Arnold Networks
作者: Mehrdad Kiamari, Mohammad Kiamari, Bhaskar Krishnamachari
机构: 南加州大学 洛杉矶加州 亚琛工业大学 德国
摘要: 我们介绍了图科尔莫戈洛夫-阿诺德网络(GKAN),这是一种创新的神经网络架构,它将最近提出的科尔莫戈洛夫-阿诺德网络(KAN)的原则扩展到图结构化数据。通过采用KAN的独特特征,特别是使用可学习的单变量函数而不是固定的线性权重,我们为基于图的学习任务开发了一个强大的模型。与依赖于固定卷积架构的传统图卷积网络(GCNs)不同,GKAN在层之间实现了可学习的基于样条的函数,改变了信息在图结构中的处理方式。我们提出了两种不同的方式来将KAN层合并到GKAN中:架构1–在聚合后将可学习函数应用于输入特征,架构2–在聚合之前将可学习函数应用于输入特征。我们通过在真实数据集(Cora)上进行半监督图学习任务对GKAN进行了实证评估。我们发现架构通常表现更好。我们发现,与传统的GCN模型相比,GKAN在图的半监督学习任务中实现了更高的准确性。例如,考虑100个特征时,GCN提供53.5的准确性,而具有相同参数数量的GKAN提供61.76的准确性;考虑200个特征时,GCN提供61.24的准确性,而具有相同参数数量的GKAN提供67.66的准确性。我们还提出了关于各种参数(如隐藏节点数、网格大小和样条的多项式次数)对GKAN性能的影响的结果。
论文链接: https://arxiv.org/pdf/2406.06470
cs.AI: DiffInject: 通过基于扩散的风格注入生成合成数据重新审视去偏见
原标题: DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection
作者: Donggeun Ko, Sangwoo Jo, Dongjun Lee, Namjun Park, Jaekwang Kim
机构: Aim Future Minds and Company Maum AI Convergence Program of Social Innovation Sungkyunkwan University
摘要: 数据集偏差是机器学习中的一个重要挑战,其中特定属性,如图像的纹理或颜色被无意中学习,导致性能下降。为了解决这个问题,先前的努力集中在通过开发新的去偏算法或生成合成数据来减轻普遍存在的数据集偏差。然而,迄今为止,生成方法在很大程度上依赖于使用数据集中特定偏差的样本,这些样本通常太稀缺。在这项工作中,我们提出了一种名为DiffInject的简单而强大的方法,使用预训练扩散模型来增加合成的偏差冲突样本。这种方法通过操纵潜在空间显著推进了扩散模型用于去偏的目的。我们的框架不需要对偏见类型或标记有任何明确的知识,使其成为一个完全无监督的去偏设置。我们的方法论在有效减少数据集偏差方面展示了显著的结果。
论文链接: https://arxiv.org/pdf/2406.06134
cs.AI: Transformer能推理到多远?局部性障碍和归纳式记事本
原标题: How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad
作者: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi
机构: Apple EPFL
摘要: Transformer能否通过组合已建立的三段论来预测新的三段论?更一般地,这种模型可以从头开始学习什么类型的目标?最近的研究表明,Transformer在表达能力方面可以达到图灵完备,但这并不涉及可学习性目标。本文提出了“分布局部性”的概念,以捕捉正规Transformer何时可以有效地实现弱学习,其中局部性衡量了除了令牌直方图之外需要的最少令牌数量,以便与目标非平凡地相关联。实验证明,在额外假设的情况下,具有高局部性的分布无法有效学习。特别地,三段论无法在长链上组合。此外,我们表明:(i)对于无知的草稿本无法帮助突破局部性障碍,(ii)受过教育的草稿本如果在每一步中打破局部性则可以帮助,(iii)“归纳式草稿本”的概念既可以打破局部性,又可以改善超出分布的泛化能力,例如,对于某些算术任务,泛化到几乎是输入大小的两倍。
论文链接: https://arxiv.org/pdf/2406.06467
Github: https://github.com/aryol/inductive-scratchpad
cs.AI: JenGAN:基于GAN的语音合成中的堆叠移位滤波器
原标题: JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis
作者: Hyunjae Cho, Junhyeok Lee, Wonbin Jung
机构: 首尔国立大学 (SNU) 韩国 高等科学技术研究所 (KAIST) 韩国 Supertone 公司
摘要: 非自回归基于 GAN 的神经声码器因其快速推理速度和高感知质量而被广泛使用。然而,它们经常受到可听见的人工痕迹的困扰,比如在生成结果中出现的音调痕迹。因此,我们提出了 JenGAN,一种新的训练策略,它涉及堆叠移位低通滤波器,以确保移位等变性质。这种方法有助于防止混叠和减少人工痕迹,同时保留了推理过程中使用的模型结构。在我们的实验评估中,JenGAN 不断提升了声码器模型的性能,在大多数评估指标上取得了显著优越的得分。
论文链接: https://arxiv.org/pdf/2406.06111
cs.AI: 朝向真实世界的效率:领域随机化在强化学习中的应用,用于自主机器人对自由飘移移动目标的预捕获
原标题: Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots
作者: Bahador Beigomi, Zheng H. Zhu
机构: Fanuc Robotiq
摘要: 在这项研究中,我们引入了一种基于深度强化学习的控制方法,以解决在微重力条件下机器人抓取前阶段的复杂挑战。利用强化学习消除了手动特征设计的必要性,从而简化了问题,并使机器人能够通过反复尝试学习抓取前阶段的策略。我们的方法结合了一个离线策略强化学习框架,采用软演员-评论家技术,使夹爪能够有效地接近自由漂浮的移动物体,确保最佳的抓取前阶段成功。为了有效学习抓取前阶段的任务,我们开发了一个奖励函数,为智能体提供清晰而有见地的反馈。我们的案例研究考察了一个抓取前阶段任务,其中需要一个Robotiq 3F夹爪导航到一个自由漂浮的移动目标,追踪它,并随后将自己定位到所需的抓取前阶段位置。我们通过一系列在模拟和真实环境中的实验评估了我们的方法。源代码以及真实世界机器人抓取的录像可在Fanuc_Robotiq_Grasp上找到。
论文链接: https://arxiv.org/pdf/2406.06460
Github: https://github.com/baha2r/Fanuc_Robotiq_Grasp
cs.AI: 社会塑造理论的见解:大语言模型在本科编程课程中的运用
原标题: Insights from Social Shaping Theory: The Appropriation of Large Language Models in an Undergraduate Programming Course
作者: Aadarsh Padiyath, Xinying Hou, Amy Pang, Diego Viramontes Vargas, Xingjian Gu, Tamara Nelson-Fromm, Zihan Wu, Mark Guzdial, Barbara Ericson
机构: 密歇根大学
摘要: 大语言模型(LLMs)生成、调试和解释代码的能力引起了研究人员和教育工作者对本科编程的兴趣,许多人期待它们在编程教育中的变革潜力。然而,在编程教育中使用LLMs的决策可能不仅涉及对LLM技术能力的评估。以技术社会塑造理论作为指导框架,我们的研究探讨了学生的社会感知如何影响他们对LLM的使用。然后,我们研究了学生自我报告的LLM使用与他们的自我效能感和本科编程课程期中表现的相关性。通过匿名课程结束学生调查(n = 158)、期中自我效能调查(n = 158)、学生访谈(n = 10)、作业中自我报告的LLM使用以及期中成绩的数据三角测量,我们发现学生对LLMs的使用与他们对未来职业的期望和对同行使用的看法相关。此外,在我们的环境中早期自我报告的LLM使用与较低的自我效能感和较低的期中成绩相关,而学生对LLMs的过度依赖,而不是使用本身,与课程后期的自我效能感降低相关。
论文链接: https://arxiv.org/pdf/2406.06451
cs.AI: 在辅助应用中的自适应控制 - 一项评估具有有限上肢运动能力用户共享控制的研究
原标题: Adaptive Control in Assistive Application – A Study Evaluating Shared Control by Users with Limited Upper Limb Mobility
作者: Felix Ferdinand Goldau, Max Pascher, Annalies Baumeister, Patrizia Tolle, Jens Gerken, Udo Frese
摘要: 在辅助机器人领域的共享控制将人类自主性与计算机辅助相结合,从而简化了对身体受损个体而言复杂的任务。本研究评估了一种专门为上肢受损个体量身定制的自适应自由度控制方法。该研究采用了24名参与者的被试分析,在一个真实的日常任务环境中,通过三种不同的输入设备进行了81次试验。鉴于脆弱目标人群的多样能力以及由于个体差异导致的统计比较中存在的已知挑战,该研究主要侧重于主观定性数据。结果显示,无论使用哪种输入设备,试验完成率始终非常高。参与者对他们在研究过程中的参与表示赞赏,展现了积极的态度,并迅速适应了控制系统。值得注意的是,每位参与者都在短时间内有效地完成了给定任务。
论文链接: https://arxiv.org/pdf/2406.06103
cs.AI: ProcessPainter:从序列数据中学习绘画过程
原标题: ProcessPainter: Learn Painting Process from Sequence Data
作者: Yiren Song, Shijie Huang, Chen Yao, Xiaojun Ye, Hai Ci, Jiaming Liu, Yuxuan Zhang, Mike Zheng Shou
机构: 新加坡国立大学 浙江大学 上海交通大学
摘要: 艺术家的绘画过程本质上是分步进行的,并在不同的画家和风格之间有显著差异。生成详细的、逐步的绘画过程对艺术教育和研究至关重要,但目前仍然未被充分探索。传统的基于笔触的渲染方法将图像分解为一系列笔触,但它们无法复制艺术家的真实绘画过程,仅限于基本笔触修改。利用扩散过程生成图像的文本到图像模型,也与艺术家的绘画过程有很大不同。为了解决这些挑战,我们引入了ProcessPainter,这是一个文本到视频模型,最初在合成数据上进行预训练,然后使用LoRA模型对一组精选的艺术家绘画序列进行微调。这种方法成功地首次从文本提示中生成绘画过程。此外,我们还引入了一种艺术作品复制网络,能够接受任意帧输入,从而促进了绘画过程的受控生成,将图像分解为绘画序列,并完成半成品艺术作品。本文为推进艺术教育和图像生成技术提供了新的视角和工具。
论文链接: https://arxiv.org/pdf/2406.06062
cs.AI: DISCO:一种用于个性化折扣分配的端到端赌博框架
原标题: DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation
作者: Jason Shuo Zhang, Benjamin Howson, Panayiota Savva, Eleanor Loh
机构: ASOS.com 伦敦 帝国理工学院
摘要: 个性化折扣代码为在电子商务中管理客户关系和运营支出提供了强大的机制。考虑到问题的部分信息性质以及对不断变化的业务环境进行调整的需求,赌博算法非常适合这个产品领域。在这里,我们介绍了DISCO,这是一个用于在此http URL上分配个性化折扣代码的端到端上下文赌博框架。DISCO通过将传统的汤普森抽样算法整合到整数规划中,从而实现了运营成本控制。由于高维动作通常会导致赌博学习效果较差,我们专注于构建低维动作和上下文表示,尽管这些表示仍能保持良好的准确性。此外,我们致力于构建一个能够保持价格和销售之间关系的模型,即顾客对降价增加购买的情况(“负价格弹性”)。通过使用径向基函数来表示连续(即无限武装)动作空间,结合从神经网络中提取的上下文嵌入,实现了这些目标。这些特征表示被用于汤普森抽样框架中以促进探索,并进一步与整数规划集成,以在ASOS的客户群体中分配折扣代码。这些建模决策导致了一个奖励模型,它(a)实现了跨相似动作的汇集学习,(b)具有高准确性,包括在外推中,以及(c)保持了预期的负价格弹性。通过离线分析,我们展示了DISCO能够有效地进行探索,并随着时间的推移提高其性能,尽管存在全局约束。最后,我们对DISCO进行了严格的在线A/B测试,并发现相对于传统系统,它在平均购物篮价值上实现了超过1%的显著改善。
论文链接: https://arxiv.org/pdf/2406.06433
其他链接: http://ASOS.com
cs.AI: 贪婪 SLIM:一种基于 SLIM 的偏好引导方法
原标题: Greedy SLIM: A SLIM-Based Approach For Preference Elicitation
作者: Claudius Proissl, Amel Vatic, Helmut Waldschmidt
机构: 斯图加特大学
摘要: 偏好引导是解决推荐系统冷启动问题的一种主动学习方法。粗略地说,新用户被要求对一些精心挑选的物品进行评分,以便为他们计算出适当的推荐。据我们所知,我们是第一个提出基于 SLIM 的偏好引导方法的人,SLIM 是一种用于 top-N 推荐的最先进技术。我们的方法主要包括一种针对 SLIM 的新训练技术,我们称之为 Greedy SLIM。这种技术通过贪婪地最小化 SLIM 损失来迭代选择训练物品。我们进行了离线实验以及用户研究,以评估这种新方法的性能。结果令人瞩目,特别是在用户研究方面。我们得出结论,相对于基于潜在因子模型的广泛使用的方法,Greedy SLIM 似乎更适合偏好引导。
论文链接: https://arxiv.org/pdf/2406.06061
cs.AI: 可解释的图神经网络受到质疑
原标题: Explainable Graph Neural Networks Under Fire
作者: Zhong Li, Simon Geisler, Yuhang Wang, Stephan Günnemann, Matthijs van Leeuwen
机构: 莱顿大学 慕尼黑工业大学
摘要: 图神经网络(GNNs)做出的预测通常缺乏可解释性,这是由于它们复杂的计算行为和图的抽象性质所致。为了解决这一问题,出现了许多GNN解释方法。它们的目标是解释模型的预测,从而在GNN模型部署在决策关键应用程序中时获得信任。大多数GNN解释方法是事后工作的,并以一小部分重要边缘和/或节点的形式提供解释。在本文中,我们证明这些解释可惜地是不可信的,因为常见的GNN解释方法竟然极易受到对抗性扰动的影响。也就是说,即使是保留模型预测的原始图结构的微小扰动,也可能导致完全不同的解释。这对GNN的事后解释方法的可信度和实际效用提出了质疑。为了能够攻击GNN解释模型,我们设计了一种新颖的攻击方法,名为\textit{GXAttack},这是第一个针对这种情况下事后GNN解释的基于优化的对抗攻击方法。由于我们攻击的毁灭性有效性,我们呼吁对未来的GNN解释器进行对抗性评估,以展示它们的稳健性。
论文链接: https://arxiv.org/pdf/2406.06417
cs.AI: 强大的图像文本分类的潜在表示调优
原标题: Robust Latent Representation Tuning for Image-text Classification
作者: Hao Sun, Yu Song
机构: 浙江大学 立命馆大学
摘要: 大语言模型在计算机视觉和自然语言处理领域展示了出色的泛化能力。最近的努力集中在增强这些模型的多模态处理能力上。然而,解决一个模态缺失的情况所带来的挑战仍然是一个重要障碍。针对这个问题,我们提出了一种针对大模型的稳健潜在表示调整方法。具体而言,我们的方法引入了一个模态潜在翻译模块,以最大化模态之间的相关性。随后,采用了一个新设计的融合模块来促进模态之间的信息交互。在这个框架中,不仅在训练过程中对常见语义进行了精炼,而且在一个模态缺失的情况下,该方法也产生了稳健的表示。重要的是,我们的方法保持了图像和文本基础模型的冻结状态,以保留它们通过大规模预训练获得的能力。我们在几个公共数据集上进行了实验,结果突显了我们提出的方法的有效性。
论文链接: https://arxiv.org/pdf/2406.06048
cs.AI: 一个实证设计正义方法来识别大语言模型和社交机器人交集中的道德考虑。
原标题: An Empirical Design Justice Approach to Identifying Ethical Considerations in the Intersection of Large Language Models and Social Robotics
作者: Alva Markelius
机构: 剑桥大学 未来智能中心
摘要: 大语言模型(LLMs)在社交机器人中的整合提出了一系列独特的道德挑战和社会影响。这项研究旨在确定这两种技术结合设计和开发中出现的道德考虑。在社交机器人中使用LLMs可能带来好处,比如实现自然语言开放领域对话。然而,这两种技术的交集也引发了与虚假信息、非语言线索、情绪干扰和偏见相关的道德关切。机器人的物理社交体现增加了复杂性,因为与基于LLM的社交AI相关的道德风险,如幻觉和虚假信息,可能会因物理体现对社交感知和交流的影响而加剧。为了解决这些挑战,这项研究采用了基于实证设计正义的方法论,重点是通过定性共同设计和互动研究来确定社会技术道德考虑。该研究的目的是确定与共同设计和与人形社交机器人作为LLM接口互动过程相关的道德考虑,并评估设计正义方法论在设计基于LLMs的社交机器人方面的应用。研究结果揭示了在四个概念维度中出现的道德考虑的映射:互动、共同设计、服务条款和关系,并评估了设计正义方法如何在LLMs和社交机器人的交集中实证应用。
论文链接: https://arxiv.org/pdf/2406.06400
cs.AI: 使用扩散模型合成高效数据进行人员再识别预训练
原标题: Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training
作者: Ke Niu, Haiyang Yu, Xuelin Qian, Teng Fu, Bin Li, Xiangyang Xue
机构: 复旦大学 西北工业大学
摘要: 现有的人员再识别(Re-ID)方法主要使用ImageNet-1K数据集进行模型初始化,这不可避免地导致由于较大的领域差距而导致次优的情况。其中一个关键挑战是建立大规模的人员 Re-ID 数据集是耗时的。一些先前的努力通过从互联网收集人员图像来解决这个问题,例如 LUPerson,但它难以从未标记、不可控和嘈杂的数据中学习。在本文中,我们提出了一种新的范式 Diffusion-ReID,可以有效地增强和生成基于已知身份的多样化图像,而无需任何数据收集和注释成本。从技术上讲,这种范式分为两个阶段:生成和过滤。在生成阶段,我们提出了语言提示增强(LPE)以确保输入图像序列和生成图像之间的ID一致性。在扩散过程中,我们提出了一个多样性注入(DI)模块来增加属性多样性。为了使生成的数据具有更高的质量,我们应用了一个 Re-ID 置信度阈值过滤器来进一步删除低质量的图像。受益于我们提出的范式,我们首先创建了一个新的大规模人员 Re-ID 数据集 Diff-Person,其中包括来自5,183个身份的超过777K张图像。接下来,我们构建了一个在我们的 Diff-Person 上预训练的更强大的人员 Re-ID 骨干。我们在六种广泛使用的设置中对四个人员 Re-ID 基准进行了大量实验。与其他预训练和自监督竞争对手相比,我们的方法表现出显著的优势。
论文链接: https://arxiv.org/pdf/2406.06045
Github: https://github.com/keniu042/diffusion-reid
cs.AI: T细胞受体表示的对比学习
原标题: Contrastive learning of T cell receptor representations
作者: Yuta Nagano, Andrew Pyo, Martina Milighetti, James Henderson, John Shawe-Taylor, Benny Chain, Andreas Tiffeau-Mayer
机构: 伦敦大学学院 癌症研究所 普林斯顿大学
摘要: 计算预测T细胞受体(TCR)及其配体相互作用是免疫学中的一项重大挑战。尽管高通量测定方法取得了进展,但特异性标记的TCR数据仍然稀缺。在其他领域,对未标记数据进行语言模型的预训练已成功用于解决数据瓶颈问题。然而,如何最佳地为TCR特异性预测预训练蛋白质语言模型尚不清楚。在这里,我们介绍了一种名为SCEPTR(T细胞受体的简单对比嵌入)的TCR语言模型,能够进行数据高效的迁移学习。通过我们的模型,我们引入了一种结合自对比学习和掩码语言建模的新型预训练策略,使SCEPTR能够实现其最先进的性能。相比之下,现有的蛋白质语言模型和一个未经自对比学习预训练的SCEPTR变体被序列对齐方法超越。我们预计对比学习将是解码TCR特异性规则的一种有用范式。
论文链接: https://arxiv.org/pdf/2406.06397
cs.AI: MOSA:用于跨模态音乐处理的具有语义注释的音乐动作数据集
原标题: MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing
作者: Yu-Fen Huang, Nikki Moran, Simon Coleman, Jon Kelly, Shun-Hwa Wei, Po-Yin Chen, Yun-Hsin Huang, Tsung-Ping Chen, Yu-Chia Kuo, Yu-Chi Wei, Chih-Hsuan Li, Da-Yu Huang, Hsuan-Kai Kao, Ting-Wei Lin, Li Su
机构: 中央研究院 台湾 英国爱丁堡大学 运动、体育教育与健康科学研究所 英国爱丁堡大学 国立阳明交通大学 台湾
摘要: 在跨模态音乐处理中,视觉、听觉和语义内容之间的翻译不仅开辟了新的可能性,也带来了挑战。这样一个转换方案的构建取决于具有全面数据基础设施的基准语料库。特别是,大规模跨模态数据集的组装提出了重大挑战。在本文中,我们介绍了MOSA(带有语义注释的音乐运动)数据集,其中包含了高质量的三维动作捕捉数据、对齐的音频录音,以及742位专业音乐家的23场专业音乐表演的音高、节拍、乐句、动态、发音和和声的逐音符语义注释,总计超过30小时和570K个音符的数据。据我们所知,这是迄今为止具有音符级注释的最大跨模态音乐数据集。为了展示MOSA数据集的用途,我们提出了几项创新的跨模态音乐信息检索(MIR)和音乐内容生成任务,包括从音频、视频和动作数据中检测节拍、下拍、乐句和表现内容,以及根据给定音乐音频生成音乐家的身体动作。该数据集和代码可在本出版物旁边找到(此https网址)。
论文链接: https://arxiv.org/pdf/2406.06375
Github: https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset