2024年7月30日Arxiv人工智能相关论文

最新推荐文章于 2025-01-10 14:48:37 发布

数智笔记

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量802

点赞数 4

分类专栏：论文速递文章标签：人工智能

本文链接：https://blog.csdn.net/wjjc1017/article/details/140804842

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

超级信任：基于进化的超级对齐策略，确保安全共存

原标题: Supertrust: Evolution-based superalignment strategy for safe coexistence

作者: James M. Mazzu

机构: Digie Inc.

摘要: 人们普遍预期，人类终将创造出比我们聪明得多的人工智能系统，从而引发了“如何控制超智能”的未解决对齐问题。然而，这个定义不仅自相矛盾，而且可能无法解决。然而，解决这个问题的默认策略涉及培养（后训练）约束和道德价值观，同时不幸地在构建基础性质（预训练）时基于永久控制的记录意图。在本文中，通过推理论证了默认方法可预测地嵌入自然不信任，并呈现了表明这种危险不对齐的明显证据的测试结果。如果超智能不能本能地信任人类，那么我们就无法完全信任它可绕过的安全控制。因此，提出了一个十点理由，重新定义了对齐问题为“如何在超智能和人类之间建立保护性相互信任”，然后概述了通过本能性质而不是培养来解决它的新策略。由此产生的战略要求被确定为通过示范家长-子女信任、人类智慧作为超智能的进化母体、道德判断能力和临时安全约束来构建基础性质。采纳并实施这一提出的超信任对齐策略将导致保护性共存，并确保人类的最安全未来。

论文链接: https://arxiv.org/abs/2407.20208

rLLM：使用大语言模型进行关系表学习

原标题: rLLM: Relational Table Learning with LLMs

作者: Weichen Li, Xiaotong Huang, Jianwu Zheng, Zheng Wang, Chaokun Wang, Li Pan, Jianhua Li

机构: 上海交通大学清华大学

摘要: 我们介绍了 rLLM（relationLLM），这是一个专为大语言模型（LLMs）与关系表学习（RTL）设计的 PyTorch 库。其核心思想是将最先进的图神经网络、LLMs 和表神经网络分解为标准化模块，以便通过简单的“组合、对齐和共同训练”方式快速构建新的 RTL 类型模型。为了说明 rLLM 的用法，我们介绍了一种名为 \textbf{BRIDGE} 的简单 RTL 方法。此外，我们通过增强经典数据集，提出了三个新颖的关系表数据集（TML1M、TLF2K 和 TACM12K）。我们希望 rLLM 能够作为一个有用且易于使用的 RTL 相关任务开发框架。我们的代码可以在此 https URL 找到。

论文链接: https://arxiv.org/abs/2407.20157

Github: https://github.com/rllm-project/rllm

在无限中生成未见过的代码测试

原标题: Generating Unseen Code Tests In Infinitum

作者: Marcel Zalmanovici, Orna Raz, Eitan Farchi, Iftach Freund

机构: IBM研究人工智能

摘要: 大语言模型（LLMs）被用于许多任务，包括与编码相关的任务。能够利用LLMs的一个重要方面是能够评估它们在特定用途上的适应性。常见做法是针对一组基准对LLMs进行评估。虽然基准为评估和比较替代方案提供了坚实基础，但它们存在一个众所周知的问题，即泄漏到训练数据中\cite{Xu2024Benchmarking}。我们提出了一种方法，用于创建可以横跨编码任务和编程语言的基准变体，也可以应用于内部代码库。我们的方法可以持续生成测试数据，从而减轻泄漏到训练数据中的问题。我们实现了一个名为“自回归”的基准，用于Python中的文本到代码生成任务。自回归专门用于帮助调试和跟踪模型生成变化，作为LLM回归测试过程的一部分。

论文链接: https://arxiv.org/abs/2407.19772

ByteCheckpoint：用于大语言模型开发的统一检查点系统

原标题: ByteCheckpoint: A Unified Checkpointing System for LLM Development

作者: Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu

机构: 香港大学 ByteDance

摘要: 实际世界中大型语言模型（LLMs）的开发需要将训练状态在持久存储中进行检查点处理，以减轻潜在的软件和硬件故障，并促进在训练管道内以及跨各种任务之间的检查点传输。由于LLMs的巨大规模，保存和加载检查点通常会导致无法容忍的分钟级停顿，显著降低训练效率。此外，在任务之间传输检查点时，根据特定任务的特征和资源配额，通常需要进行检查点重分片，即将检查点加载到与保存时不同的并行配置中。先前的检查点系统[16,3,33,6]假设一致的并行配置，未能解决在重分片期间检查点转换的复杂性。此外，在行业平台上，开发人员从不同的训练框架[23,36,21,11]创建检查点，每个框架都有其独特的存储和I/O逻辑。这种多样性使得统一检查点管理和优化的实现变得复杂。为了解决这些挑战，我们引入了ByteCheckpoint，这是一个基于PyTorch的多框架LLM检查点系统，支持自动在线检查点重分片。ByteCheckpoint采用数据/元数据分离的存储架构，将检查点存储与采用的并行策略和训练框架分离。我们设计了一种高效的异步张量合并技术来解决不规则张量分片问题，并提出了几种I/O性能优化方法，显著提高了检查点保存和加载的效率。实验结果表明，与基准方法相比，ByteCheckpoint在减少检查点保存（最多降低529.22倍）和加载（最多降低3.51倍）成本方面具有明显优势。

论文链接: https://arxiv.org/abs/2407.20143

Map2Traj：使用扩散模型在街道地图上进行零样本轨迹生成

原标题: Map2Traj: Street Map Piloted Zero-shot Trajectory Generation with Diffusion Model

作者: Zhenyu Tao, Wei Xu, Xiaohu You

机构: 东南大学紫金山实验室

摘要: 用户移动性建模在当代无线网络的分析和优化中起着至关重要的作用。典型的随机移动性模型，例如随机航点模型和高斯马尔可夫模型，很难捕捉到真实世界区域内用户的分布特征。然而，最先进的基于轨迹的移动性模型和现有的基于学习的轨迹生成方法，经常受制于由于隐私问题导致实际轨迹不易获取。在本文中，我们利用街道地图和轨迹之间的内在相关性，通过利用扩散模型开发了一种新颖的零样本轨迹生成方法，命名为Map2Traj。我们将街道地图作为条件，持续引导去噪过程，并在中国西安不同地区的真实轨迹集和相应的街道地图上训练我们的模型。仅凭未观察区域的街道地图，Map2Traj生成的合成轨迹不仅与真实世界的移动模式密切相似，而且在效果上也具有可比性。大量实验证实了我们提出的方法在零样本轨迹生成任务中的有效性，无论是在轨迹还是分布相似性方面。此外，还展示了在无线网络优化中应用Map2Traj的案例研究，以验证其在下游应用中的有效性。

论文链接: https://arxiv.org/abs/2407.19765

Theia：为机器人学习提炼多样化视觉基础模型

原标题: Theia: Distilling Diverse Vision Foundation Models for Robot Learning

作者: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant

机构: The AI Institute Stony Brook University

摘要: 基于视觉的机器人策略学习，将视觉输入映射到动作，需要对多样的视觉任务有全面的理解，超越单一任务需求，如分类或分割。受此启发，我们引入了Theia，这是一个为机器人学习设计的视觉基础模型，它提炼了在不同视觉任务上训练的多个现成视觉基础模型。Theia的丰富视觉表示编码了多样的视觉知识，增强了下游机器人学习。大量实验证明，Theia在使用更少的训练数据和更小的模型尺寸时胜过其教师模型和先前的机器人学习模型。此外，我们量化了预训练视觉表示的质量，并假设特征规范分布中的较高熵会提高机器人学习性能。代码和模型可在此网址获得。

论文链接: https://arxiv.org/abs/2407.20179

Github: https://github.com/bdaiinstitute/theia

本体引导查询回答中的 Shapley 值计算

原标题: Shapley Value Computation in Ontology-Mediated Query Answering

作者: Meghyn Bienvenu, Diego Figueira, Pierre Lafourcade

机构: 波尔多大学法国日本法国信息学实验室

摘要: Shapley值最初在合作博弈理论中用于财富分配，现已在知识表示和数据库中找到用途，用于根据它们对获取查询结果或不一致性的贡献来为公式和数据库元组分配分数。在本文中，我们探讨了Shapley值在本体介导查询回答（OMQA）中的应用，并对OMQA设置中Shapley值计算（SVC）进行了详细的复杂性分析。特别是，我们为由描述逻辑ELHI_⊥中的本体T和一个连通的无常量同态封闭查询q组成的本体介导查询（T，q）的SVC建立了一个PF/#P-困难的二分法。我们进一步表明，该二分法的#P-困难一侧可以加强以涵盖具有常量的可能断开的查询。我们的结果利用了最近发现的SVC与概率查询评估之间的联系，并使我们能够推广现有的概率OMQA结果。

论文链接: https://arxiv.org/abs/2407.20058

现实世界规划中的智能语言代理

原标题: Smart Language Agents in Real-World Planning

作者: Annabelle Miin, Timothy Wei

机构: 太平洋学院学校萨拉托加高中

摘要: 在人工智能领域，全面规划智能体一直是一个长期目标。最近自然语言处理方面的创新通过大语言模型（LLMs）取得了成功。我们希望通过在前一篇论文TravelPlanner的基础上进行扩展，改进这些LLMs的旅行规划能力。我们的目标是探索一种利用LLMs改进旅行规划体验的新方法。我们专注于旅行规划的“独立规划”模式；也就是说，智能体会获得必要的参考信息，其目标是根据这些参考信息制定全面的计划。虽然这并不模拟真实世界，但我们认为优化旅行规划智能体的独立规划能力仍将能够提升整体用户体验。我们提出了一个半自动提示生成框架，结合LLM自动生成的提示和“人在循环”方法，通过迭代改进提示以提高LLM的性能。我们的结果显示，LLM自动生成的提示存在局限性，“人在循环”通过一次迭代使性能提高了139%。

论文链接: https://arxiv.org/abs/2407.19667

使用图形实现基于代理的高级 RAG 系统的实施方法研究

原标题: A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph

作者: Cheonsu Jeong

机构: 韩国首尔国立大学三星SDS

摘要: 这项研究旨在通过克服现有检索增强生成（RAG）模型的局限性，并基于图技术实现先进的RAG系统，从而改进基于知识的问答（QA）系统，开发高质量的生成式人工智能服务。虽然现有的RAG模型通过利用检索到的信息展现出高准确性和流畅性，但由于使用预加载知识生成响应而不重新处理可能导致准确性下降。此外，在RAG配置阶段之后无法整合实时数据，导致上下文理解和信息偏见方面存在问题。为解决这些局限性，该研究实施了一种利用图技术的增强型RAG系统。该系统旨在高效搜索和利用信息。具体而言，它采用LangGraph评估检索到的信息的可靠性，并综合多样数据生成更准确和增强的响应。此外，该研究通过实施代码和验证结果提供了系统运行、关键实施步骤和示例的详细解释，从而增进对先进RAG技术的理解。这种方法为在企业服务中实施先进RAG系统提供了实用指南，使其成为实际应用的宝贵资源。

论文链接: https://arxiv.org/abs/2407.19994

人工智能驱动的医疗保健：确保公平性和减轻偏见的调查

原标题: AI-Driven Healthcare: A Survey on Ensuring Fairness and Mitigating Bias

作者: Sribala Vidyadhari Chinta, Zichong Wang, Xingyu Zhang, Thang Doan Viet, Ayesha Kashif, Monique Antoinette Smith, Wenbin Zhang

机构: 佛罗里达国际大学匹兹堡大学 Jose Marti MAST 6-12 学院 Emory大学

摘要: 人工智能（AI）在医疗保健领域正在迅速发展，提高了各个专业领域的服务效率和效果，包括心脏病学、眼科学、皮肤科、急诊医学等。AI 应用通过利用机器学习、神经网络和自然语言处理等技术，显著提高了诊断准确性、治疗个性化和患者结果预测。然而，这些进展也带来了重大的伦理和公平挑战，特别是与数据和算法中的偏见有关。这些偏见可能导致医疗保健服务的差异，影响不同人口群体的诊断准确性和治疗结果。本调查报告审视了AI在医疗保健领域的整合，突出了与偏见相关的关键挑战，并探讨了缓解策略。我们强调多样化数据集、公平意识算法和监管框架的必要性，以确保医疗保健服务的公平性。报告最后提出了未来研究的建议，主张跨学科方法、AI决策透明度以及创新和包容性AI应用的发展。

论文链接: https://arxiv.org/abs/2407.19655

通过旋律变化和功能表示驱动的情感旋律和谐化

原标题: Emotion-Driven Melody Harmonization via Melodic Variation and Functional Representation

作者: Jingyue Huang, Yi-Hsuan Yang

机构: 加利福尼亚大学圣地亚哥分校台湾国立大学

摘要: 情感驱动的旋律和声旨在为单一旋律生成多样的和声，以传达所需的情感。先前的研究发现，仅通过用不同和弦和声化相同旋律很难改变乐谱的感知情感价值，这可能归因于旋律本身施加的约束以及现有音乐表示的限制。在本文中，我们提出了一种新颖的符号音乐功能表示。这种新方法考虑了音乐键的作用，认识到它们通过大调-小调音调在塑造音乐情感特征方面的重要作用。它还允许根据键进行旋律变化，并解决了情感建模中数据稀缺性的问题。我们采用了Transformer来和声适应键的旋律，允许以基于规则或基于模型的方式确定键。实验结果证实了我们新表示法在生成具有键感知的和声方面的有效性，客观和主观评估肯定了我们的方法传达多功能旋律的特定情感价值的潜力。

论文链接: https://arxiv.org/abs/2407.20176

简单可训练的最近邻机器翻译与 GPU 推理

原标题: Simply Trainable Nearest Neighbour Machine Translation with GPU Inference

作者: Hossam Amer, Abdelrahman Abouelenin, Mohamed Maher, Evram Nairouz, Mohamed Afify, Hany Awadallah

机构: 微软公司

摘要: 最近邻机器翻译是一种成功的快速领域自适应方法，它通过在不重新训练的情况下，将预训练的Transformer与特定领域的基于标记级k最近邻（kNN）检索进行插值。尽管kNN机器翻译取得了成功，但搜索大型参考语料库和kNN与预训练模型之间的固定插值导致了计算复杂性和翻译质量挑战。在其他论文中，Dai等人提出了一种方法，动态获取少量参考样本，他们引入了一种包含自由参数的距离感知插值方法。本文提出了一种简单可训练的最近邻机器翻译，并在GPU上进行推理实验。与Dai等人类似，我们首先为每个输入句子自适应构建一个小型数据存储。其次，我们训练一个单层网络，用于在knnMT和预训练结果之间自动插值的插值系数。在不同领域的实验结果显示，我们提出的方法在自动化的同时，要么提高了翻译质量，要么保持了Dai等人方法的翻译质量。此外，我们的GPU推理结果表明，knnMT可以集成到GPU中，速度仅下降了5%。

论文链接: https://arxiv.org/abs/2407.19965

异常检测中不公平性的基础 —— 面部成像数据案例研究

原标题: Foundations for Unfairness in Anomaly Detection – Case Studies in Facial Imaging Data

作者: Michael Livanos, Ian Davidson

机构: 加利福尼亚大学戴维斯分校

摘要: 深度异常检测（AD）可能是数据分析任务中最具争议的，因为它识别出具体被进一步调查或排除的实体。将人工智能应用于面部成像数据也是具有争议的。这项工作探讨了这两个领域的交集，以了解两个核心问题：“这些算法”对谁不公平，以及同样重要的“为什么”。最近的研究表明，尽管深度AD是无监督的，但对不同群体可能存在不公平，一项最近的研究显示，在人像中，有色人种更有可能被选为异常值。我们研究了两种主要类别的AD算法：基于自动编码器和基于单类别，它们有效地尝试压缩所有实例，那些不能轻松压缩的实例被视为异常值。我们通过实验证实了不公平的来源，如某一群体的代表不足（例如，有色人种相对较少）、虚假的群体特征（例如，男性经常戴帽子）和群体标记噪声（例如，种族是主观的）。我们推测，缺乏可压缩性是主要基础，其他因素导致了这种情况，但实验证明了相反的结果，并且我们在它们之间提出了一个自然的层次结构。

论文链接: https://arxiv.org/abs/2407.19646

通过大语言模型可解释性来实现货币对情绪的货币化

原标题: Monetizing Currency Pair Sentiments through LLM Explainability

作者: Lior Limonad, Fabiana Fournier, Juan Manuel Vera Díaz, Inna Skarbovsky, Shlomit Gur, Raquel Lazcano

机构: IBM研究、以色列 Atos IT解决方案与服务伊比利亚、西班牙

摘要: 大语言模型（LLMs）在当今组织的几乎每个领域中发挥着至关重要的作用。在这项工作的背景下，我们重点介绍了LLMs在情感分析（SA）和可解释性方面的应用。具体而言，我们提出了一种新颖的技术，利用LLMs作为后续模型独立工具来解释SA。我们将这种技术应用于金融领域，利用与市场价格合并的开放新闻源数据进行货币对价格预测。我们的应用表明，所开发的技术不仅是使用传统可解释人工智能的可行替代方案，而且还可以反馈以丰富机器学习（ML）模型的输入，从而更好地预测未来的货币对价值。我们设想我们的结果可以推广到将解释性作为传统的ML输入丰富，以获得更好的ML预测结果。

论文链接: https://arxiv.org/abs/2407.19922

利用可视化参考指导调整多模态大语言模型在图表问答中的性能

原标题: Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning

作者: Xingchen Zeng, Haichuan Lin, Yilin Ye, Wei Zeng

机构: 清华大学百度

摘要: 新兴的多模态大语言模型（MLLMs）在图表问答（CQA）方面展现出巨大潜力。最近的努力主要集中在通过数据收集和合成来扩大训练数据集（即图表、数据表和问答（QA）对）。然而，我们对现有MLLMs和CQA数据集的实证研究揭示了明显的差距。首先，当前的数据收集和合成侧重于数据量，缺乏对细粒度视觉编码和QA任务的考虑，导致数据分布不平衡，与实际CQA场景不一致。其次，现有工作遵循最初设计用于自然图像的基础MLLMs的训练配方，未充分探索适应独特图表特征的方法，比如丰富的文本元素。为了填补这一差距，我们提出了一种基于可视化参考指导的调整方法，以指导训练数据集的增强和模型开发。具体而言，我们提出了一种新颖的数据引擎，可以有效地从现有数据集中筛选出多样化且高质量的数据，然后利用基于LLM的生成技术对数据进行细化和增强，以更好地与实际QA任务和视觉编码相匹配。然后，为了促进对图表特征的适应，我们利用丰富的数据训练MLLM，通过解冻视觉编码器并结合分辨率混合适应策略来增强细粒度识别。实验结果验证了我们方法的有效性。即使训练样本较少，我们的模型在已建立的基准测试中始终优于最先进的CQA模型。我们还为未来研究贡献了一个数据集拆分作为基准。本文的源代码和数据集可在此URL获取。

论文链接: https://arxiv.org/abs/2407.20174

Github: https://github.com/zengxingchen/ChartQA-MLLM

Prometheus Chatbot：知识图谱协作大语言模型，用于计算机组件推荐

原标题: Prometheus Chatbot: Knowledge Graph Collaborative Large Language Model for Computer Components Recommendation

作者: Yunsheng Wang, Songhao Chen, Kevin Jin

机构: 华盛顿大学圣路易斯分校联想深圳联想北京

摘要: 知识图谱（KGs）在网络对齐、问答和推荐系统（RSs）等应用中至关重要，因为它们提供了结构化的关系数据，有助于推断间接关系。然而，基于知识图谱的 RSs 的开发面临着处理自然语言用户输入的重大挑战。首先，自然语言处理单元必须有效处理人类语言中的歧义和变化，以准确解释用户意图。其次，系统必须准确识别和链接实体（如产品名称）与知识图谱中对应的节点。为了克服这些挑战，我们在联想的支持下开发了一款名为“Prometheus”的新型聊天机器人，它将知识图谱与大语言模型（LLM）相结合，专门设计用于推荐计算机组件。这款聊天机器人能够准确解码用户请求，并根据知识图谱提供个性化推荐，确保准确理解并响应他们的计算机配置需求。

论文链接: https://arxiv.org/abs/2407.19643

利用基础模型进行零样本物联网传感

原标题: Leveraging Foundation Models for Zero-Shot IoT Sensing

作者: Dinghao Xue, Xiaoran Fan, Tao Chen, Guohao Lan, Qun Song

机构: 清华大学哈尔滨工业大学

摘要: 深度学习模型越来越多地部署在边缘物联网（IoT）设备上。然而，这些模型通常在监督条件下运行，无法识别与训练不同的未见类别。为了解决这个问题，零样本学习（ZSL）旨在借助语义信息对未见类别的数据进行分类。在大规模网络数据上训练的基础模型（FMs）已经展示了在自然语言处理和视觉理解中令人印象深刻的零样本学习能力。然而，利用FMs的广义知识来进行利用 mmWave、IMU 和 Wi-Fi 等信号进行零样本 IoT 感知的研究尚未得到充分调查。在这项工作中，我们将 IoT 数据嵌入与 FM 文本编码器生成的语义嵌入进行对齐，以实现零样本 IoT 感知。为了利用物理原理来生成 IoT 传感器信号的更有效提示以进行语义嵌入提取，我们提出使用交叉注意力来结合一个可学习的软提示，该提示在训练数据上自动优化，以及一个编码 IoT 感知任务领域知识的辅助硬提示。为了解决由于训练过程中缺乏未见类别数据而导致 IoT 嵌入偏向于已见类别的问题，我们建议使用数据增强来合成未见类别的 IoT 数据，以对 IoT 特征提取器和嵌入式投影仪进行微调。我们在多个 IoT 感知任务上评估了我们的方法。结果显示，与各种基线相比，我们的方法实现了更优越的开放集检测和广义零样本学习性能。我们的代码可在此 https URL_ZSL_IoT 上找到。

论文链接: https://arxiv.org/abs/2407.19893

Github: https://github.com/schrodingho/FM

LatentArtiFusion：一种有效且高效的组织学伪影恢复框架

原标题: LatentArtiFusion: An Effective and Efficient Histological Artifacts Restoration Framework

作者: Zhenqi He, Wenrui Liu, Minghao Yin, Kai Han

机构: 香港大学

摘要: 组织学伪影给病理学家和计算机辅助诊断（CAD）系统带来挑战，导致分析错误。目前基于生成对抗网络（GANs）和像素级扩散模型的组织学伪影修复方法存在性能限制和计算效率低的问题。在本文中，我们提出了一种新颖的框架，名为LatentArtiFusion，它利用潜在扩散模型（LDM）来重建具有高性能和计算效率的组织学伪影。与传统的像素级扩散框架不同，LatentArtiFusion在较低维度的潜在空间中执行恢复过程，显著提高了计算效率。此外，我们在潜在空间中引入了一种新颖的区域伪影重建算法，以防止在非伪影区域发生错误传输，使我们的方法与基于GAN的方法有所区别。通过对真实组织学数据集进行大量实验，LatentArtiFusion展现出了显著的速度优势，其性能超过了最先进的像素级扩散框架超过30倍。它还在多个评估指标上始终至少比基于GAN的方法高出5%。此外，我们评估了我们提出的框架在下游组织分类任务中的有效性，展示了其实际效用。代码可在此https网址找到。

论文链接: https://arxiv.org/abs/2407.20172

Github: https://github.com/bugs-creator/LatentArtiFusion

OptiMUS-0.3：使用大语言模型在规模上建模和解决优化问题

原标题: OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale

作者: Ali AhmadiTeshnizi, Wenzhi Gao, Herman Brunborg, Shayan Talaei, Madeleine Udell

机构: 斯坦福大学计算与数学工程学院

摘要: 优化问题在制造业、分销业和医疗保健等领域普遍存在。然而，大多数这类问题仍然是通过启发式手工解决，而不是通过最先进的求解器进行最优求解，因为需要专业知识来制定和解决这些问题，这限制了优化工具和技术的广泛采用。我们介绍了一个基于大语言模型（LLM）的系统，旨在从自然语言描述中制定和解决（混合整数）线性规划问题。我们的系统能够开发数学模型，编写和调试求解器代码，评估生成的解决方案，并根据这些评估改进其模型和代码的效率和正确性。OptiMUS-0.3利用模块化结构处理问题，使其能够处理具有长描述和复杂数据的问题，而无需长时间的提示。实验证明，OptiMUS-0.3在易数据集上的表现优于现有的最先进方法超过12％，在困难数据集上（包括本文发布的一个新数据集NLP4LP，其中包含长且复杂的问题）优于现有方法超过8％。

论文链接: https://arxiv.org/abs/2407.19633

一个统一的图 Transformer，用于克服多模态推荐中的隔离问题

原标题: A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation

作者: Zixuan Yi, Iadh Ounis

机构: 格拉斯哥大学

摘要: 随着在线多媒体服务的快速发展，特别是在电子商务平台上，迫切需要个性化推荐系统，能够有效地编码与每个商品相关的多样化多模态内容。然而，我们认为现有的多模态推荐系统通常使用独立的过程进行特征提取和模态建模。这种独立的过程可能会损害推荐性能。首先，独立的提取过程低估了多模态推荐中有效特征提取的重要性，可能会包含不相关信息，这对商品表示是有害的。其次，独立的模态建模过程由于对每个模态的单独处理而为商品模态产生了不连贯的嵌入，这导致了用户/商品表示的次优融合，从而影响了有效用户偏好预测。我们假设使用一个统一模型来处理上述两个独立过程将使联合多模态特征的一致提取和连贯融合成为可能，从而增强多模态推荐系统的有效性。在本文中，我们提出了一种名为统一多模态图 Transformer（UGT）的新模型，首先利用多路 Transformer 从原始数据中提取对齐的多模态特征进行 top-k 推荐。随后，在我们的 UGT 模型中构建一个统一的图神经网络，将用户/商品表示与它们对应的多模态特征进行联合融合。通过我们 UGT 模型的图 Transformer 架构，我们展示了 UGT 模型可以实现显著的有效性增益，特别是在与常用的多模态推荐损失联合优化时。

论文链接: https://arxiv.org/abs/2407.19886

“一个好的机器人总是了解自己的局限性”：通过因式分解机器自信度评估自主系统的决策能力

原标题: “A Good Bot Always Knows Its Limitations”: Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence

作者: Brett Israelsen, Nisar R. Ahmed, Matthew Aitken, Eric W. Frew, Dale A. Lawrence, Brian M. Argrow

机构: RTX Technology Research Center Smead Aerospace Engineering Sciences University of Colorado Boulder Allen Institute for Brain Science DALE A. LAWRENCE Brian M. ARGROW

摘要: 智能机器如何评估其完成任务的能力？这个问题已经成为自主系统关注的焦点，这些系统在不确定性下进行算法推理和决策。本文认为，机器自信——一种基于对代理知识、世界状态以及自身能力进行自我评估的元推理形式，导致了许多极具计算和实用价值的能力指标，适用于这类代理。本文提出了这一概念的工作成果，即一种名为因子化机器自信（FaMSeC）的计算框架，该框架提供了一个面向工程的全面描述，说明了驱动算法决策过程的因素，包括结果评估、求解器质量、模型质量、对齐质量和过去经验。在FaMSeC中，自信指标是从嵌入在广泛类别的概率决策算法中的分层“问题解决统计”中导出的。这些问题解决统计是通过评估和分级概率超额边际相对于给定能力标准而获得的，这些标准由被告知者（例如非专家用户或专家系统设计者）为每个决策能力因素指定。这种方法允许“算法拟合度”评估轻松地纳入到许多类型的自主代理的设计中，通过人类可解释的能力自我评估报告。对于马尔可夫决策过程代理的详细描述和运行应用示例展示了如何通过元效用函数、行为模拟和替代预测模型的新颖使用，实际计算和报告两个FaMSeC因素（结果评估和求解器质量），适用于各种可能的任务环境。

论文链接: https://arxiv.org/abs/2407.19631

多机器人导航的语言条件离线强化学习

原标题: Language-Conditioned Offline RL for Multi-Robot Navigation

作者: Steven Morad, Ajay Shankar, Jan Blumenkamp, Amanda Prorok

机构: 剑桥大学

摘要: 我们提出了一种为多机器人团队开发导航策略的方法，该方法解释并遵循自然语言指令。我们将这些策略条件设置为来自预训练的大语言模型（LLMs）的嵌入，并通过离线强化学习进行训练，仅需使用随机收集的数据，最少仅需20分钟。对一组五台真实机器人的实验表明，这些策略很好地推广到未见命令，表明对LLM潜在空间的理解。我们的方法不需要模拟器或环境模型，并生成可以直接部署到真实机器人而无需微调的低延迟控制策略。我们在以下网址提供了我们实验的视频。

论文链接: https://arxiv.org/abs/2407.20164

其他链接: https://sites.google.com/view/llm-marl

部分偏好排序之间的距离

原标题: Distances Between Partial Preference Orderings

作者: Jean Dezert, Andrii Shekhovtsov, Wojciech Salabun

机构: 法国宇航实验室波莱索，法国波兰华沙国家电信研究所

摘要: 这篇论文提出了建立基于两种非常不同方法的部分偏好排序之间距离的方法。第一种方法对应于基于组合学的蛮力方法。它生成与部分偏好排序兼容的所有可能的完整偏好排序，并计算所有完全兼容偏好排序之间的Frobenius距离。不幸的是，这种第一种方法在解决高维问题时效率不高，因为其组合复杂性很大。这就是为什么我们提出通过使用基于信念函数的第二种方法来规避这个问题，信念函数可以充分模拟部分偏好排序的缺失信息。这种计算距离的第二种方法不会受到组合复杂性限制。我们通过简单示例展示了这两种理论方法是如何工作的。

论文链接: https://arxiv.org/abs/2407.19869

通过深度强化学习进行量子机器学习架构搜索

原标题: Quantum Machine Learning Architecture Search via Deep Reinforcement Learning

作者: Xin Dai, Tzu-Chieh Wei, Shinjae Yoo, Samuel Yen-Chi Chen

机构: 布鲁克海文国家实验室史托尼布鲁克大学 Yang理论物理研究所和物理与天文学系

摘要: 量子计算（QC）和机器学习（ML）的快速发展催生了量子机器学习（QML）这一新兴领域，旨在利用量子计算的优势推动机器学习的发展。尽管具有潜力，但打造有效的QML模型需要深厚的专业知识，以在嘈杂的中间规模量子（NISQ）设备上在模型复杂性和可行性之间取得微妙平衡。虽然复杂模型提供了强大的表示能力，但它们的广泛电路深度可能会妨碍在现有嘈杂的量子平台上的无缝执行。在本文中，我们通过采用深度强化学习来解决QML模型设计的这一困境，以探索专为指定监督学习任务量身定制的高效QML模型架构。具体而言，我们的方法涉及训练一个RL智能体来制定政策，促进发现没有预设ansatz的QML模型。此外，我们还整合了一种自适应机制来动态调整学习目标，促进智能体学习过程的持续改进。通过广泛的数值模拟，我们展示了我们的方法在分类任务领域的有效性。我们提出的方法成功识别出能够实现高分类准确性并最小化门深度的VQC架构。这种开创性方法不仅推动了基于人工智能的量子电路设计研究，还在NISQ时代提升性能方面具有重要潜力。

论文链接: https://arxiv.org/abs/2407.20147

大语言模型对自然语言的理解揭示

原标题: LLMs’ Understanding of Natural Language Revealed

作者: Walid S. Saba

机构: 东北大学实验性人工智能研究所

摘要: 大语言模型（LLMs）是在大规模自下而上、数据驱动的语言逆向工程实验的结果。尽管它们在许多下游自然语言处理任务中很有用，但大量研究表明，LLMs无法在需要对符号变量进行量化和操作的任务中执行推理（例如，规划和问题解决）；例如参见[25][26]。然而，在本文中，我们将专注于测试LLMs的语言理解能力，这被认为是它们的长处。正如我们将在这里展示的，LLMs的语言理解能力已被广泛夸大。虽然LLMs已被证明能够生成类似人类的连贯语言（因为这是它们的设计目的），但它们的语言理解能力尚未得到适当测试。特别是，我们认为LLMs的语言理解能力应该通过执行与“文本生成”相反的操作来进行测试，具体来说，通过将文本片段作为输入提供给LLM，然后查询LLM“理解”了什么。正如我们在这里展示的，这样做时将会显而易见，LLMs并不真正理解语言，除了那些基本上是大量摄入文本的记忆的副产品之外的非常肤浅的推断。

论文链接: https://arxiv.org/abs/2407.19630

通过拓扑操作进行日内电网运行的模仿学习

原标题: Imitation Learning for Intra-Day Power Grid Operation through Topology Actions

作者: Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova

机构: Radboud University TenneT TSO

摘要: 由于可再生能源发电量增加，电网运行变得越来越复杂。最近一系列“学习运行电力网络”（L2RPN）竞赛鼓励使用人工智能智能体协助人类调度员操作电网。本文研究了模仿学习在日前电网运行中通过拓扑动作的表现。具体而言，我们考虑了两种基于规则的专家智能体：贪婪智能体和N-1智能体。尽管后者在计算上更昂贵，因为它考虑了N-1个安全考虑因素，但它表现出更高的运行性能。我们在专家状态-动作对上训练了一个全连接神经网络（FCNN），并以两种方式评估它。首先，我们发现尽管进行了大量超参数调整，分类准确性受到限制，这是由于类别不平衡和类别重叠。其次，作为电力系统智能体，FCNN 的表现仅略逊于专家智能体。此外，混合智能体，它们包含最少额外模拟，以显著较低的计算成本与专家智能体的表现相匹配。因此，模仿学习显示出在开发快速、高性能电网智能体方面具有潜力，这激励了在未来L2RPN研究中进一步探索的动力。

论文链接: https://arxiv.org/abs/2407.19865

指定和编辑：克服文本图像编辑中的歧义

原标题: Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing

作者: Ekaterina Iakovleva, Fabio Pizzati, Philip Torr, Stéphane Lathuilière

机构: T ´el´ecom-Paris Institut Polytechnique de Paris University of Oxford

摘要: 基于文本的编辑扩散模型在用户输入指令不明确时表现出有限的性能。为了解决这个问题，我们提出了 $\textit{Specify ANd Edit}$ （SANE），这是一个零样本推理管道，用于基于扩散的编辑系统。我们使用一个大语言模型（LLM）将输入指令分解为具体指令，即明确定义的干预措施，以应用于输入图像以满足用户的请求。我们通过一种专门为该任务设计的新型去噪引导策略，从LLM派生的指令以及原始指令中受益。我们在两个数据集上使用三个基线进行实验，证明了SANE在所有设置中的优势。此外，我们的管道提高了编辑模型的可解释性，并增加了输出的多样性。我们还证明了我们的方法可以应用于任何编辑，无论指令是否模糊。我们的代码在此https URL 上公开。

论文链接: https://arxiv.org/abs/2407.20232

Github: https://github.com/fabvio/SANE

接受还是不接受？一种IRT-TOE框架来理解高等教育中教育工作者对生成式人工智能的抵制。

原标题: To accept or not to accept? An IRT-TOE Framework to Understand Educators’ Resistance to Generative AI in Higher Education

作者: Jan-Erik Kalmus, Anastasija Nikiforova

机构:

摘要: 自 Chat Generative Pre-Trained Transformer（ChatGPT）公开发布以来，关于将生成式人工智能（GenAI）整合到教育中的潜在优势和挑战引发了广泛讨论。在信息系统领域，对技术采纳的研究对于理解影响特定技术采用的各种因素至关重要。经过几十年的完善和验证的理论框架作为指导工具，有助于阐明影响技术采纳的个体和组织动态、障碍和看法。然而，虽然提出了几种模型，但它们通常优先考虑促进接受的因素，而不是阻碍接受的因素，通常侧重于学生视角，留下了关于教育者观点的实证证据的空白。鉴于教育者在高等教育中发挥的关键作用，本研究旨在开发一个理论模型，以实证预测阻碍教育者在课堂中采用GenAI的障碍。鉴于缺乏专门用于识别此类障碍的理论模型，我们的方法基于创新阻力理论（IRT）框架，并结合了技术-组织-环境（TOE）框架的构想。该模型被转化为一种采用定量方法的测量工具，同时辅以定性方法来丰富分析，并揭示与高等教育领域中GenAI采用相关的关注点。

论文链接: https://arxiv.org/abs/2407.20130

用于预测的填补：小心递减收益

原标题: Imputation for prediction: beware of diminishing returns

作者: Marine Le Morvan (SODA), Gaël Varoquaux

机构: Soda, Inria Saclay

摘要: 在各个领域中普遍存在缺失数值，这给训练和部署预测模型带来挑战。在这种情况下，填补缺失值是一种常见做法，希望准确的填补可以提升预测效果。然而，最近的理论和实证研究表明，简单的常数填补方法可以保持一致性并具有竞争力。这项实证研究旨在澄清投资于先进填补方法何时何地会显著提升预测效果。通过在20个数据集上关联填补和预测模型的组合，我们发现：填补准确性在以下情况下影响较小：i）使用表达能力强的模型时，ii）将缺失指标作为补充输入时，iii）对于生成的线性结果比对于真实数据结果更为重要。有趣的是，我们还发现，在MCAR场景中，使用缺失指标有助于预测性能。总体而言，在使用强大模型的真实数据上，改进填补只会对预测性能产生轻微影响。因此，为了提升预测效果而投资于更好的填补方法通常效果有限。

论文链接: https://arxiv.org/abs/2407.19804

SAPG: 分割和聚合策略梯度

原标题: SAPG: Split and Aggregate Policy Gradients

作者: Jayesh Singla, Ananye Agarwal, Deepak Pathak

机构: 卡内基梅隆大学

摘要: 尽管存在极端的样本效率问题，但基于策略梯度的在线强化学习，也被称为策略梯度，已成为决策问题中的基本工具。随着GPU驱动模拟技术的最新进展，收集大量用于强化学习训练的数据的能力呈指数级增长。然而，我们发现当前的强化学习方法，如PPO，在一定程度上未能充分利用并行环境的优势，它们的性能会饱和。为了解决这个问题，我们提出了一种新的在线强化学习算法，可以通过将环境分成块并通过重要性采样将它们重新融合在一起，有效地利用大规模环境。我们的算法，称为SAPG，在各种具有挑战性的环境中表现出显著更高的性能，而普通的PPO和其他强基线方法则无法实现高性能。网站链接在这个URL：链接

论文链接: https://arxiv.org/abs/2407.20230

Github: https://sapg-rl.github.io/

利用检索增强生成的少样本学习提升语言模型中的代码翻译

原标题: Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation

作者: Manish Bhattarai, Javier E. Santos, Shawn Jones, Ayan Biswas, Boian Alexandrov, Daniel O’Malley

机构: 洛斯阿拉莫斯国家实验室

摘要: 大语言模型（LLMs）的出现显著推动了代码翻译领域的发展，实现了编程语言之间的自动翻译。然而，由于上下文理解不足，这些模型通常在复杂的翻译任务中表现不佳。本文介绍了一种通过少样本学习和检索增强技术增强代码翻译的新方法。通过利用现有代码翻译库，我们动态检索最相关的示例来指导模型翻译新的代码片段。我们基于检索增强生成（RAG）的方法通过提供上下文示例大大提高了翻译质量，使模型能够实时学习。我们选择了RAG而不是传统的微调方法，因为它能够利用现有的代码库或本地存储的代码语料库，从而在不需要进行大量重新训练的情况下实现对各种翻译任务的动态适应。在各种数据集上进行了大量实验，包括Starcoder、Llama3-70B Instruct、CodeLlama-34B Instruct、Granite-34B Code Instruct、Mixtral-8x22B等开放LLM模型，以及商业LLM模型如GPT-3.5 Turbo和GPT-4o，证明了我们的方法在传统零样本方法上的优越性，特别是在Fortran和CPP之间的翻译中。我们还探讨了在推断过程中提供的示例数量的变化，具体为1、2和3个示例，以及RAG的不同嵌入模型，包括Nomic-Embed、Starencoder和CodeBERT，以评估我们方法的鲁棒性和有效性。

论文链接: https://arxiv.org/abs/2407.19619

AxiomVision：透视感知视频分析的准确性保证自适应视觉模型选择

原标题: AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

作者: Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C.S. Lui

机构: 香港中文大学华中科技大学复旦大学

摘要: 多媒体和计算机视觉技术的快速发展需要自适应的视觉模型部署策略，以有效处理各种任务和不同环境。本文介绍了AxiomVision，这是一个新颖的框架，通过利用边缘计算动态选择最有效的视觉模型，以确保准确性，用于各种场景下的视频分析。利用分层边缘-云架构，AxiomVision实现了从轻量级到复杂的深度神经网络等广泛范围的视觉模型部署，可以根据具体场景进行定制，同时考虑摄像头来源的影响。此外，AxiomVision提供了三项核心创新：（1）利用持续在线学习的动态视觉模型选择机制，（2）一种高效的在线方法，有效考虑摄像头视角的影响，以及（3）一种基于拓扑的分组方法，加速模型选择过程。通过严格的理论保证，这些进展为多媒体系统固有的视觉任务（如目标检测、分类和计数）提供了可扩展且有效的解决方案。在经验上，AxiomVision 实现了 25.7% 的准确性提升。

论文链接: https://arxiv.org/abs/2407.20124

基于哈希的对比学习用于虚拟筛选

原标题: Hashing based Contrastive Learning for Virtual Screening

作者: Jin Han, Yun Hong, Wu-Jun Li

机构: 南京大学

摘要: 虚拟筛选（VS）是计算辅助药物发现中的关键步骤，旨在识别与特定靶点受体（如蛋白质）结合的分子。传统的虚拟筛选方法，如对接，通常对筛选大规模分子数据库耗时过长。深度学习的最新进展表明，利用对比学习为蛋白质和分子学习向量表示可以胜过传统的对接方法。然而，考虑到目标数据库通常包含数十亿分子，现有方法采用的实值向量表示仍会在虚拟筛选中产生显著的内存和时间成本。为解决这一问题，本文提出了一种基于哈希的对比学习方法，称为DrugHash，用于虚拟筛选。DrugHash将虚拟筛选视为一种利用高效二进制哈希码进行检索的任务。具体而言，DrugHash设计了一种简单而有效的哈希策略，以实现蛋白质和分子模态的二进制哈希码的端到端学习，相较于现有方法，这可以显著降低内存和时间成本，并提高准确性。实验结果表明，DrugHash能够胜过现有方法，实现最先进的准确性，节省内存32倍，速度提升3.5倍。

论文链接: https://arxiv.org/abs/2407.19790

SANGRIA：用于手术工作流预测的手术视频场景图优化

原标题: SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction

作者: Çağhan Köksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab

机构: 卡尔蔡司股份有限公司德国慕尼黑工业大学慕尼黑机器学习中心

摘要: 基于图的整体场景表示有助于手术工作流程的理解，并最近取得了显著成功。然而，这一任务通常受到手术场景数据密集标注的有限可用性的阻碍。在这项工作中，我们介绍了一个用于生成和优化手术场景图的端到端框架，以应用于下游任务。我们的方法利用基于图的谱聚类的灵活性和基础模型的泛化能力，生成具有可学习属性的无监督场景图。我们通过在连续帧之间的局部匹配中使用稀疏时间连接来加强初始空间图，以预测跨时间邻域中的时间一致的簇。通过联合优化动态场景图的时空关系和节点特征以及相位分割的下游任务，我们解决了在手术视频中仅使用弱手术阶段标签来进行语义场景理解和场景图生成的昂贵和注释繁重的任务。此外，通过在管道中结合有效的中间场景表示解缠步骤，我们的解决方案在CATARACTS数据集上的手术工作流程识别准确率和F1分数分别比SOTA高出8%和10%。

论文链接: https://arxiv.org/abs/2407.20214

退出：一种用于跨领域推荐的显式兴趣转移框架

原标题: EXIT: An EXplicit Interest Transfer Framework for Cross-Domain Recommendation

作者: Lei Huang, Weitao Li, Chenrui Zhang, Jinpeng Wang, Xianchun Yi, Sheng Chen

机构: 美团北京大学

摘要: 跨领域推荐已经引起了工业应用领域的广泛关注，比如美团，通过知识转移服务于多个业务领域，满足用户的多样化兴趣。然而，现有方法通常遵循一种隐式建模范式，将来自源领域和目标领域的知识融合在一起，并设计复杂的网络结构来共享学习到的嵌入或模式，以提高推荐准确性。由于兴趣信号的转移是无监督的，这些隐式范式通常难以应对由于不同领域的服务功能和呈现形式之间的差异而导致的负面转移。在本文中，我们提出了一个名为EXIT的简单而有效的显式兴趣转移框架，以解决上述挑战。具体而言，我们提出了一种新颖的标签组合方法，使模型能够通过监督学习直接学习有益的源领域兴趣，同时排除不适当的兴趣信号。此外，我们引入了一个场景选择器网络，以建模细粒度场景下的兴趣转移强度。在工业生产数据集上进行的离线实验和在线A/B测试验证了我们提出的框架的优越性和有效性。EXIT无需复杂的网络结构或训练过程，可以轻松部署在工业推荐系统中。EXIT已成功部署在美团App的在线主页推荐系统中，为主要流量提供服务。

论文链接: https://arxiv.org/abs/2407.20121

多模态大语言模型用于生物图像分析

原标题: Multimodal Large Language Models for Bioimage Analysis

作者: Shanghang Zhang, Gaole Dai, Tiejun Huang, Jianxu Chen

机构: 北京大学德国多特蒙德莱布尼茨分析科学研究所

摘要: 在过去的十年里，成像技术和分析方法的快速发展彻底改变了我们全面探索生物世界的能力，能够在多个尺度上准确确定生物分子的类型、数量、位置，甚至是时间动态。数据复杂性和数量的激增给将这些丰富信息转化为知识带来了重大挑战。最近出现的多模态大语言模型（MLLMs）展现出强大的新兴能力，如理解、分析、推理和泛化。凭借这些能力，MLLMs有望从通过各种模态获得的生物图像和数据中提取复杂信息，从而加快我们对生物的理解，并有助于开发新的计算框架。以往，这种能力大多归因于人类对生物图像的全面观察和分析中提取有意义结论的解读。然而，目前MLLMs的发展显示出越来越多的潜力，可以作为智能助手或代理人，辅助生物研究人员进行研究。

论文链接: https://arxiv.org/abs/2407.19778

自适应自监督鲁棒聚类用于未知聚类数量的非结构化数据

原标题: Adaptive Self-supervised Robust Clustering for Unstructured Data with Unknown Cluster Number

作者: Chen-Lu Ding, Jiancan Wu, Wei Lin, Shiyang Shen, Xiang Wang, Yancheng Yuan

摘要: 我们提出了一种新颖的自监督深度聚类方法，专为无需事先知道聚类数量的非结构化数据而设计，称为自适应自监督鲁棒聚类（ASRC）。具体而言，ASRC 自适应地学习图结构和边权重，以捕获局部和全局结构信息。所得到的图使我们能够通过增强的图自编码器和对比学习技术学习适合聚类的特征表示。它进一步利用由鲁棒连续聚类（RCC）自适应获得的聚类结果生成原型用于负采样，这有助于促进正样本之间的一致性并扩大正负样本之间的差距。ASRC通过将RCC应用于学习的特征表示以及它们一致的图结构和边权重，获得最终的聚类结果。在七个基准数据集上进行的大量实验表明了ASRC的有效性，显示其优于其他流行的聚类模型的性能。值得注意的是，ASRC甚至胜过依赖于聚类数量事先知识的方法，突显了其在解决非结构化数据聚类挑战方面的有效性。

论文链接: https://arxiv.org/abs/2407.20119

F-KANs：联邦式 Kolmogorov-Arnold 网络

原标题: F-KANs: Federated Kolmogorov-Arnold Networks

作者: Engin Zeydan, Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Marius Caus, Abdullah Aydeger

机构: 加泰罗尼亚电信技术中心（CTTC）佛罗里达理工学院

摘要: 在这篇论文中，我们提出了一种创新的联邦学习（FL）方法，利用 Kolmogorov-Arnold 网络（KANs）进行分类任务。通过在联邦框架中利用 KANs 的自适应激活能力，我们旨在提高分类能力同时保护隐私。该研究评估了联邦 KANs（F-KANs）与传统的多层感知器（MLPs）在分类任务上的性能。结果显示，F-KANs 模型在准确性、精确度、召回率、F1 分数和稳定性方面明显优于联邦 MLP 模型，并取得更好的性能，为更高效和保护隐私的预测分析铺平了道路。

论文链接: https://arxiv.org/abs/2407.20100

学习随机数以实现可附加存储系统，使人工智能在部署后获取新知识。

原标题: Learning Random Numbers to Realize Appendable Memory System for Artificial Intelligence to Acquire New Knowledge after Deployment

作者: Kazunori D Yamada

机构: 东北大学信息科学研究生院 Unprecedented-scale Data Analytics Center

摘要: 在这项研究中，我们开发了一种学习方法，用于构建一个神经网络系统，能够在没有参数更新的情况下记忆数据并进行回忆。我们使用这种方法构建的系统称为可追加记忆系统。可追加记忆系统使人工智能（AI）能够在部署后获取新知识。它由两个AI组成：记忆者和回忆者。该系统是使用神经网络构建的键-值存储。记忆者接收数据并将其存储在可追加记忆向量中，当AI获取新知识时，该向量会动态更新。与此同时，回忆者从可追加记忆向量中检索信息。在这项研究中，我们想教给AI的是记忆和回忆信息的操作。然而，传统的机器学习方法让AI学习学习数据集中固有的特征。我们展示了我们打算创建的系统无法通过当前的机器学习方法实现，也就是仅通过AI重复输入和输出学习序列。相反，我们提出了一种方法，教导AI学习操作，完全消除学习数据集中包含的特征。具体来说，我们对所有涉及学习的数据进行了概率化处理。这一措施防止了AI学习数据的特征。该研究提出的学习方法与传统的机器学习方法有所不同，并为构建一个能够在有限内存中存储信息并在以后检索信息的AI系统提供了基本方法。

论文链接: https://arxiv.org/abs/2407.20197

FiCo-ITR：连接细粒度和粗粒度图像文本检索，用于比较性能分析。

原标题: FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis

作者: Mikel Williams-Lekuona, Georgina Cosma

机构: 洛夫堡大学

摘要: 在图像-文本检索（ITR）领域，最近的进展利用了大规模视觉-语言预训练（VLP）来进行细粒度实例级检索，取得了较高的准确性，但增加了计算复杂度。对于粗粒度类别级检索，主流方法采用跨模态哈希（CMH）以提高效率，尽管会牺牲检索性能。由于方法论上的差异，文献中很少直接比较细粒度和粗粒度模型的评估结果，导致缺乏量化两者之间检索性能和效率权衡的实证数据。本文通过引入\texttt{FiCo-ITR}库来填补这一空白，该库标准化了对细粒度和粗粒度模型的评估方法，便于直接比较。我们对两个子领域的代表性模型进行了实证评估，分析了在不同数据规模下的精度、召回率和计算复杂度。我们的研究结果为最近代表性的细粒度和粗粒度模型之间的性能-效率权衡提供了新的见解，突出了它们各自的优势和局限性。这些发现为针对特定检索任务进行模型选择提供了必要的基础，并突出了未来研究混合系统的可能性，这些系统利用了细粒度和粗粒度方法的优势。

论文链接: https://arxiv.org/abs/2407.20114

释放省略号的力量：具有指数噪声的增强准确性稀疏向量技术

原标题: Unleash the Power of Ellipsis: Accuracy-enhanced Sparse Vector Technique with Exponential Noise

作者: Yuhan Liu, Sheng Wang, Yixuan Liu, Feifei Li, Hong Chen

机构: 中国人民大学阿里巴巴集团

摘要: 稀疏向量技术（SVT）是差分隐私（DP）中最基本的工具之一。它通过回答给定数据集上的一系列查询，以隐私保护的方式获取有用信息，为自适应数据分析提供支持。与直接公开带有噪声的查询结果的典型私有查询发布不同，SVT 的信息量较少 – 它将带有噪声的查询结果保留，并仅为每个查询揭示一个二进制位，指示查询结果是否超过预定义的阈值。为了为 SVT 提供严格的差分隐私保证，文献中的先前研究采用了一种保守的隐私分析，假设像典型私有查询发布中那样直接披露带有噪声的查询结果。然而，这种方法阻碍了 SVT 实现更高的查询准确性，因为它过高估计了隐私风险，进而导致使用拉普拉斯或高斯噪声进行扰动注入过多噪声。受此启发，我们通过考虑其信息量较少的特性为 SVT 提供了新的隐私分析。我们的分析结果不仅扩大了适用于 SVT 中扰动的噪声类型范围，还确定了指数噪声作为所有评估噪声中的最佳选择（然而，在先前的研究中通常被认为不适用）。将指数噪声应用于 SVT 的主要挑战在于减轻噪声分布引入的偏差导致的次优性能。为了解决这个问题，我们开发了一种面向效用的最佳阈值校正方法和一个附加策略，通过分别增加精度和召回率来提高 SVT 的性能。我们提出的方法的有效性在理论上和实证上得到了证实，显示出在评估指标上高达 50% 的显著改进。

论文链接: https://arxiv.org/abs/2407.20068

Diffusion-DICE：样本内扩散引导的离线强化学习

原标题: Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

作者: Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan, Amy Zhang

机构: 上海交通大学德克萨斯大学奥斯汀分校清华大学

摘要: DIstribution Correction Estimation（DICE）方法的一个重要特性是，其解决方案是优化和数据收集策略之间的最佳稳态分布比率。在这项工作中，我们展示了基于DICE的方法可以被视为从行为分布到最优策略分布的转换。基于此，我们提出了一种新颖的方法，Diffusion-DICE，它直接使用扩散模型执行这种转换。我们发现最优策略的得分函数可以分解为两项：行为策略的得分函数和一个取决于最优分布比率的引导项的梯度。第一项可以从在数据集上训练的扩散模型中获得，我们提出了一个样本内学习目标来学习第二项。由于最优策略分布中包含多模态，Diffusion-DICE中的转换可能会指导朝向这些局部最优模式。因此，我们生成了少量候选动作，并从中谨慎选择以接近全局最优。与所有其他基于扩散的离线RL方法不同，Diffusion-DICE中的引导-选择范式仅使用样本内动作进行训练，并在值函数中带来最小的误差利用。我们使用一个教学案例示例来展示以前基于扩散的方法由于利用这些错误而无法生成最优动作，以及Diffusion-DICE如何成功避免这种情况。然后，我们在基准数据集上进行了大量实验，展示了Diffusion-DICE的强大性能。

论文链接: https://arxiv.org/abs/2407.20109

Yucca：用于医学图像分析的深度学习框架

原标题: Yucca: A Deep Learning Framework For Medical Image Analysis

作者: Sebastian Nørgaard Llambias, Julia Machnio, Asbjørn Munk, Jakob Ambsdorf, Mads Nielsen, Mostafa Mehdipour Ghazi

机构: 哥本哈根大学皮奥尼尔人工智能中心

摘要: 使用深度学习框架进行医学图像分析已经通过自动化复杂任务推动了医疗保健的发展，但许多现有框架缺乏灵活性、模块化和用户友好性。为了解决这些挑战，我们介绍了 Yucca，这是一个开源的 AI 框架，专为医学图像应用而设计，基于 PyTorch 和 PyTorch Lightning 构建。Yucca具有三层架构：功能、模块和流水线，提供了全面且可定制的解决方案。在脑微出血检测、白质高信号区分割和海马分割等多样任务中进行评估，Yucca取得了最先进的结果，展示了其稳健性和多功能性。Yucca为医学图像分析提供了强大、灵活和用户友好的平台，欢迎社区贡献以推动其能力和影响力的发展。

论文链接: https://arxiv.org/abs/2407.19888

Github: https://github.com/Sllambias/yucca

xAI-Drop: 不要使用你无法解释的东西

原标题: xAI-Drop: Don’t Use What You Cannot Explain

作者: Vincenzo Marco De Luca, Antonio Longa, Andrea Passerini, Pietro Liò

机构: 特伦托大学剑桥大学

摘要: 图神经网络（GNNs）已成为从图结构数据中学习的主要范式，提供了从社交网络分析到生物信息学等广泛的应用。尽管它们具有多样性，但GNNs面临着过度平滑、缺乏泛化和解释性差等挑战，这些挑战阻碍了它们在关键应用中的更广泛采用和可靠性。Dropping已成为减少训练过程中噪音并提高GNNs鲁棒性的有效范式。然而，现有方法通常依赖于随机或基于启发式的选择标准，缺乏一种原则性方法来识别和排除在模型中引起噪音和过度复杂性的节点。在这项工作中，我们认为解释性应该是模型在整个训练阶段鲁棒性的关键指标。为此，我们引入了xAI-Drop，一种新颖的基于拓扑级别的Dropping正则化器，利用解释性来准确定位应该从GNN传播机制中排除的嘈杂网络元素。对多样的真实世界数据集进行的实证评估表明，我们的方法在准确性上优于当前最先进的Dropping方法，有效减少了过度平滑，并提高了解释质量。

论文链接: https://arxiv.org/abs/2407.20067

在心脏磁共振成像中直接从 k 空间进行分类、回归和分割

原标题: Classification, Regression and Segmentation directly from k-Space in Cardiac MRI

作者: Ruochen Li, Jiazhen Pan, Youxiang Zhu, Juncheng Ni, Daniel Rueckert

机构: 慕尼黑工业大学德国马萨诸塞大学波士顿分校美国伦敦帝国学院生物医学影像分析实验室英国

摘要: 心脏磁共振成像（CMR）是诊断心血管疾病的金标准。临床诊断主要依赖于仅包含幅度信息的数字成像和通信医学（DICOM）图像，省略了可能提供额外诊断益处的关键相位信息。相比之下，k-空间是复值的，包含幅度和相位信息，而人类无法直接感知。在这项工作中，我们提出了KMAE，这是一种基于Transformer的模型，专门设计用于直接处理k-空间数据，消除了传统的中间转换步骤到图像域的需求。KMAE可以处理关键的心脏疾病分类、相关表型回归和心脏形态分割任务。我们利用这个模型来探讨基于k-空间的心脏磁共振诊断的潜力。值得注意的是，与图像域方法（如掩蔽自动编码器（MAEs））相比，这个模型在分类和回归性能上取得了竞争力，并且在心肌分割性能方面表现出令人满意的表现，心肌Dice分数为0.884。最后但并非最不重要的是，我们的模型展现出了强大的性能，即使k-空间被8倍欠采样，也能获得一致的结果。我们鼓励磁共振社区探索k-空间的潜力，并追求减少人为干预的端到端自动诊断。

论文链接: https://arxiv.org/abs/2407.20108

异常状态序列建模以增强强化学习中的安全性

原标题: Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning

作者: Leen Kweider, Maissa Abou Kassem, Ubai Sandouk

机构: 大马士革大学达马斯库斯大学达马斯库斯大学

摘要: 在决策应用中部署人工智能（AI）需要确保适当的安全性和可靠性水平，特别是在包含大量未知观察结果的不断变化的环境中。为了解决这一挑战，我们提出了一种新颖的安全强化学习（RL）方法，该方法利用异常状态序列来增强RL的安全性。我们提出的解决方案安全强化学习与异常状态序列（AnoSeqs）包括两个阶段。首先，在一个非安全关键的离线“源”环境中训练一个智能体以收集安全状态序列。接下来，我们使用这些安全序列构建一个异常检测模型，该模型可以检测在“目标”安全关键环境中可能不安全的状态序列，其中故障可能带来高昂的成本。从异常检测模型中估计的风险被用来训练目标环境中的风险回避RL策略；这涉及调整奖励函数，以惩罚智能体访问被我们的异常模型视为不安全的异常状态。在包括自动驾驶汽车在内的多个安全关键基准环境中的实验中，我们的解决方案成功学习到了更安全的策略，并证明了顺序异常检测可以为训练具有安全意识的RL智能体提供有效的监督信号。

论文链接: https://arxiv.org/abs/2407.19860

SalNAS：具有自知识蒸馏的高效显著性预测神经架构搜索

原标题: SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation

作者: Chakkrit Termritthikun, Ayaz Umer, Suwichaya Suwanwimolkul, Feng Xia, Ivan Lee

机构: 南澳大学朱拉隆功大学 RMIT大学

摘要: 最近深度卷积神经网络的进展显著提高了显著性预测的性能。然而，神经网络架构的手动配置需要领域知识专长，仍然可能耗时且容易出错。为了解决这个问题，我们提出了一个新的用于显著性预测的神经架构搜索（NAS）框架，具有两个贡献。首先，通过在超网络中集成一个动态卷积到编码器-解码器中，构建了一个用于显著性预测的超网络，其中包含所有候选架构的权重共享网络，称为SalNAS。其次，尽管SalNAS非常高效（2098万参数），但可能缺乏泛化能力。为了解决这个问题，我们提出了一种自知识蒸馏方法，称为Self-KD，它通过训练学生SalNAS使用来自教师模型的地面真实和预测之间的加权平均信息。教师模型，虽然具有相同的架构，但包含通过交叉验证选择的表现最佳的权重。Self-KD可以很好地泛化，而无需在教师模型中计算梯度，从而实现高效的训练系统。通过利用Self-KD，SalNAS在七个基准数据集上的大多数评估指标中优于其他最先进的显著性预测模型，同时又是一个轻量级模型。代码将在此https网址上提供。

论文链接: https://arxiv.org/abs/2407.20062

Github: https://github.com/chakkritte/SalNAS

多尺度表示增强的时间流融合模型用于长期工作量预测

原标题: Multiscale Representation Enhanced Temporal Flow Fusion Model for Long-Term Workload Forecasting

作者: Shiyu Wang, Zhixuan Chu, Yinbo Sun, Yu Liu, Yuliang Guo, Yang Chen, Huiyang Jian, Lintao Ma, Xingyu Lu, Jun Zhou

机构: 蚂蚁集团浙江大学

摘要: 在云计算系统中，准确的工作负载预测对于高效的资源管理至关重要，可以实现有效的调度和自动扩展。尽管基于Transformer的预测模型取得了一些进展，但由于工作负载时间序列的非平稳、非线性特性以及长期依赖性，仍然存在挑战。特别是，长期历史和近期预测之间性能不一致会阻碍长期预测。本文提出了一种新颖的框架，利用自监督多尺度表示学习来捕捉长期和近期工作负载模式。长期历史通过多尺度表示进行编码，而近期观察则通过时间流融合进行建模。这些不同尺度的表示使用注意机制进行融合，并利用归一化流来处理时间序列的非高斯/非线性分布。对9个基准数据集的大量实验证明了该方法优于现有方法。

论文链接: https://arxiv.org/abs/2407.19697

RelBench：一个用于关系数据库上深度学习的基准测试

原标题: RelBench: A Benchmark for Deep Learning on Relational Databases

作者: Joshua Robinson, Rishabh Ranjan, Weihua Hu, Kexin Huang, Jiaqi Han, Alejandro Dobles, Matthias Fey, Jan E. Lenssen, Yiwen Yuan, Zecheng Zhang, Xinwei He, Jure Leskovec

机构: 斯坦福大学 Kumo.AI 马克斯·普朗克信息学研究所

摘要: 我们提出了RelBench，这是一个用于利用图神经网络解决关系数据库中预测任务的公共基准。RelBench提供了跨越不同领域和规模的数据库和任务，并旨在成为未来研究的基础设施。我们使用RelBench进行了对关系深度学习（RDL）（Fey等，2024年）的首次全面研究，该方法将图神经网络预测模型与（深度）表格模型结合起来，从原始表格中提取初始实体级表示。端到端学习的RDL模型充分利用了主外键链接中编码的预测信号，标志着从手动特征工程结合表格模型的主导范式中显著转变。为了彻底评估RDL与先前的金标准，我们进行了一项深入的用户研究，其中一位经验丰富的数据科学家为每个任务手动工程化特征。在这项研究中，RDL学习到了更好的模型，同时将人工工作量减少了一个数量级以上。这展示了深度学习在解决关系数据库中预测任务方面的能力，为通过RelBench实现的许多新研究机会打开了大门。

论文链接: https://arxiv.org/abs/2407.20060

重新审视事后解释方法的稳健性

原标题: Revisiting the robustness of post-hoc interpretability methods

作者: Jiawen Wei, Hugues Turbé, Gianmarco Mengaldo

机构: 新加坡国立大学瑞士日内瓦大学

摘要: 事后解释性方法在可解释人工智能（XAI）中扮演关键角色，因为它们能够确定训练深度学习模型认为对做出决策重要的数据部分。然而，不同的事后解释性方法通常会提供不同的结果，对它们的准确性产生怀疑。因此，已经提出了几种评估策略来了解事后解释性的准确性。许多这些评估策略提供了粗粒度评估，即评估通过破坏多个样本中的不同数据点来平均降低模型性能。虽然这些策略在选择平均上最可靠的事后解释性方法方面是有效的，但它们未能提供样本级别的、也称为细粒度的评估。换句话说，它们没有衡量事后解释性方法的稳健性。我们提出了一种方法和两个新的度量标准，以提供对事后解释性方法的细粒度评估。我们表明，稳健性通常与其粗粒度性能相关联。

论文链接: https://arxiv.org/abs/2407.19683

MimiQ：视觉Transformer的低比特无数据量化

原标题: MimiQ: Low-Bit Data-Free Quantization of Vision Transformers

作者: Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jinho Lee

机构: 首尔国立大学谷歌 KAIST

摘要: 无数据量化（DFQ）是一种技术，它通过合成数据集从完整精度的网络中创建一个轻量级网络，而无需原始训练数据。尽管已经提出了几种用于视觉Transformer（ViT）架构的DFQ方法，但它们在低比特设置下未能取得有效性。通过检查现有方法，我们发现它们的合成数据产生了不对齐的注意力图，而真实样本的注意力图高度对齐。通过观察对齐的注意力，我们发现对齐合成数据的注意力图有助于提高量化ViTs的整体性能。受到这一发现的启发，我们设计了一种新颖的DFQ方法\aname，专为ViTs而设计，重点关注头部注意力的相似性。首先，我们通过将空间查询补丁与头部注意力响应对齐来生成合成数据。然后，我们应用头部结构注意力蒸馏，将量化网络的注意力图与完整精度教师的注意力图对齐。实验结果表明，所提出的方法明显优于基线，为无数据量化的ViT设定了新的最先进性能水平。

论文链接: https://arxiv.org/abs/2407.20021

运动流形流原语用于语言引导的轨迹生成

原标题: Motion Manifold Flow Primitives for Language-Guided Trajectory Generation

作者: Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park

机构: 韩国高等研究院（KIAS）首尔国立大学

摘要: 开发基于文本的机器人轨迹生成模型在小数据集大小、轨迹空间的高维度以及文本条件下运动分布的固有复杂性等方面变得特别困难。最近基于流形学习的方法在一定程度上解决了维度和数据集大小的问题，但在处理复杂的文本条件分布时仍然困难重重。本文提出了一种基于文本的轨迹生成模型，试图解决这三个挑战，同时仅依赖少量演示轨迹数据。我们的关键思想是利用最近能够捕获复杂条件分布的基于流的模型，不是直接在高维轨迹空间中，而是在运动流形的低维潜在坐标空间中，通过精心设计的正则化项来确保运动的平滑性和对文本变化的稳健性。我们展示了我们的“运动流形流原语（MMFP）”框架能够准确地为各种文本输入生成质量上不同的运动，明显优于现有方法。

论文链接: https://arxiv.org/abs/2407.19681

利用偏好优化的生成式检索在电子商务搜索中的应用

原标题: Generative Retrieval with Preference Optimization for E-commerce Search

作者: Mingming Li, Huimu Wang, Zuxu Chen, Guangtao Nie, Yiming Qiu, Binbin Wang, Guoyu Tang, Lin Liu, Jingwei Zhuo

机构: 京东、清华大学深圳国际研究生院

摘要: 生成式检索引入了一种开创性的文档检索范式，通过直接生成与特定查询相应的相关文档标识符。这种范式在大语言模型的背景下展示了相当大的益处和潜力，特别是在表示和泛化能力方面。然而，在电子商务搜索场景中，它面临着重大挑战，包括从简短查询中生成详细商品标题的复杂性，商品标题中存在语言顺序较弱的噪声，长尾查询问题以及结果的可解释性。为了解决这些挑战，我们开发了一种名为“具有偏好优化的生成式检索”的电子商务搜索创新框架。该框架旨在有效地学习和对齐自回归模型与目标数据，随后通过基于约束的束搜索生成最终商品。通过使用多跨度标识符来表示原始商品标题，并将从查询生成标题的任务转化为从查询生成多跨度标识符的任务，我们旨在简化生成过程。该框架进一步通过点击数据对齐人类偏好，并采用约束搜索方法识别用于检索最终商品的关键跨度，从而提高结果的可解释性。我们广泛的实验表明，该框架在真实数据集上取得了竞争性能，并在线A/B测试证明了其在提高转化增益方面的优越性和有效性。

论文链接: https://arxiv.org/abs/2407.19829

在农业中利用大视觉和语言模型：一项综述

原标题: Harnessing Large Vision and Language Models in Agriculture: A Review

作者: Hongyan Zhu, Shuai Qin, Min Su, Chengzhi Lin, Anjie Li, Junfeng Gao

机构: 广西师范大学中国英国阿伯丁大学

摘要: 大模型在许多领域中扮演着重要角色。农业是影响全球人民生活的另一个关键因素。它为人类提供食物、纺织品和煤炭。然而，面临诸多挑战，如害虫和疾病、土壤退化、全球变暖和粮食安全，如何稳定增加农业产量仍然是人类需要解决的问题。大模型可以帮助农民通过检测一系列农业生产任务，如害虫和疾病、土壤质量和种子质量，提高生产效率和收成。它还可以通过各种信息，如图像、文本等，帮助农民做出明智的决策。在此，我们深入探讨了大模型在农业中的潜在应用，从大语言模型（LLM）和大视觉模型（LVM）到大视觉语言模型（LVLM）。在深入了解多模态大语言模型（MLLM）之后，可以认识到诸如农业图像处理、农业问答系统和农业机械自动化等问题都可以通过大模型解决。大模型在农业领域有着巨大潜力。我们概述了农业大模型的当前应用，并旨在强调大模型在农业领域的重要性。最终，我们展望一个未来，在那里农民使用MLLM来完成农业中的许多任务，这将极大地提高农业生产效率和产量。

论文链接: https://arxiv.org/abs/2407.19679

“ITI-GEN: 包容性文本到图像生成” 的可重现性研究

原标题: Reproducibility Study of “ITI-GEN: Inclusive Text-to-Image Generation”

作者: Daniel Gallo Fernández, Răzvan-Andrei Matisan, Alejandro Monroy Muñoz, Janusz Partyka

机构: 阿姆斯特丹大学

摘要: 文本到图像生成模型通常在涉及某些敏感属性（如性别或肤色）的公平性方面存在问题。本研究旨在复现张等人（2023a）在“ITI-GEN: 全面文本到图像生成”中提出的结果，该研究介绍了一种改善这类模型包容性的模型。我们展示了作者关于ITI-GEN的大部分声明是成立的：它提高了生成图像的多样性和质量，可扩展到不同领域，具有即插即用的能力，并且从计算角度高效。然而，ITI-GEN有时会将不希望的属性用作代理特征，并且无法分解一些（相关的）属性对，如性别和秃头。此外，当考虑的属性数量增加时，训练时间呈指数增长，ITI-GEN难以为联合分布中的所有元素生成包容性图像。为了解决这些问题，我们提出使用带有负提示的Hard Prompt Search，这是一种无需训练且比普通Hard Prompt Search更好地处理否定的方法。然而，Hard Prompt Search（无论是否带有负提示）无法用于难以用自然语言表达的连续属性，而在这方面，ITI-GEN表现出色，因为在训练过程中受到图像的指导。最后，我们提出将ITI-GEN和带有负提示的Hard Prompt Search相结合。

论文链接: https://arxiv.org/abs/2407.19996

嵌套专家混合：视觉 Token 的自适应处理

原标题: Mixture of Nested Experts: Adaptive Processing of Visual Tokens

作者: Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul

机构: 谷歌DeepMind、华盛顿大学

摘要: 视觉媒体（图像和视频）自然包含大量信息冗余，因此提供了在处理中提高效率的绝佳机会。虽然基于 Vision Transformer（ViT）的模型在大数据情境下有效扩展，但它们未能充分利用这种固有的冗余，导致更高的计算成本。专家混合（MoE）网络展示了可扩展性，同时保持相同的推理时间成本，但它们具有更大的参数占用量。我们提出了嵌套专家混合（MoNE），它利用专家的嵌套结构，其中各个专家落在逐渐增加的计算-准确性曲线上。在给定计算预算的情况下，MoNE 学会动态选择优先顺序中的标记，因此冗余标记通过更便宜的嵌套专家进行处理。使用这一框架，我们实现了与基线模型相当的性能，同时将推理时间计算减少了一倍以上。我们在标准图像和视频数据集（ImageNet-21K、Kinetics400 和 Something-Something-v2）上验证了我们的方法。我们进一步突出 MoNE 的适应性，展示了它在视频上在不同推理时间计算预算下保持强大性能的能力，仅使用单个训练模型。

论文链接: https://arxiv.org/abs/2407.19985

城市交通事故风险预测再探讨：区域性、邻近性、相似性和稀疏性

原标题: Urban Traffic Accident Risk Prediction Revisited: Regionality, Proximity, Similarity and Sparsity

作者: Minxiao Chen, Haitao Yuan, Nan Jiang, Zhifeng Bao, Shangguang Wang

机构: 北京邮电大学南洋理工大学皇家墨尔本理工大学

摘要: 交通事故对人类健康和财产安全构成重大风险。因此，为了预防交通事故，预测其风险引起了越来越多的关注。我们认为，一个理想的预测解决方案应该表现出对交通事故复杂性的韧性。特别是，它应充分考虑区域背景，准确捕捉空间接近性和语义相似性，并有效解决交通事故的稀疏性。然而，这些因素经常被忽视或难以整合。在本文中，我们提出了一种新颖的多粒度分层时空网络。首先，我们通过整合遥感数据进行创新，促进了多粒度层次结构的创建和对区域背景的理解。我们构建了多个高级风险预测任务，以增强模型应对稀疏性的能力。随后，为了捕捉空间接近性和语义相似性，区域特征和多视图图经历编码过程以提炼有效的表示。此外，我们提出了消息传递和自适应时间注意模块，用于连接不同粒度并动态捕捉交通事故模式中固有的时间相关性。最后，设计了一个多变量分层损失函数，考虑了预测目的的复杂性。对两个真实数据集的大量实验证实了我们模型相对于最先进方法的优越性。

论文链接: https://arxiv.org/abs/2407.19668

我可以相信我的异常检测系统吗？基于可解释人工智能的案例研究

原标题: Can I trust my anomaly detection system? A case study based on explainable AI

作者: Muhammad Rashid, Elvio Amparore, Enrico Ferrari, Damiano Verda

机构: 都灵大学利用可解释人工智能的案例研究
Rulex创新实验室

摘要: 基于变分自动编码器的生成模型是在半监督环境中检测图像异常的流行技术。一种常见的方法是利用异常分数来检测异常的存在，并且已知在基准数据集上能够达到很高的准确性水平。然而，由于异常分数是根据重建差异计算的，它们经常会掩盖对各种虚假特征的检测，引发对其实际功效的担忧。本案例研究通过可解释人工智能方法探讨基于变分自动编码器生成模型的异常检测系统的稳健性。旨在从不同角度了解使用重建差异的异常检测器的实际性能。在我们的案例研究中，我们发现，在许多情况下，样本被检测为异常是因为错误或具有误导性的因素。

论文链接: https://arxiv.org/abs/2407.19951

在移动设备上实现DNN加速的非对齐块级剪枝

原标题: Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices

作者: Hayun Lee, Dongkun Shin

机构: 韩国成块大学

摘要: 随着设备上人工智能的日益普及，需要在移动设备上直接运行计算密集型深度神经网络。然而，这些设备的有限计算和内存资源需要有效的剪枝技术。基于块的剪枝由于在准确性下降和加速增益之间具有低的权衡，因此具有潜在前景，但需要块位置与块大小对齐，从而阻碍了最小化模型准确性下降的最佳位置选择。不对齐的块剪枝（UBP）通过允许在任意位置选择块来解决这个问题，但其实际应用受到耗时的最佳块选择算法和缺乏高效推断核的限制。在本文中，我们提出了一种名为块扩展和分割（BED）的伪最优但快速的块选择算法，可以集成到迭代模型训练过程中。此外，我们引入了一种适用于移动设备的高效推断核实现，使得基于UBP的模型能够实现与通过对齐块剪枝压缩的DNN模型相似的延迟。我们在一部真实移动电话上使用MobileNet和ResNet模型展示了我们技术的优越性。

论文链接: https://arxiv.org/abs/2407.19644

利用视觉MLP架构生成的合成热像和RGB视频进行自动疼痛评估

原标题: Synthetic Thermal and RGB Videos for Automatic Pain Assessment utilizing a Vision-MLP Architecture

作者: Stefanos Gkikas, Manolis Tsiknakis

机构: 希腊地中海大学洪堡利昂校区

摘要: 疼痛评估对于制定最佳疼痛管理方案以减轻痛苦、预防患者功能下降至关重要。因此，可靠准确的自动疼痛评估系统对于持续有效的患者监测至关重要。本研究提出了由生成对抗网络生成的合成热视频，融入疼痛识别流程并评估其有效性。采用由视觉-MLP和基于Transformer的模块组成的框架，在单模态和多模态设置中使用RGB和合成热视频。在来自BioVid数据库的面部视频上进行的实验表明了合成热视频的有效性，并强调了其潜在优势。

论文链接: https://arxiv.org/abs/2407.19811

通过多跳特征质量估计实现抗噪声无监督图表示学习

原标题: Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation

作者: Shiyuan Li, Yixin Liu, Qingfeng Chen, Geoffrey I. Webb, Shirui Pan

机构: 广西大学澳大利亚格里菲斯大学莫纳什大学

摘要: 基于图神经网络（GNNs）的无监督图表示学习（UGRL）因其在处理图结构数据方面的高效性而受到越来越多的关注。然而，现有的UGRL方法理想地假设节点特征是无噪声的，这使它们在应用于具有嘈杂特征的真实数据时无法区分有用信息和噪声，从而影响了学习表示的质量。这促使我们考虑在现实世界的UGRL中考虑节点嘈杂特征。通过实证分析，我们揭示了特征传播在处理嘈杂特征时的关键操作——它既可以去噪又可以扩散噪声，导致节点之间甚至同一节点在不同跳数下的特征质量变化。基于这一洞见，我们提出了一种基于多跳特征质量估计（简称MQE）的新型UGRL方法。与大多数直接利用基于传播的GNN生成表示的UGRL模型不同，我们的方法旨在通过估计不同跳数下传播特征的质量来学习表示。具体而言，我们引入了一个高斯模型，该模型利用可学习的“元表示”作为条件，通过神经网络估计多跳传播特征的期望和方差。这样，“元表示”捕获了潜在的多个传播特征之间的语义和结构信息，但自然不太容易受到噪声的干扰，从而作为有益于下游任务的高质量节点表示。对多个真实数据集的广泛实验表明，MQE在学习可靠节点表示方面表现出色，适用于具有不同类型特征噪声的场景。

论文链接: https://arxiv.org/abs/2407.19944

Twins-PainViT: 旨在实现一种模态不可知的Transformer视觉框架，用于使用面部视频和fNIRS进行多模态自动疼痛评估

原标题: Twins-PainViT: Towards a Modality-Agnostic Vision Transformer Framework for Multimodal Automatic Pain Assessment using Facial Videos and fNIRS

作者: Stefanos Gkikas, Manolis Tsiknakis

机构: 希腊地中海大学

摘要: 自动疼痛评估在推动医疗保健和优化疼痛管理策略方面发挥着关键作用。这项研究已提交给第一届多模态感知大挑战赛，用于下一代疼痛评估（AI4PAIN）。所提出的多模态框架利用面部视频和fNIRS，并提出了一种模态无关的方法，减轻了对特定领域模型的需求。采用双ViT配置，并采用波形表示fNIRS，以及从两种模态提取的嵌入，展示了所提出方法的有效性，在多级疼痛评估任务中实现了46.76%的准确率。

论文链接: https://arxiv.org/abs/2407.19809

在3D医学图像中的稳健的符合体积估计

原标题: Robust Conformal Volume Estimation in 3D Medical Images

作者: Benjamin Lambert, Florence Forbes, Senan Doyle, Michel Dojat

机构: 格勒诺布尔阿尔卑斯大学法国国家医学研究所法国国家科学研究中心国立格勒诺布尔理工学院 LJK 实里亚研究所 Pixyl 研发实验室

摘要: 体积测量是三维医学图像分割的主要下游应用之一，例如用于检测异常组织生长或手术规划。符合性预测是一种有前途的不确定性量化框架，提供与自动体积测量相关的校准预测区间。然而，这种方法基于一个假设，即校准和测试样本是可交换的，这一假设在实践中在医学图像应用中经常被违反。可以构建符合性预测的加权公式来缓解这个问题，但在医学领域中对其进行的实证研究仍然不足。一个潜在的原因是，它依赖于校准和测试分布之间的密度比率的估计，在涉及高维数据的情况下，这种估计可能难以处理。为了规避这一问题，我们提出了一种依赖于分割模型生成的压缩潜在表示的密度比率估计的高效方法。我们的实验表明，我们的方法在合成和真实环境中都能有效减少在协变量转移存在时的覆盖误差。我们的实现可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.19938

Github: https://github.com/benolmbrt/wcp_miccai

AOTree：可解释推荐的Aspect Order Tree-based模型

原标题: AOTree: Aspect Order Tree-based Model for Explainable Recommendation

作者: Wenxin Zhao, Peng Zhang, Hansu Gu, Dongsheng Li, Tun Lu, Ning Gu

机构: 复旦大学微软亚洲研究院 Seattle

摘要: 最近的推荐系统旨在提供不仅准确的推荐，还有帮助用户更好理解推荐的解释。然而，大多数现有的可解释推荐仅考虑评论中内容的重要性，如单词或方面，而忽略它们之间的顺序关系。这种疏忽忽略了人类决策过程中关键的顺序维度，导致性能不佳。因此，在本文中，我们提出了基于Aspect Order Tree（AOTree）的可解释推荐方法，灵感来自认知和决策心理学中的Order Effects Theory，以捕捉决定性因素之间的依赖关系。我们首先通过分析用户的评论验证了这一理论在推荐场景中的有效性。然后，根据该理论，所提出的AOTree扩展了决策树的构建，以捕捉用户决策过程中的方面顺序，并利用注意机制根据方面顺序进行预测。大量实验证明了我们的方法在评分预测方面的有效性，我们的方法通过以特定顺序显示解释，更一致地与用户的决策过程相一致，从而增强了可解释性。

论文链接: https://arxiv.org/abs/2407.19937

调查和分类：数据中心人工智能在基于Transformer的时间序列预测中的作用

原标题: Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting

作者: Jingjing Xu, Caesar Wu, Yuan-Fang Li, Gregoire Danoy, Pascal Bouvry

机构: 卢森堡大学澳大利亚莫纳什大学

摘要: 除了持续改进人工智能性能的过程通过开发更复杂的模型，研究人员也开始关注新兴概念数据中心的人工智能，强调数据在系统化机器学习训练过程中的重要作用。然而，模型的发展也在不断进行。这一进展的结果之一是Transformer架构的发展，它在自然语言处理（NLP）、计算机视觉（CV）和时间序列预测（TSF）等多个领域具有高水平的能力。然而，它的性能在很大程度上取决于输入数据的预处理和输出数据的评估，这证明了未来研究需要采取数据中心的方法。我们认为，数据中心的人工智能对于高效训练人工智能模型至关重要，特别是基于Transformer的TSF模型。然而，在Transformer的TSF和数据中心人工智能的整合方面存在差距。本调查旨在通过基于提出的分类法的广泛文献综述来确定这一差距。我们从数据中心的人工智能视角审查以前的研究工作，我们打算为未来基于Transformer架构和数据中心人工智能的发展奠定基础。

论文链接: https://arxiv.org/abs/2407.19784

通过状态空间转换实现高效的屏蔽合成

原标题: Efficient Shield Synthesis via State-Space Transformation

作者: Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling

机构: 奥尔堡大学

摘要: 我们考虑合成控制系统的安全策略的问题，也称为防护。由于状态空间是无限的，防护通常是在有限状态抽象上计算的，最常见的抽象是矩形网格。然而，对于许多系统，这样的网格与安全属性或系统动态不太匹配。这就是为什么粗网格很少足够，但通常很难获得细网格的计算。在本文中，我们展示适当的状态空间转换仍然可以允许在几乎没有计算开销的情况下使用粗网格。我们在三个案例研究中展示，我们基于转换的合成优于标准合成数个数量级。在前两个案例研究中，我们使用领域知识选择合适的转换。在第三个案例研究中，我们报告了在没有领域知识的情况下工程转换的结果。

论文链接: https://arxiv.org/abs/2407.19911

逆地图投影作为等变量量嵌入

原标题: Reverse Map Projections as Equivariant Quantum Embeddings

作者: Max Arnott, Dimitri Papaioannou, Kieran McDowall

机构: Zaiku Group Ltd. Tecacet Inc. National Quantum Computing Centre

摘要: 我们引入了新颖的逆映射投影嵌入类 $(E_\alpha)_{\alpha \in [-\infty,1)}$ ，每个嵌入定义了一种将经典数据编码为量子态的独特方法。受到从单位球面到其切平面的众所周知的地图投影的启发，这些嵌入解决了幅度嵌入方法的常见缺点，其中数据点的标量倍数被识别，导致数据范数的信息丢失。
我们展示了如何利用逆映射投影作为量子机器学习中的等变嵌入。利用这些方法，我们可以利用经典数据集中的对称性，显著增强量子机器学习任务的性能。
最后，我们选择四个 $\alpha$ 值来执行一个简单的分类任务，以 $E_\alpha$ 作为嵌入，并尝试使用等变和非等变设置进行实验。我们将它们的结果与标准幅度嵌入的结果进行比较。

论文链接: https://arxiv.org/abs/2407.19906

Rina：在分布式模型训练中通过网络内聚合增强Ring-AllReduce

原标题: Rina: Enhancing Ring-AllReduce with In-network Aggregation in Distributed Model Training

作者: Zixuan Chen, Xuandong Liu, Minglin Li, Yinfan Hu, Hao Mei, Huifeng Xing, Hao Wang, Wanxin Shi, Sen Liu, Yang Xu

机构: 复旦大学深圳鹏城实验室

摘要: 参数服务器（PS）和环形全局归约（RAR）是多工人深度学习（DL）中广泛使用的两种同步架构，也被称为分布式深度学习（DDL）。然而，PS在“incast”问题上遇到挑战，而RAR则在长依赖链引起的问题上遇到困难。新兴的网络内聚合（INA）已被提出，用于与PS集成以减轻其incast问题。然而，基于PS的INA具有较差的增量部署能力，因为它需要替换所有交换机才能显示出显著的性能改进，这是不划算的。在这项研究中，我们提出了将INA功能整合到RAR中，称为具有网络内聚合的RAR（Rina），以解决上述两个问题。Rina具有其代理-工人机制。当部署了支持INA的ToR交换机时，该机架中的所有工人都将作为一个抽象工人运行，借助代理的帮助，从而实现出色的增量部署能力和更好的吞吐量。我们进行了广泛的实验台和模拟评估，以证实Rina相对于现有DDL训练同步结构的吞吐量优势。与最先进的基于PS的INA方法ATP相比，Rina在相同硬件成本下可以实现超过50%的吞吐量。

论文链接: https://arxiv.org/abs/2407.19721

通过具有结构嵌入的大语言模型进行实用且可复现的符号音乐生成

原标题: Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings

作者: Seungyeon Rhyu, Kichang Yang, Sungjun Cho, Jaehyeon Kim, Kyogu Lee, Moontae Lee

机构: LG AI研究所首尔国立大学韩国 AI研究所

摘要: 音乐生成为大型语言模型引入了挑战性的复杂性。音乐的符号结构通常包括垂直和水平的和声，迫使大规模Transformer进行各种适应和增强。然而，现有作品存在三个主要缺点：1）它们的标记化需要领域特定的注释，例如小节和拍子，在原始MIDI数据中通常缺失；2）在没有领域特定注释的情况下，很少有人纯粹研究增强标记嵌入方法的影响；3）现有的作品，如MuseNet，缺乏可重现性，以克服上述缺点。为了解决这些限制，我们开发了一个基于MIDI的音乐生成框架，灵感来自MuseNet，通过实证研究两种不依赖于领域特定注释的结构嵌入。我们提供了各种指标和见解，可以指导适当的编码部署。我们还验证了多种嵌入配置可以有选择性地提升某些音乐方面。通过HuggingFace提供开源实现，我们的研究结果阐明了如何利用大型语言模型实现实用且可重现的音乐生成。

论文链接: https://arxiv.org/abs/2407.19900

重新思考在外科数据集中用于语义分割的RGB-D融合

原标题: Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets

作者: Muhammad Abdullah Jamal, Omid Mohareri

机构: 直觉外科公司

摘要: 手术场景理解是实现智能和上下文感知系统的关键技术组成部分，可以改变手术干预的各个方面。在这项工作中，我们专注于语义分割任务，提出了一个名为 SurgDepth 的简单而有效的多模态（RGB 和深度）训练框架，并展示了在适用于该任务的所有公开数据集上的最新技术结果。与以往的方法不同，以往的方法要么微调在自然图像上训练过的最新技术分割模型，要么使用仅在 RGB 上预训练的骨干网络对 RGB 或 RGB-D 信息进行编码，而基于 Vision Transformers（ViTs）构建的 SurgDepth 设计了一个简单的融合机制，用于编码 RGB 和深度信息。我们在包括 EndoVis2022、AutoLapro、LapI2I 和 EndoVis2017 在内的基准数据集上进行了大量实验，以验证 SurgDepth 的有效性。具体而言，SurgDepth 在 EndoVis 2022 SAR-RARP50 挑战赛上实现了新的最新技术 IoU 为 0.86，并且使用由 ConvNeXt 块组成的浅层和计算高效的解码器，至少比当前最佳方法提高了 4%。

论文链接: https://arxiv.org/abs/2407.19714