2024年7月29日Arxiv人工智能相关论文

使用削弱和补全修复 E L ⊥ \mathcal{EL_\perp} EL 本体网络 – 扩展版

原标题: Repairing Networks of E L ⊥ \mathcal{EL_\perp} EL Ontologies using Weakening and Completing – Extended version

作者: Ying Li, Patrick Lambrix

机构: 林雪平大学 瑞典 Linköping University 瑞典瑞典电子科学研究中心

摘要: 本文提出了修复本体网络的框架,以解决传统调试技术在修复本体网络时可能会移除领域内正确后果的问题。该框架定义了调试、削弱和完成等基本操作。此外,它还定义了反映如何以及何时使用基本操作的组合运算符,以及关于本体网络中本体和对齐的自治级别的选择。我们展示了组合运算符对修复网络质量的影响,并提出了一个已实现的工具。通过将我们的框架与现有的调试、削弱和完成算法一起使用,我们基本上为扩展先前的工作和系统提供了一个蓝图。

论文链接: https://arxiv.org/abs/2407.18848

AutoRDF2GML:促进图机器学习中的RDF集成

原标题: AutoRDF2GML: Facilitating RDF Integration in Graph Machine Learning

作者: Michael Färber, David Lamprecht, Yuni Susanti

机构: ScaDS.AI & TU Dresden metaphacts GmbH Fujitsu Ltd.

摘要: 在这篇论文中,我们介绍了AutoRDF2GML,这是一个旨在将RDF数据转换为专门用于图机器学习任务的数据表示的框架。AutoRDF2GML首次实现了基于内容的特征的创建,即基于RDF数据类型属性的特征,以及基于拓扑结构的特征的创建,即基于RDF对象属性的特征。通过自动化特征提取,AutoRDF2GML使得即使对RDF和SPARQL不太熟悉的用户也能够生成适用于图机器学习任务的数据表示,例如链接预测、节点分类和图分类。此外,我们提出了四个新的基准数据集,这些数据集是使用我们的框架从大型RDF知识图中创建的。这些数据集可作为评估图机器学习方法(如图神经网络)的宝贵资源。总的来说,我们的框架有效地弥合了图机器学习和语义网社区之间的差距,为基于RDF的机器学习应用铺平了道路。

论文链接: https://arxiv.org/abs/2407.18735

通过哲学家的视角理解可解释人工智能:历史视角

原标题: Understanding XAI Through the Philosopher’s Lens: A Historical Perspective

作者: Martina Mattioli, Antonio Emanuele Cinà, Marcello Pelillo

机构: 威尼斯卡·福斯卡里大学 热那亚大学

摘要: 尽管可解释人工智能(XAI)最近成为热门话题,并且已经开发出了几种不同的方法,但普遍认为它缺乏令人信服的统一基础。另一方面,在过去的几个世纪里,解释的概念一直是广泛进行哲学分析的主题,试图回答科学定律背后的“为什么”这个根本问题。然而,这种讨论很少与XAI联系起来。本文试图填补这一空白,并旨在通过认识论的视角探索人工智能中的解释概念。通过比较科学哲学和人工智能的历史发展,一个有趣的画面浮现出来。具体而言,我们展示了从逻辑演绎到统计模型解释的渐进发展在两个领域中独立发生,从确定性到非确定性和概率因果关系的范式转变也在两种情况下经历。有趣的是,我们还注意到在两个领域中独立出现了类似的概念,例如解释与理解之间的关系以及实用因素的重要性。我们的研究旨在成为理解人工智能中解释概念的哲学基础的第一步,希望我们的发现能为XAI难以捉摸的本质带来一些新的启示。

论文链接: https://arxiv.org/abs/2407.18782

图神经网络用于复杂系统中的虚拟传感:解决异质时间动态

原标题: Graph Neural Networks for Virtual Sensing in Complex Systems: Addressing Heterogeneous Temporal Dynamics

作者: Mengjie Zhao, Cees Taal, Stephan Baggerohr, Olga Fink

摘要: 实时条件监测对于复杂系统的可靠高效运行至关重要。然而,仅依赖物理传感器可能存在局限,因为它们的成本高、布置受限制,或无法直接测量某些关键参数。虚拟传感通过利用现有的传感器数据和系统知识来估算无法获取的参数或推断系统状态,从而解决了这些限制。工业系统复杂性的增加需要部署具有多种模态的传感器,以全面了解系统状态。这些传感器以不同频率捕获数据,监测系统动态的快速变化和缓慢变化,以及系统的局部和全局状态演变。这导致了异质的时间动态,特别是在不断变化的操作和环境条件下,对准确的虚拟传感构成了重大挑战。为了解决这个问题,我们提出了一个异质时间图神经网络(HTGNN)框架。HTGNN明确地对来自不同传感器的信号进行建模,并将操作条件整合到模型架构中。我们使用两个新发布的数据集评估了HTGNN:一个带有多种载荷条件的轴承数据集,用于轴承载荷预测,以及一个为预测桥梁活载而模拟了一年的数据集。我们的结果表明,在两个任务中,HTGNN在高度变化的操作条件下明显优于已建立的基准方法。这些结果突显了HTGNN作为复杂系统稳健准确的虚拟传感方法的潜力,为改进监测、预测性维护和提高系统性能铺平了道路。

论文链接: https://arxiv.org/abs/2407.18691

从学到的东西中学习:通过对比采样和视觉持久性实现无源主动领域自适应

原标题: Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence

作者: Mengyao Lyu, Tianxiang Hao, Xinhao Xu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

机构: 清华大学 BNRist

摘要: 领域自适应(DA)促进了从源领域到相关目标领域的知识转移。本文研究了一种实用的DA范式,即源数据无关主动领域自适应(SFADA),在适应过程中源数据变得不可访问,并且在目标领域中只有少量注释预算可用。在没有参考源数据的情况下,出现了识别最具信息量的目标样本进行标记、在适应过程中建立跨领域对齐以及通过迭代的查询和适应过程确保持续性性能改进等新挑战。为此,我们提出了“从所学中学习”(LFTL),这是一种新颖的SFADA范式,可以利用源预训练模型和主动迭代模型中学到的知识,而无需额外开销。我们提出了对比主动采样,从前一模型的假设中学习,从而查询对当前模型具有信息量且在主动学习过程中持续具有挑战性的目标样本。在适应过程中,我们从先前中间模型获得的主动选择锚点的特征中学习,以便“视觉持续引导适应”可以促进特征分布对齐和主动样本开发。在三个广泛使用的基准测试上进行的大量实验表明,我们的LFTL实现了最先进的性能,在注释预算增加时具有优越的计算效率和持续改进。我们的代码可在此 https URL 上获得。

论文链接: https://arxiv.org/abs/2407.18899

Github: https://github.com/lyumengyao/lftl

她工作,他工作:探讨 AI 生成图像中的性别偏见

原标题: She Works, He Works: A Curious Exploration of Gender Bias in AI-Generated Imagery

作者: Amalia Foka

机构: 伊奥安尼纳大学

摘要: 这篇论文研究了AI生成的建筑工人形象中存在的性别偏见,突出了男性和女性形象描绘上的差异。基于格里泽尔达·波洛克(Griselda Pollock)关于视觉文化和性别的理论,分析表明,AI模型倾向于将女性形象性感化,而将男性形象描绘为更具权威和能力。这些发现强调了AI反映和延续社会偏见的潜力,强调了对AI生成内容进行批判性参与的必要性。该项目有助于探讨AI在创意实践中的伦理影响,并对文化中性别认知的更广泛影响进行了贡献。

论文链接: https://arxiv.org/abs/2407.18524

任意四个实数都可以通过类比进行比较。

原标题: Any four real numbers are on all fours with analogy

作者: Yves Lepage, Miguel Couceiro

机构: 早瀬大学 法国洛林大学 葡萄牙里斯本大学

摘要: 这项工作提出了一个基于广义均值的数字类比形式化方法。它受到了人工智能的最新进展和机器学习应用的启发,其中类比的概念被用来推断结果、创建数据,甚至作为对象表示或嵌入的评估工具,这些表示基本上是数字的集合(向量、矩阵、张量)。这种扩展的类比用法需要数学基础和对数字之间类比概念的清晰理解。我们提出了一个依赖于以幂参数定义的广义均值的类比的统一观点。特别地,我们展示了任意四个递增正实数在一个唯一适当的幂中构成一个类比。此外,我们表明任何这样的类比都可以简化为一个等效的算术类比,并且任何类比方程对于递增数都有解,这一结果可以无限制地推广到复数。这些基础性结果提供了对数字表示领域中类比的更好理解。

论文链接: https://arxiv.org/abs/2407.18770

修补的 MOA:优化多样化软件开发任务的推理

原标题: Patched MOA: optimizing inference for diverse software development tasks

作者: Asankhaya Sharma

机构: Patched Codes Inc

摘要: 这篇论文介绍了Patched MOA(Mixture of Agents),这是一种推理优化技术,显著提升了大语言模型(LLMs)在各种软件开发任务中的性能。我们评估了三种推理优化算法 - Best of N、Mixture of Agents 和蒙特卡洛树搜索,并展示了Patched MOA可以提升较小模型的性能,超越更大、更昂贵的模型。值得注意的是,我们的方法将gpt-4o-mini模型在Arena-Hard-Auto基准测试中的性能提高了15.52%,超过了成本的一小部分的gpt-4-turbo。我们还将Patched MOA 应用于各种软件开发工作流程,展示了任务完成率的持续改善。我们的方法与模型无关,对最终用户透明,并且可以轻松集成到现有的LLM流程中。这项工作为LLM优化领域做出了贡献,提供了一种经济高效的解决方案,可以提升模型性能,无需微调或更大的模型。

论文链接: https://arxiv.org/abs/2407.18521

SHANGUS:深度强化学习与启发式优化相遇,用于在未知空间中快速探索自主车辆的前沿。

原标题: SHANGUS: Deep Reinforcement Learning Meets Heuristic Optimization for Speedy Frontier-Based Exploration of Autonomous Vehicles in Unknown Spaces

作者: Seunghyeop Nam, Tuan Anh Nguyen, Eunmi Choi, Dugki Min

机构: IEEE Member

摘要: 这篇论文介绍了SHANGUS,这是一个先进的框架,结合了深度强化学习(DRL)和启发式优化,以提高未知环境中基于前沿的探索效率,特别适用于智能车辆在自主空中服务、搜索和救援行动以及空间探索机器人领域。SHANGUS利用了DRL的适应性和启发式优先级,显著提高了探索效率,减少了完成时间,并最小化了行驶距离。该策略涉及一个前沿选择节点来识别未探索区域,以及一个使用双延迟深度确定性策略梯度(TD3)算法进行稳健路径规划和动态避障的DRL导航节点。在ROS2和Gazebo仿真环境中进行的大量实验表明,SHANGUS超越了代表性的传统方法,如最近前沿(NF)、新颖前沿探索算法(CFE)和目标驱动自主探索(GDAE)算法,特别是在复杂场景中表现出色,优于完成时间、行驶距离和探索速率。这种可扩展的解决方案适用于工业自动化、自动驾驶、家庭机器人和空间探索等领域的实时自主导航。未来的研究将整合额外的感知输入并完善启发式函数,以进一步提升SHANGUS的效率和稳健性。

论文链接: https://arxiv.org/abs/2407.18892

在 SysML 和 BPMN 中设计多机器人系统架构

原标题: Multi-Robot System Architecture design in SysML and BPMN

作者: Ahmed R. Sadik (Honda Research Institute Europe, Offenbach am Main, Germany), Christian Goerick (Honda Research Institute Europe, Offenbach am Main, Germany)

机构: 本文作者的学校或企业名称为:本田欧洲研究所

摘要: 多机器人系统(MRS)是一个包含许多不同软件和硬件组件的复杂系统。本文讨论的主要问题是MRS设计复杂性。提出的解决方案提供了一种基于形式系统工程方法的模块化建模和仿真技术,因此MRS设计复杂性被分解和减少。通过两种形式化架构描述语言(ADLs)对MRS进行建模,这两种语言分别是系统建模语言(SysML)和业务流程建模符号(BPMN),用于设计系统蓝图。通过使用这些抽象设计ADLs,项目的实施变得与技术无关。这允许将设计概念从一种编程语言转移到另一种。在仿真阶段,使用多智能体环境来模拟MRS蓝图。仿真已在Java Agent Development(JADE)中间件中实现。因此,其结果可以用于分析和验证所提出的MRS模型,以性能评估矩阵的形式。

论文链接: https://arxiv.org/abs/2407.18749

TCGPN:用于股票预测的时间相关性图预训练网络

原标题: TCGPN: Temporal-Correlation Graph Pre-trained Network for Stock Forecasting

作者: Wenbo Yan, Ying Tan

机构: 北京大学 人工智能研究所 人工智能通用技术国家重点实验室 机器感知重点实验室

摘要: 最近,将时间特征和时间序列之间的相关性结合起来已经成为时间序列预测中的一种有效方法。时空图神经网络(STGNNs)在许多时间相关性预测问题上表现出良好的性能。然而,当应用于缺乏周期性的任务,如股票数据预测时,发现STGNNs的有效性和稳健性并不理想。STGNNs受到内存节省的限制,因此无法处理节点数量较大的问题。在本文中,我们提出了一种名为时间相关性图预训练网络(TCGPN)的新方法来解决这些限制。TCGPN利用时间相关性融合编码器来获得混合表示,并采用精心设计的时间和相关性预训练任务的预训练方法。整个结构独立于节点的数量和顺序,因此可以通过各种数据增强获得更好的结果。通过多次采样,可以显著减少训练过程中的内存消耗。在展示最小周期性的真实股市数据集CSI300和CSI500上进行实验。我们在下游任务中微调了一个简单的MLP,并取得了最先进的结果,验证了捕捉更稳健的时间相关性模式的能力。

论文链接: https://arxiv.org/abs/2407.18519

用于填补稀疏学习性能的生成对抗网络

原标题: Generative Adversarial Networks for Imputing Sparse Learning Performance

作者: Liang Zhang, Mohammed Yeasin, Jionghao Lin, Felix Havugimana, Xiangen Hu

机构: 孟菲斯大学 卡内基梅隆大学 莫纳什大学 香港理工大学

摘要: 学习表现数据,如智能辅导系统(ITSs)中对问题的正确或错误回答,对于跟踪和评估学习者的进展和知识掌握至关重要。然而,数据稀疏性问题,即未探索的问题和缺失的尝试,阻碍了在ITSs中进行准确评估和提供定制、个性化指导。本文提出使用生成对抗填充网络(GAIN)框架来填补稀疏的学习表现数据,重构为沿着学习者、问题和尝试维度的三维(3D)张量表示。我们基于定制的GAIN方法计算过程在3D张量空间中填补稀疏数据,通过卷积神经网络显著增强了其输入和输出层。这种改进还包括使用最小二乘损失函数进行优化,并使输入和输出的形状与沿着学习者维度的问题-尝试矩阵的维度相匹配。通过对来自各种ITSs的六个数据集(包括AutoTutor、ASSISTments和MATHia)进行广泛实验,我们证明了GAIN方法通常在填补准确性方面优于张量分解和其他生成对抗网络(GAN)方法。这一发现增强了基于人工智能的教育中全面学习数据建模和分析。

论文链接: https://arxiv.org/abs/2407.18875

神经符号人工智能用于增强生成式人工智能的可指导性

原标题: Neurosymbolic AI for Enhancing Instructability in Generative AI

作者: Amit Sheth, Vishal Pallagani, Kaushik Roy

机构: 南卡罗来纳大学

摘要: 生成式人工智能,特别是通过大语言模型(LLMs),已经改变了文本、图像和音乐内容创作的方式,展示了通过提示遵循指令的能力,这在很大程度上得益于指令调整。指令调整是一种监督微调方法,其中LLMs在格式化为特定任务和相应指令的数据集上进行训练。这种方法系统地增强了模型理解和执行提供的指令的能力。尽管取得了这些进展,LLMs仍然面临着在一贯解释复杂的多步指令并将其推广到新任务方面的挑战,这对于在现实场景中具有更广泛适用性至关重要。本文探讨了为什么神经符号人工智能提供了一条更好的路径来增强LLMs的可指导性。我们探讨了使用符号任务规划器将高级指令分解为结构化任务,使用神经语义解析器将这些任务落实为可执行操作,以及使用神经符号执行器来执行这些操作,同时动态地保持状态的显式表示。我们还试图表明神经符号方法增强了任务执行的可靠性和上下文感知能力,使LLMs能够动态解释和响应更广泛的指令上下文,并具有更高的精确性和灵活性。

论文链接: https://arxiv.org/abs/2407.18722

随机忆阻器的拓扑优化,用于输入感知动态SNN。

原标题: Topology Optimization of Random Memristors for Input-Aware Dynamic SNN

作者: Bo Wang, Shaocong Wang, Ning Lin, Yi Li, Yifei Yu, Yue Zhang, Jichang Yang, Xiaoshan Wu, Yangu He, Songqi Wang, Rui Chen, Guoqi Li, Xiaojuan Qi, Zhongrui Wang, Dashan Shang

机构: 香港大学 中国科学院 北京中科院 自动化研究所 中国科学院大学

摘要: 机器学习领域正在取得前所未有的发展,最新的大型语言模型和世界模拟器是人工神经网络在数字计算机上运行的典范。然而,由于信号表示、优化、运行时重构和硬件架构的差异,它们仍无法与人类大脑在能量效率和对不同难度输入的流畅适应性方面相提并论。为了解决这些根本性挑战,我们引入了适用于输入感知动态忆阻脉冲神经网络(PRIME)的修剪优化。在信号表示方面,PRIME采用漏电积分-发放神经元来模拟大脑固有的脉冲机制。受大脑结构可塑性的启发,PRIME优化了随机忆阻脉冲神经网络的拓扑结构,而无需昂贵的忆阻器导电微调。为了实现运行时重构性,受大脑动态调整计算深度的启发,PRIME采用了一种适用于输入的动态提前停止策略,在推断过程中最小化延迟,从而提高能量效率而不影响性能。在架构方面,PRIME利用忆阻内存计算,模拟大脑并减轻冯·诺依曼瓶颈。我们使用40纳米256 Kb基于忆阻的内存计算宏在神经形态图像分类和图像修复上验证了我们的系统。我们的结果表明,分类准确性和Inception Score与软件基准相当,同时在能量效率方面最多提高了62.50倍,并最多节省了77.0%的计算负载。该系统还表现出对模拟忆阻器的随机突触噪声的稳健性。我们的软硬件共同设计模型为未来基于大脑的神经形态计算铺平了道路,具有类似大脑的能量效率和适应性。

论文链接: https://arxiv.org/abs/2407.18625

在视觉能力不同的家庭中与儿童艺术作品互动

原标题: Engaging with Children’s Artwork in Mixed Visual-Ability Families

作者: Arnavi Chheda-Kothary, Jacob O. Wobbrock, Jon E. Froehlich

机构: 华盛顿大学 计算机科学与工程保罗·艾伦学院 混合视觉能力家庭中与儿童艺术互动的研究团队

摘要: 我们提出了两项研究,探讨盲人或视力低下(BLV)家庭成员如何参与他们视力正常的孩子的艺术作品、支持理解和解释的策略,以及技术(如人工智能)在其中的潜在作用。我们的第一项研究涉及14名BLV个体,第二项研究包括五组BLV个体和他们的孩子。通过半结构化访谈、AI描述孩子的艺术作品和多感官设计探针,我们发现BLV家庭成员将艺术作品参与视为一种增进关系的机会,更青睐孩子的叙述和解释,而非其他非视觉表现形式。此外,尽管存在一些不准确之处,BLV家庭成员认为AI生成的描述可以促进与孩子的对话,并帮助他们自主发现艺术。最后,我们提出了支持混合视觉能力家庭中艺术作品参与的具体设计考虑,包括通过各种方法实现艺术作品的获取、支持孩子对AI输出的更正,以及区分孩子的艺术作品中的背景与内容、解释与描述。

论文链接: https://arxiv.org/abs/2407.18874

SLIM: 风格-语言不匹配模型用于广义音频深度伪造检测

原标题: SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection

作者: Yi Zhu, Surya Koppisetti, Trang Tran, Gaurav Bharaj

摘要: 音频深度伪造检测(ADD)对抗合成语音滥用是至关重要的。现有的ADD模型存在泛化问题,在域内和域外数据之间存在很大的性能差异。此外,现有模型的黑盒特性限制了它们在需要对模型决策进行解释的实际场景中的使用。为了缓解这些问题,我们引入了一种新的ADD模型,该模型明确利用了伪造语音中的StyleLinguistics Mismatch(SLIM)来将其与真实语音分开。SLIM首先仅对真实样本进行自监督预训练,以学习真实类别中的风格-语言依赖关系。然后,学习到的特征与标准预训练的声学特征(例如Wav2vec)一起用于学习真实和伪造类别的分类器。当特征编码器被冻结时,SLIM在域外数据集上的表现优于基准方法,同时在域内数据上取得了竞争性的结果。SLIM学习到的特征使我们能够量化样本中风格和语言内容之间的(不)匹配,从而有助于解释模型的决策。

论文链接: https://arxiv.org/abs/2407.18517

通过表达注意力攀登复杂性阶梯

原标题: Climbing the Complexity Ladder with Expressive Attention

作者: Claudius Gros

机构: 哥白尼大学法兰克福分校

摘要: 注意力机制涉及将查询向量和键向量按照标量积 Q T K \mathbf{Q}^T\mathbf{K} QTK进行比较,然后进行softmax归一化。经典上,平行/正交/反平行的查询和键会导致大/中等/小的注意力权重。在这里,我们研究表达式注意力(EA),它基于 ( Q T K ) 2 (\mathbf{Q}^T\mathbf{K})^2 (QTK)2,即平方点积。在这种情况下,当查询和键要么平行要么反平行时,注意力会增强,而在正交配置下会被抑制。对于一系列自回归预测任务,我们发现EA的表现至少与标准机制——点积注意力(DPA)一样出色。随着任务复杂度的增加,观察到EA在超越DPA方面的优势逐渐增大,这也适用于多任务设置。在给定模型大小的情况下,EA设法在一系列DPA无法达到的复杂度水平上实现100%的性能。

论文链接: https://arxiv.org/abs/2407.18601

基于强化学习在芯片设计中实现宏单元的非重叠放置

原标题: Non-Overlapping Placement of Macro Cells based on Reinforcement Learning in Chip Design

作者: Tao Yu, Peng Gao, Fei Wang, Ru-Yue Yuan

机构: 清华大学 西安交通大学

摘要: 由于芯片设计的复杂性不断增加,现有的布局方法在处理宏单元覆盖和优化效率方面仍然存在许多缺陷。针对现有芯片设计方法中布局重叠、性能较差和优化效率低的问题,本文提出了一种基于强化学习的端到端布局方法SRLPlacer。首先,通过建立宏单元之间的耦合关系图模型,将布局问题转化为马尔可夫决策过程,以学习优化布局的策略。其次,在集成标准单元布局后,对整个布局过程进行优化。通过在公开基准ISPD2005上的评估,提出的SRLPlacer能够有效解决宏单元之间的重叠问题,同时考虑路由拥塞情况并缩短总线长度以确保可路由性。

论文链接: https://arxiv.org/abs/2407.18499

利用扩散模型统一视觉和语义特征空间,以增强跨模态对齐。

原标题: Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment

作者: Yuze Zheng, Zixuan Li, Xiangxian Li, Jinxing Liu, Yuqing Wang, Xiangxu Meng, Lei Meng

机构: 山东大学

摘要: 图像分类模型在现实世界应用中经常表现出不稳定的性能,这是由于图像信息的变化,受主体对象的不同视觉角度和光照差异驱动。为了缓解这些挑战,现有研究通常会引入额外的模态信息,将视觉数据与模型的学习过程相匹配,从而实现从复杂图像区域提取高质量视觉特征。具体而言,在多模态学习领域,跨模态对齐被认为是一种有效的策略,通过学习一个领域一致的潜在特征空间来协调不同模态信息的视觉和语义特征。然而,这种方法可能会面临限制,因为多模态信息之间存在异质性,例如特征分布和结构的差异。为了解决这个问题,我们引入了一个名为多模态对齐和重构网络(MARNet)的模型,旨在增强模型对视觉噪声的抵抗力。重要的是,MARNet包括一个跨模态扩散重构模块,可以平稳稳定地融合不同领域的信息。在两个基准数据集Vireo-Food172和Ingredient-101上进行的实验表明,MARNet有效地提高了模型提取的图像信息的质量。它是一个即插即用的框架,可以快速集成到各种图像分类框架中,提升模型性能。

论文链接: https://arxiv.org/abs/2407.18854

自动数据中心开发的协作演进策略

原标题: Collaborative Evolving Strategy for Automatic Data-Centric Development

作者: Xu Yang, Haotian Chen, Wenjun Feng, Haoxue Wang, Zeqi Ye, Xinjie Shen, Xiao Yang, Shizhao Sun, Weiqing Liu, Jiang Bian

机构: 微软亚洲研究院

摘要: 人工智能(AI)显著影响许多领域,这在很大程度上归功于大量高质量数据用于机器学习模型。现在重点是数据中心的AI策略,优先考虑数据开发而不是模型设计进展。自动化这一过程至关重要。在本文中,我们作为首个介绍自动数据中心开发(AD^2)任务并概述其核心挑战的工作,这需要类似领域专家的任务调度和实施能力,这在先前的工作中很少有人探索过。
通过利用大语言模型(LLMs)强大的复杂问题解决能力,我们提出了一种基于LLM的自主智能体,配备了一种名为协作知识-学习增强演进检索(Co-STEER)的策略,以同时解决所有挑战。具体来说,我们提出的Co-STEER智能体通过我们提出的演进策略丰富其领域知识,并通过积累和检索领域特定的实践经验发展其调度和实施技能。随着时间表的改进,实施能力加速。同时,随着实施反馈变得更加彻底,调度准确性也增加。这两种能力通过实践反馈共同演进,实现协同演进过程。
广泛的实验结果表明,我们的Co-STEER智能体在AD2研究中开创了新局面,具有强大的可演进的调度和实施能力,并展示了其组件的显著有效性。我们的Co-STEER为AD2的进步铺平了道路。

论文链接: https://arxiv.org/abs/2407.18690

可持续能源的强化学习:一项调查

原标题: Reinforcement Learning for Sustainable Energy: A Survey

作者: Koen Ponse, Felix Kleuker, Márton Fejér, Álvaro Serra-Gómez, Aske Plaat, Thomas Moerland

机构: 莱顿大学

摘要: 转向可持续能源是我们这个时代面临的关键挑战,需要对能源生产、储存、传输和消费的整个流程进行修改。在每个阶段,都会出现新的顺序决策挑战,从风力发电场的运行到电网管理或电动车充电站的调度。所有这些问题都非常适合强化学习,这是机器学习的一个分支,可以从数据中学习行为。因此,许多研究已经探讨了强化学习在可持续能源领域的应用。本文旨在调查这一文献,以搭建能源和机器学习两个基础研究领域之间的桥梁。在简要介绍这两个领域之后,我们系统地列出了相关的可持续性挑战,以及它们如何被建模为强化学习问题,以及文献中目前存在的解决方法。之后,我们放大视野,确定贯穿可持续性领域的强化学习主题,例如多智能体、离线和安全强化学习。最后,我们还涵盖了环境标准化,这对连接两个研究领域至关重要,并突出未来工作的潜在方向。总之,本调查提供了可持续能源强化学习方法的广泛概述,这可能在能源转型中发挥关键作用。

论文链接: https://arxiv.org/abs/2407.18597

使用 GPT-4 指导因果机器学习

原标题: Using GPT-4 to guide causal machine learning

作者: Anthony C. Constantinou, Neville K. Kitson, Alessio Zanga

机构: 伦敦大学玛丽女王学院 米兰-比科卡大学 霍夫曼-拉罗彻有限公司

摘要: 自ChatGPT向公众介绍以来,其产生了前所未有的影响。一些专家赞扬了人工智能的进步,并强调了潜在风险,而其他人则对大语言模型(LLMs)的准确性和实用性提出了批评。在本文中,我们对LLMs识别因果关系的能力感兴趣。我们专注于广为人知的GPT-4(Turbo),并评估其在最严格条件下的表现,通过仅基于变量标签推断因果关系的能力,而不提供任何上下文,展示当仅提供标签信息时可以期望的最低有效性水平。我们发现,问卷参与者认为GPT-4图在评估类别中最准确,紧随其后的是领域专家构建的知识图,而因果机器学习(ML)则远远落后。我们利用这些结果来强调因果ML的重要局限性,因为它经常产生违反常识的因果图,影响人们对其的信任。然而,我们发现,将GPT-4与因果ML配对可以克服这一限制,导致从真实数据中学习到的图形结构更加接近领域专家确定的结构,与仅由因果ML学习到的结构相比。总的来说,我们的研究结果表明,尽管GPT-4并非明确设计用于因果推理,但它仍然可以成为因果表示的有价值工具,因为它改进了专门设计用于进行因果发现的因果ML算法的过程。

论文链接: https://arxiv.org/abs/2407.18607

通过高保真生成对抗网络进行语音带宽扩展

原标题: Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks

作者: Mahmoud Salhab, Haidar Harmanani

机构: 黎巴嫩美国大学

摘要: 语音带宽扩展对于扩展低带宽语音信号的频率范围至关重要,从而提高数字应用中的音频质量、清晰度和可感知性。其应用领域涵盖电话、压缩、文本转语音合成和语音识别。本文提出了一种新颖的方法,使用高保真生成对抗网络,与级联系统不同,我们的系统在配对的窄带和宽带语音信号上端到端进行训练。我们的方法将各种带宽上采样比例集成到一个单一的统一模型中,专门为语音带宽扩展应用而设计。我们的方法在各种带宽扩展因素上表现出稳健的性能,包括在训练过程中未遇到的因素,展示了零样本能力。据我们所知,这是首个展示这种能力的工作。实验结果表明,我们的方法在实际语音增强应用中优于先前的端到端方法,以及插值和传统技术,展示了其有效性。

论文链接: https://arxiv.org/abs/2407.18571

利用集成深度图卷积网络提升材料属性预测

原标题: Enhancing material property prediction with ensemble deep graph convolutional networks

作者: Chowdhury Mohammad Abid Rahman, Ghadendra Bhandari, Nasser M Nasrabadi, Aldo H. Romero, Prashnna K. Gyawali

机构: 西弗吉尼亚大学 物理与天文学系 西弗吉尼亚大学

摘要: 机器学习(ML)模型已成为加速材料发现和设计的强大工具,通过从组成和结构数据中实现准确预测属性。这些能力对于开发能源、电子和生物医学等领域的先进技术至关重要,潜在地减少了探索新材料所需的时间和资源,并促进了快速创新周期。最近的努力集中在使用先进的ML算法,包括基于深度学习的图神经网络,用于属性预测。此外,集成模型已被证明可以增强ML和DL的泛化能力和稳健性。然而,在深度图网络中使用这种集成策略来预测材料属性仍未得到充分探讨。我们的研究对深度学习中的集成策略进行了深入评估,特别针对材料属性预测任务。通过测试Crystal Graph卷积神经网络(CGCNN)及其多任务版本MT-CGCNN,我们证明了集成技术,特别是预测平均,可以显著提高对于关键属性(如每原子形成能量( Δ E f \Delta E^{f} ΔEf)、带隙( E g E_{g} Eg)和密度( ρ \rho ρ))在33,990种稳定无机材料中的精度,超越传统指标。这些发现支持在该领域广泛应用集成方法以增强预测准确性。

论文链接: https://arxiv.org/abs/2407.18847

PP-TIL:具有基于实例的迁移模仿学习的个性化自动驾驶规划

原标题: PP-TIL: Personalized Planning for Autonomous Driving with Instance-based Transfer Imitation Learning

作者: Fangze Lin, Ying He, Fei Yu

机构: 清华大学 哈尔滨工业大学

摘要: 个性化运动规划在城市自动驾驶中具有重要意义,满足个体用户的独特需求。然而,先前的努力经常在同时解决两个关键方面时遇到困难:在复杂的城市环境中进行个性化规划,以及通过数据利用提高规划性能。挑战在于用户数据昂贵且有限,同时场景状态空间趋向于无限。这些因素导致模型训练过程中出现过拟合和泛化能力差的问题。因此,我们提出了一种基于实例的转移模仿学习方法。该方法促进了从广泛的专家领域数据向用户领域的知识转移,为这些问题提供了根本性解决方案。我们首先使用大规模专家数据对一个预训练模型进行训练。随后,在微调阶段,我们提供包含专家和用户数据的批处理数据。通过使用逆强化学习技术,我们从用户演示中提取风格特征分布,构建用于近似用户风格的正则化项。在我们的实验中,我们对所提出的方法进行了广泛评估。与基准方法相比,我们的方法减轻了由稀疏用户数据引起的过拟合问题。此外,我们发现将驾驶模型与可微非线性优化器集成作为端到端个性化微调的安全保护层,可以实现更优越的规划性能。

论文链接: https://arxiv.org/abs/2407.18569

基于扩散驱动的带宽约束下生成模型的语义通信

原标题: Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints

作者: Lei Guo, Wei Chen, Yuxuan Sun, Bo Ai, Nikolaos Pappas, Tony Quek

机构: 清华大学 腾讯AI Lab

摘要: 最近几年,扩散模型在人工智能生成内容(AIGC)中得到了广泛应用,这要归功于其出色的生成能力。结合语义通信,扩散模型被用于去噪、数据重构和内容生成等任务。然而,现有基于扩散的生成模型并未考虑严格的带宽限制,这限制了其在无线通信中的应用。本文介绍了一种基于扩散驱动的语义通信框架,采用了先进的基于VAE的压缩技术,用于带宽受限的生成模型。我们设计的架构利用了扩散模型,其中通过无线信道的信号传输过程充当了扩散中的前向过程。为了减少带宽需求,我们在接收端基于变分自动编码器引入了一个下采样模块和一个配对的上采样模块,以确保恢复的特征符合高斯分布。此外,我们推导了我们提出系统的损失函数,并通过全面实验评估了其性能。我们的实验结果显示,在像素级别指标(如峰值信噪比(PSNR))和语义度量(如学习的感知图像块相似度(LPIPS))方面取得了显著改进。与深度联合源通道编码(DJSCC)相比,这些改进在压缩率和信噪比方面更为显著。

论文链接: https://arxiv.org/abs/2407.18468

全球视野和推理:稀疏知识图上的两阶段路径推理

原标题: Look Globally and Reason: Two-stage Path Reasoning over Sparse Knowledge Graphs

作者: Saiping Guan, Jiyao Wei, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

机构: 中国科学院计算技术研究所 中国科学院大学

摘要: 在现实世界的应用中经常遇到的稀疏知识图(KGs),包含着相对于更加密集的知识图来说更少的事实,形式为(头实体,关系,尾实体)。稀疏知识图补全任务是一个特别具有挑战性的任务,它根据有限的事实推理给定查询的答案,形式为(头实体,关系,?)适用于稀疏知识图,这是由于需要基于有限的事实推理缺失的事实。基于路径的模型以其出色的可解释性而闻名,通常被用于这项任务。然而,现有的基于路径的模型通常依赖外部模型来填补缺失的事实,然后进行路径推理。这种方法引入了不可解释的因素或需要细致的规则设计。鉴于此,本文提出了一种通过内部分析而非寻求外部帮助的替代方法。我们引入了一种名为LoGRe(全局查找和推理)的两阶段路径推理模型,用于稀疏知识图。LoGRe通过全局分析训练数据构建了一个关系路径推理模式,以减轻稀疏性问题。基于这个模式,LoGRe然后聚合路径来推理出答案。对五个基准稀疏知识图数据集的实验结果展示了所提出的LoGRe模型的有效性。

论文链接: https://arxiv.org/abs/2407.18556

在 Web 应用攻击检测的特征选择中捕获安全专家知识

原标题: Capturing the security expert knowledge in feature selection for web application attack detection

作者: Amanda Riverol, Gustavo Betarte, Rodrigo Martínez, Álvaro Pardo

机构: 乌拉圭共和国大学 工程学院 大学圣母院 分校

摘要: 这篇文章提出使用互信息值来复制安全专业人员的专业知识,以选择用于检测Web攻击的特征。其目标是增强Web应用防火墙(WAFs)的有效性。Web应用程序经常容易受到各种安全威胁的攻击,因此WAFs对于它们的保护至关重要。WAFs使用基于规则的方法分析HTTP流量,以识别已知的攻击模式,并检测并阻止潜在的恶意请求。然而,一个主要挑战是误报的发生,这可能导致阻止合法流量并影响应用程序的正常运行。该问题被视为一种方法,结合了监督学习用于特征选择和半监督学习场景用于训练One-Class SVM模型。实验结果显示,使用所提出算法选择的特征训练的模型在性能方面优于基于专家选择方法。此外,使用传统基于规则的WAF ModSecurity配置的带有一组基本OWASP CRS规则的结果也得到了改善。

论文链接: https://arxiv.org/abs/2407.18445

如何使用2D模型在3D中进行分割:利用多角度最大强度投影和扩散模型对PET体积中的前列腺癌转移病灶进行自动化3D分割

原标题: How To Segment in 3D Using 2D Models: Automated 3D Segmentation of Prostate Cancer Metastatic Lesions on PET Volumes Using Multi-Angle Maximum Intensity Projections and Diffusion Models

作者: Amirhosein Toosi, Sara Harsini, François Bénard, Carlos Uribe, Arman Rahmim

机构: 卑诗省癌症研究所、不列颠哥伦比亚大学

摘要: 前列腺特异性膜抗原(PSMA)正电子发射断层扫描/计算机断层扫描(PET/CT)成像为前列腺癌(PCa)转移病灶的可视化提供了一个极其令人兴奋的前沿。然而,由于转移病灶的信噪比低、大小、形状和位置各异,准确分割转移病灶具有挑战性。该研究提出了一种新颖的方法,利用2D去噪扩散概率模型(DDPMs)在PSMA PET/CT 3D体积图像中自动分割转移病灶。该方法不同于在2D横断面或3D体积上进行分割,而是在生成的PSMA PET图像的多角度最大强度投影(MA-MIPs)上分割病灶,然后从2D MA-MIPs分割的3D有序子集期望最大化(OSEM)重建中获得最终的3D分割掩模。我们提出的方法在准确性和鲁棒性方面优于最先进的3D分割方法,能够检测和分割小的转移性PCa病灶。该方法作为一种工具,在PCa患者中量化分析转移负担具有重要潜力。

论文链接: https://arxiv.org/abs/2407.18555

视觉Transformer的混合非线性量化

原标题: Mixed Non-linear Quantization for Vision Transformers

作者: Gihwan Kim, Jemin Lee, Sihyeong Park, Yongin Kwon, Hyungshin Kim

机构: 中南大学 电子和通信研究院 韩国电子技术研究院

摘要: 大多数量化方法都是为了减小Vision Transformers模型的大小,然而大多数方法都忽视了非线性操作的量化。只有少数工作涉及非线性操作的量化,但它们在所有非线性操作上应用了单一的量化方法。我们认为,通过为每个非线性操作采用不同的量化方法,可以进一步改进这一情况。因此,为了将已知方法中对每个非线性层分配最小化误差的量化方法,我们提出了一种考虑由SQNR差度量衡量的逐层量化敏感性的混合非线性量化方法。结果显示,我们的方法在ViT、DeiT和Swin模型的8位和6位设置中,平均分别比I-BERT、FQ-ViT和I-ViT高出0.6%p和19.6%p。当训练时间有限时,我们的方法分别比I-BERT和I-ViT高出0.6%p和20.8%p。我们计划在以下网址发布我们的代码。

论文链接: https://arxiv.org/abs/2407.18437

其他链接: https://gitlab.com/ones-ai/mixed-non-linear-quantization

用于图像分类的可扩展量子非局部神经网络

原标题: A Scalable Quantum Non-local Neural Network for Image Classification

作者: Sparsh Gupta, Debanjan Konar, Vaneet Aggarwal

机构: 奥林工程学院 普渡大学

摘要: 非局部操作在计算机视觉中发挥着至关重要的作用,通过对输入中的特征进行加权求和,实现捕获长距离依赖关系,超越了传统卷积操作的局部邻域限制。非局部操作通常需要计算集合中所有元素之间的成对关系,这导致时间和内存方面的二次复杂度。由于高计算和内存需求,将非局部神经网络扩展到大规模问题可能具有挑战性。本文介绍了一种混合量子-经典可扩展的非局部神经网络,称为量子非局部神经网络(QNL-Net),以增强模式识别能力。所提出的QNL-Net依赖于固有的量子并行性,允许同时处理大量输入特征,在量子增强特征空间中进行更高效的计算,并通过量子纠缠涉及成对关系。我们将提出的QNL-Net与其他量子对应物在MNIST和CIFAR-10数据集上进行了基准测试,模拟结果展示了我们的QNL-Net在二元图像分类中取得了尖端的准确性水平,同时利用更少的量子位实现。

论文链接: https://arxiv.org/abs/2407.18906

使用难度引导特征增强网络进行多智能体轨迹预测

原标题: Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network

作者: Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu

机构: 清华大学 深圳大学

摘要: 轨迹预测对于自动驾驶至关重要,因为它旨在预测交通参与者未来的移动轨迹。传统方法通常对参与者的轨迹进行整体推断,忽略了不同参与者之间预测难度的差异。本文提出了一种新颖的难度引导特征增强网络(DGFNet),利用不同参与者之间的预测难度差异进行多智能体轨迹预测。首先,我们采用时空特征编码和交互来捕获丰富的时空特征。其次,使用难度引导解码器来控制未来轨迹流入后续模块,获得可靠的未来轨迹。然后,通过未来特征交互模块执行特征交互和融合。最后,融合的智能体特征被馈送到最终预测器中,为多个参与者生成预测的轨迹分布。实验结果表明,我们的DGFNet在Argoverse 1和2运动预测基准上实现了最先进的性能。消融研究进一步验证了每个模块的有效性。此外,与SOTA方法相比,我们的方法平衡了轨迹预测准确性和实时推断速度。

论文链接: https://arxiv.org/abs/2407.18551

在智能环境中使用机器人吸尘器存在的隐私风险调查

原标题: Investigating the Privacy Risk of Using Robot Vacuum Cleaners in Smart Environments

作者: Benjamin Ulsmaag, Jia-Chun Lin, Ming-Chang Lee

机构: 信息部门

摘要: 机器人吸尘器已经变得越来越受欢迎,并广泛应用于各种智能环境中。为了提高用户便利性,制造商还推出了智能手机应用程序,使用户能够自定义清洁设置或访问有关他们的机器人吸尘器的信息。虽然这种整合增强了用户与他们的机器人吸尘器之间的互动,但也带来潜在的隐私问题,因为用户的个人信息可能会被泄露。为了解决这些问题,在应用程序、云服务和机器人吸尘器之间实施了端到端加密,以保护交换的信息。然而,网络头部元数据仍然未加密,仍然容易受到网络窃听的影响。在本文中,我们调查了通过这些元数据可能暴露私人信息的潜在风险。在一个真实的智能环境中部署了一款流行的机器人吸尘器,在几次选择的清洁事件期间进行了被动网络窃听。我们基于关联规则学习的广泛分析表明,仅使用捕获的互联网流量元数据就有可能识别出某些事件,从而可能暴露私人用户信息并引发隐私问题。

论文链接: https://arxiv.org/abs/2407.18433

学习旋转“笔”技巧的经验教训

原标题: Lessons from Learning to Spin “Pens”

作者: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang

机构: 加州大学圣地亚哥分校 卡内基梅隆大学 加州大学伯克利

摘要: 在日常生活中,类似笔的物体的手部操纵是一项重要的技能,因为许多工具如锤子和螺丝刀形状类似。然而,由于缺乏高质量的示范和模拟与真实世界之间存在显著差距,当前基于学习的方法在这项任务中面临困难。在这项工作中,我们通过展示旋转类似笔的物体的能力,推动了基于学习的手部操纵系统的边界。我们首先使用强化学习训练一个带有特权信息的预言策略,并在模拟中生成高保真度的轨迹数据集。这有两个目的:1)在模拟中预训练感觉运动策略;2)在真实世界中进行开环轨迹重放。然后,我们使用这些真实世界轨迹对感觉运动策略进行微调,以使其适应真实世界的动态。通过不到50个轨迹,我们的策略学会了旋转超过十个具有不同物理特性的类似笔的物体,进行多次旋转。我们对我们的设计选择进行了全面分析,并分享了开发过程中学到的经验。

论文链接: https://arxiv.org/abs/2407.18902

在具有状态请求的POMDP中的在线规划

原标题: Online Planning in POMDPs with State-Requests

作者: Raphael Avalos, Eugenio Bargiacchi, Ann Nowé, Diederik M. Roijers, Frans A. Oliehoek

机构: 自由大学布鲁塞尔分校 TU Delft 城市阿姆斯特丹

摘要: 在关键的现实世界问题中,有时可以获取完整的状态信息,但成本很高,比如激活精确但能耗高的传感器或请教人类,因此迫使智能体在部分可观察性下运行。针对这种情况,我们提出了 AEMS-SR(Anytime Error Minimization Search with State Requests),这是一种专为带有状态请求的POMDPs定制的基于原则的在线规划算法。通过将搜索空间表示为图而不是树,AEMS-SR避免了由状态请求导致的搜索空间指数增长。理论分析证明了AEMS-SR的 ε \varepsilon ε-最优性,确保解决方案质量,而实证评估则展示了与AEMS和POMCP两种SOTA在线规划算法相比的有效性。AEMS-SR实现了在部分可观察性和昂贵状态请求特征的领域中进行高效规划,为各种应用提供了实际的好处。

论文链接: https://arxiv.org/abs/2407.18812

人工智能与人类合作,利用大语言模型从数据驱动的增材制造研究中提取科学信息

原标题: Human-artificial intelligence teaming for scientific information extraction from data-driven additive manufacturing research using large language models

作者: Mutahar Safdar, Jiarui Xie, Andrei Mircea, Yaoyao Fiona Zhao

机构: 麦吉尔大学 蒙特利尔
蒙特利尔大学 & Mila

摘要: 近年来,基于数据驱动的增材制造(AM)研究取得了显著成功。这导致大量科学文献涌现出来。这些作品中的知识涵盖了尚未以整合方式挖掘和形式化的AM和人工智能(AI)背景。从这些作品中提取科学信息需要大量的努力和时间。AM领域的专家们已经贡献了二十多篇综述论文,以总结这些作品。然而,特定于AM和AI背景的信息仍需要手动提取。最近基于文本数据的BERT(双向编码器表示转换器)或GPT(生成式预训练转换器)等基础模型的成功为加速科学信息提取打开了可能性。我们提出了一个框架,可以促进AM和AI专家之间的合作,持续从基于数据驱动的AM文献中提取科学信息。基于提出的框架实施了一个演示工具,并进行了一个案例研究,以提取与数据集、建模、传感和AM系统类别相关的信息。我们展示了大语言模型(LLMs)加速从基于数据驱动的AM文献中提取相关信息的能力。未来,该框架可以用于从工程学科的更广泛设计和制造文献中提取信息。

论文链接: https://arxiv.org/abs/2407.18827

使用神经跳跃ODE学习混沌系统和长期预测

原标题: Learning Chaotic Systems and Long-Term Predictions with Neural Jump ODEs

作者: Florian Krach, Josef Teichmann

机构: 瑞士苏黎世联邦理工学院ETH Zurich

摘要: 路径依赖神经跳跃ODE(PD-NJ-ODE)是一种用于在线预测一般(可能是非马尔可夫)随机过程的模型,该过程具有不规则(在时间上)和潜在不完整(关于坐标)的观测。从理论上建立了该模型收敛于 L 2 L^2 L2-最优预测器的条件期望。因此,该模型的训练仅基于基础随机过程的实现数据集,无需了解过程的规律。在基础过程是确定性的情况下,条件期望与过程本身一致。因此,该框架可以等效地用于仅从动力系统的实现数据中学习ODE或PDE系统的动态,这些数据具有不同的初始条件。我们通过将其应用于双摆混沌系统展示了我们方法的潜力。在训练标准PD-NJ-ODE方法时,我们发现预测在大约评估时间的一半后开始偏离真实路径。在这项工作中,我们通过引入两个新颖的想法增强了模型,这两个想法独立地提高了我们建模设置的性能。得到的动态与混沌系统的真实动态非常接近。相同的增强可以被用来明确地使PD-NJ-ODE能够学习一般随机数据集的长期预测,而标准模型失败。这在几个实验中得到验证。

论文链接: https://arxiv.org/abs/2407.18808

贝叶斯并行分支图神经网络中的鲁棒学习:窄宽极限

原标题: Robust Learning in Bayesian Parallel Branching Graph Neural Networks: The Narrow Width Limit

作者: Zechen Zhang, Haim Sompolinsky

机构: 哈佛大学 特拉维夫大学耶路撒冷希伯来大学

摘要: 随机神经网络的无限宽度极限被认为会导致神经网络作为高斯过程(NNGP)(Lee等人[2018])的现象,其特征是任务无关的核。普遍认为,更大的网络宽度有助于改善泛化能力(Park等人[2019])。然而,这项工作通过研究类似残差网络的贝叶斯并行分支图神经网络(BPB-GNN)的窄宽度极限挑战了这一观念。我们证明,当BPB-GNN的宽度明显小于训练样本数量时,由于分支在核重标准化中的对称破缺,每个分支表现出更强大的学习能力。令人惊讶的是,在偏置受限的情况下,窄宽度极限下BPB-GNN的性能通常优于或可与宽宽度极限下的性能相媲美。此外,在窄宽度极限下,每个分支的读出范数大多独立于架构超参数,但通常反映了数据的性质。我们的结果表征了一种新定义的并行分支网络的窄宽度范围。

论文链接: https://arxiv.org/abs/2407.18807

TAGIFY:LLM 动力标记界面,用于提高 OGD 门户上数据的可查找性

原标题: TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals

作者: Kevin Kliimask, Anastasija Nikiforova

机构: 塔尔图大学 计算机科学学院 沃尔特大学

摘要: 自2000年代中期以来,致力于推动开放政府数据(OGD)的努力在各级政府部门中获得了显著的推动力。随着越来越多的数据集发布在OGD门户上,找到特定数据变得更加困难,导致信息过载。完整准确地记录数据集,包括为数据集分配适当标签,是提高数据集可查性和可访问性的关键。对爱沙尼亚开放数据门户进行的分析显示,11%的数据集没有关联标签,而26%的数据集只有一个标签,这凸显了门户内数据可查性和可访问性方面的挑战,而根据最近的开放数据成熟度报告,该门户被认为是引领潮流的。本研究旨在提出一种自动化解决方案,通过为OGD门户上的数据集打标签来提高数据的可查性。本文介绍了Tagify - 一个利用大语言模型(LLM)如GPT-3.5-turbo和GPT-4来自动化数据集标记的原型标记界面。它为英语和爱沙尼亚语的数据集生成标签,从而通过数据发布者增强元数据准备,改善数据用户在OGD门户上的数据可查性。开发的解决方案经过用户评估,并收集了他们的反馈,以制定未来原型改进的议程。

论文链接: https://arxiv.org/abs/2407.18764

使用变形测试评估人类轨迹预测

原标题: Evaluating Human Trajectory Prediction with Metamorphic Testing

作者: Helge Spieker, Nassim Belmecheri, Arnaud Gotlieb, Nadjib Lazaar

机构: Simula研究实验室 LIRMM, 蒙彼利埃大学, CNRS

摘要: 人类轨迹的预测对于在现实世界中行动的自主系统的规划非常重要,例如自动驾驶或移动机器人。人类轨迹预测是一个嘈杂的过程,没有任何预测能够精确匹配任何未来轨迹。因此,人们将其视为一个随机问题,目标是最小化真实轨迹与预测轨迹之间的误差。在这项工作中,我们探讨了应用变形测试来进行人类轨迹预测。变形测试旨在处理不明确或缺失的测试预言。它非常适用于人类轨迹预测,因为在这种情况下,没有明确的正确或错误人类行为标准。变形关系依赖于源测试用例上的转换并利用不变量。这种设置非常适合人类轨迹预测,因为在输入变化时,例如输入数据的镜像和重新缩放,预期人类行为存在许多对称性。我们讨论了如何将变形测试应用于随机人类轨迹预测,并引入了Wasserstein违规标准,以统计评估后续测试用例是否违反了保持标签的变形关系。

论文链接: https://arxiv.org/abs/2407.18756

得分匹配飙升:线性、非线性和潜在变量因果发现

原标题: Score matching through the roof: linear, nonlinear, and latent variables causal discovery

作者: Francesco Montagna, Philipp M. Faller, Patrick Bloebaum, Elke Kirschbaum, Francesco Locatello

机构: 马尔加大学、杜塞尔多夫理工学院、亚马逊、奥地利科学与技术研究所(ISTA)

摘要: 从观测数据中发现因果关系具有巨大的潜力,但现有方法依赖于对潜在因果结构的强假设,通常需要对所有相关变量进行完全可观测。我们通过利用观测变量的得分函数 ∇ log ⁡ p ( X ) \nabla \log p(X) logp(X) 来解决这些挑战,并提出以下贡献。首先,我们将现有的可识别性结果与得分一起推广到具有对因果机制最小要求的加性噪声模型。其次,我们建立了在存在隐藏变量的情况下从得分中推断因果关系的条件;这个结果是双重的:我们展示了得分作为一种替代条件独立性检验的潜力,用于推断具有隐藏变量的因果图的等价类,并提供了在潜在变量模型中识别直接原因的必要条件。基于这些见解,我们提出了一个灵活的算法,用于跨线性、非线性和潜在变量模型的因果发现,并进行了实证验证。

论文链接: https://arxiv.org/abs/2407.18755

ReALFRED:一个在逼真环境中执行指令的基准测试任务

原标题: ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

作者: Taewoong Kim, Cheolhong Min, Byeonghwi Kim, Jinyeon Kim, Wonje Jeung, Jonghyun Choi

机构: 首尔国立大学 燕世大学

摘要: 模拟虚拟环境已被广泛用于学习执行日常家务任务的机器人智能体。这些环境迄今为止鼓励了研究进展,但通常提供有限的对象交互性,视觉外观与真实环境不同,或者相对较小的环境尺寸。这阻碍了虚拟场景中学到的模型能够被快速部署。为了弥合这些学习环境与部署(即真实)环境之间的差距,我们提出了 ReALFRED 基准,利用真实世界的场景、对象和房间布局,通过理解自由形式语言指令并与大型、多房间和三维捕获场景中的对象进行交互,来学习完成家务任务的智能体。具体来说,我们通过更新更大的环境空间和更小的视觉领域差距,扩展了 ALFRED 基准。通过 ReALFRED,我们分析了先前为 ALFRED 基准设计的方法,并观察到它们在所有指标上始终表现较差,鼓励社区在更真实的环境中开发方法。我们的代码和数据已公开提供。

论文链接: https://arxiv.org/abs/2407.18550

通过自监督语音模型提高NAM到语音合成的可懂度

原标题: Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models

作者: Neil Shah, Shirish Karande, Vineet Gandhi

机构: IIIT Hyderabad TCS Research Pune

摘要: 我们提出了一种新颖的方法,显著改善了非可听低语谈(NAM)转换为语音的可理解性,利用自我监督和序列到序列(Seq2Seq)学习技术。与明确记录地面真实语音的传统方法不同,我们的方法依赖于自我监督和语音到语音合成来模拟地面真实语音。尽管利用模拟语音,我们的方法在Mel-Cepstral Distortion(MCD)指标上超过了当前的最先进技术(SOTA),提高了29.08%。此外,我们提供了错误率,并展示了我们的模型在新颖感兴趣的声音中合成语音的熟练程度。此外,我们提出了一种增强现有的CSTR NAM TIMIT Plus语料库的方法,建立了一个以42.57%的词错误率(WER)为基准来衡量合成语音可理解性的基准。语音样本可以在此 https URL 找到。

论文链接: https://arxiv.org/abs/2407.18541

Github: https://nam2speech.github.io/NAM2Speech/

外逼近和超模切割在混合逻辑模型下受限组合优化中的应用

原标题: Outer Approximation and Super-modular Cuts for Constrained Assortment Optimization under Mixed-Logit Model

作者: Hoang Giang Pham, Tien Mai

机构: 新加坡管理大学

摘要: 在这篇论文中,我们研究了在混合逻辑斯蒂(customer choice)模型下的组合优化问题。尽管组合优化在收入管理中已经是一个主要话题数十年了,但混合逻辑斯蒂模型被认为是建模和预测客户购买行为最一般和灵活的方法之一。现有的精确方法主要依赖于混合整数线性规划(MILP)或二阶锥(CONIC)重构,这些方法允许使用现成的求解器进行精确求解。然而,这些方法在解决大规模实例时往往存在连续松弛性较弱且速度较慢的问题。我们的工作通过专注于可以证明是单调超模和凸的目标函数组件来解决这个问题。这使我们能够推导出有效的切割来外逼近非线性目标函数。然后,我们展示这些有效的切割可以被纳入到切割平面或分支切割方法中来精确求解问题。大量实验证明,我们的方法在解决方案质量和计算时间方面始终优于先前的方法。

论文链接: https://arxiv.org/abs/2407.18532

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值