使用知识图嵌入来近似统计EL中的概率推理
原标题: Approximating Probabilistic Inference in Statistical EL with Knowledge Graph Embeddings
作者: Yuqicheng Zhu, Nico Potyka, Bo Xiong, Trung-Kien Tran, Mojtaba Nayyeri, Evgeny Kharlamov, Steffen Staab
机构: 博世人工智能中心 德国 斯图加特大学 英国 卡迪夫大学 卡迪夫大学 南安普敦大学 挪威 奥斯陆大学
摘要: 统计信息无处不在,但从中得出有效结论却异常困难。我们解释了如何利用知识图嵌入来高效近似概率推理,以统计EL(SEL)为例,它是轻量级描述逻辑EL的统计扩展。我们提供了运行时和正确性保证的证明,并在实证评估中评估了我们方法的运行时和近似质量。
论文链接: https://arxiv.org/abs/2407.11821
数据科学教育的未来
原标题: The Future of Data Science Education
作者: Brian Wright, Peter Alonzi, Ali Riveria
机构: 弗吉尼亚大学 数据科学学院
摘要: 数据科学的定义是一个备受争议的话题。对许多人来说,这个定义只是人工智能或机器学习的简单捷径。然而,数据科学领域比简单的捷径所能提供的要深奥和微妙得多。弗吉尼亚大学数据科学学院已经开发了一个新颖的模型来定义数据科学。这个模型基于对数据科学各个领域所做工作的统一理解。它代表了我们在理解和教授数据科学方面的一次世代性飞跃。在本文中,我们将介绍该模型的核心特点,并解释它是如何统一各种概念,远远超越人工智能的分析组件。基于这一基础,我们将介绍我们的数据科学本科专业课程,并展示它如何培养学生成为全面发展的数据科学团队成员和领导者。本文将以深入概述数据科学基础课程结束,该课程旨在向学生介绍该领域,同时实施经过验证的面向STEM的教学方法。这些方法包括规范分级、积极学习讲座、来自行业专家的客座讲座以及每周的游戏化实验室。
论文链接: https://arxiv.org/abs/2407.11824
CCVA-FL:用于医学影像的跨客户变体自适应联邦学习
原标题: CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging
作者: Sunny Gupta, Amit Sethi
机构: 印度理工学院孟买
摘要: 联邦学习(FL)提供了一种在分散数据上训练模型的隐私保护方法。它在医疗保健领域的潜力巨大,但由于医学图像数据在不同客户端之间存在交叉变化,并且受到有限注释的影响,因此会出现挑战。本文介绍了跨客户端变化自适应联邦学习(CCVA-FL)来解决这些问题。CCVA-FL旨在通过将图像转换为共同特征空间来最小化客户端之间的交叉变化。它涉及对每个客户端的图像子集进行专家注释,然后选择数据复杂性最小的客户端作为目标。然后,使用基于目标客户端注释图像的Transformer(DiT)的可扩展扩散模型生成合成医学图像。这些合成图像捕获多样性并代表原始数据,然后与其他客户端共享。然后,每个客户端将其本地图像转换为目标图像空间,使用图像到图像的转换。随后,在联邦学习环境中使用翻译后的图像来开发服务器模型。我们的结果表明,CCVA-FL通过有效解决客户端之间数据分布差异而不损害隐私,优于普通联邦平均。
论文链接: https://arxiv.org/abs/2407.11652
数据榨取沙盒:用于多模态数据模型共同开发的综合套件
原标题: Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
作者: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
机构: 阿里巴巴集团
摘要: 大规模多模态生成模型的出现极大地推进了人工智能的发展,引入了前所未有的性能和功能水平。然而,由于历史上模型中心和数据中心发展的孤立路径,优化这些模型仍然具有挑战性,导致次优结果和资源利用效率低下。为此,我们提出了一个专为集成数据-模型共同开发量身定制的新型沙盒套件。这个沙盒提供了一个全面的实验平台,可以快速迭代和基于洞察力的优化数据和模型。我们提出的“探测-分析-优化”工作流程,通过在最先进的LLaVA和基于DiT的模型上的应用得到验证,产生了显著的性能提升,例如在VBench排行榜上名列前茅。我们还从详尽的基准测试中发现了有益的见解,揭示了数据质量、多样性和模型行为之间的关键相互作用。希望促进对多模态数据和生成建模的深入理解和未来进展,我们的代码、数据集和模型得到维护,并可在此网址访问。
论文链接: https://arxiv.org/abs/2407.11784
Github: https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md
跨越石:音频-视觉语义分割的渐进式训练策略
原标题: Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation
作者: Juncheng Ma, Peiwen Sun, Yaoting Wang, Di Hu
机构: 中国科学院大学 中国人民大学高灵人工智能学院 北京邮电大学 工程下一代搜索和推荐研究中心
摘要: 音视频分割(AVS)旨在实现对视频中声音源的像素级定位,而音视频语义分割(AVSS)作为AVS的延伸,进一步追求对音视频场景的语义理解。然而,由于AVSS任务需要同时建立音视频对应关系和语义理解,我们观察到先前的方法在端到端训练中难以处理这些目标的混合,导致学习不足和次优化。因此,我们提出了一种名为“Stepping Stones”的两阶段训练策略,将AVSS任务分解为从定位到语义理解的两个简单子任务,在每个阶段都进行充分优化,以实现逐步全局优化。这种训练策略还在现有方法上证明了其泛化性和有效性。为了进一步提高AVS任务的性能,我们提出了一种新颖的框架——自适应音视频分割,其中我们整合了自适应音频查询生成器,并将掩码注意力集成到Transformer解码器中,促进了视觉和音频特征的自适应融合。大量实验证明我们的方法在所有三个AVS基准测试中取得了最先进的结果。该项目主页可通过此链接访问。
论文链接: https://arxiv.org/abs/2407.11820
Github: https://gewu-lab.github.io/stepping_stones/
对抗样本遇见遮罩图像建模
原标题: AEMIM: Adversarial Examples Meet Masked Image Modeling
作者: Wenzhao Xiang, Chang Liu, Hang Su, Hongyang Yu
机构: 中国科学院计算技术研究所 中国科学院 深圳鹏城实验室 中国科学院大学 上海交通大学 电子工程系 清华大学 计算机科学与技术系
摘要: 掩码图像建模(MIM)因其在表示学习中的显著优势而备受关注。作为传统方法的一种替代方案,最近出现了从损坏图像中重建作为一种有前途的假设任务。然而,常规损坏图像是使用通用生成器生成的,往往缺乏与预训练中涉及的特定重建任务相关性。因此,从常规损坏图像中重建不能确保假设任务的困难程度,可能导致性能下降。此外,生成损坏图像可能会引入额外的生成器,导致显著的计算负担。为了解决这些问题,我们提出将对抗样本纳入掩码图像建模中,作为新的重建目标。在线生成的对抗样本仅使用训练模型,可以直接瞄准与预训练相关的任务。因此,这种整合不仅提升了重建中挑战的水平,还增强了效率,有助于模型获得更优秀的表示。具体而言,我们引入了一个新颖的辅助假设任务,重建与原始图像对应的对抗样本。我们还设计了一种创新的对抗攻击,为MIM预训练制作更合适的对抗样本。值得注意的是,我们的方法不限于特定的模型架构和MIM策略,使其成为一个适用于增强所有MIM方法的可适应插件。实验证明了我们方法在增强现有MIM方法的泛化能力和鲁棒性方面的显著能力。值得注意的是,我们的方法在各种任务上,包括ImageNet及其变体和其他下游任务上,均超过了基准性能。
论文链接: https://arxiv.org/abs/2407.11537
重新思考从重新平衡公平图神经网络
原标题: Rethinking Fair Graph Neural Networks from Re-balancing
作者: Zhixun Li, Yushun Dong, Qiang Liu, Jeffrey Xu Yu
机构: 香港中文大学 弗吉尼亚大学 中国科学院自动化研究所
摘要: 受图神经网络(GNNs)强大的表示能力驱动,许多 GNN 模型已被广泛部署在许多实际应用中。然而,由于不同人群之间的分布差异,高风险决策系统中的公平性越来越受到关注。尽管许多最近的研究致力于改善 GNN 的公平性并取得了相当大的成功,但它们都需要重大的架构更改或额外的损失函数,需要更多的超参数调整。令人惊讶的是,我们发现简单的再平衡方法可以轻松匹敌甚至超越现有的公平 GNN 方法。我们声称,不同人群之间的不平衡是不公平的重要来源,导致每个群体对参数更新的贡献不平衡。然而,这些简单的再平衡方法在训练过程中存在其自身的缺点。在本文中,我们提出了 FairGB,即通过重新平衡实现公平的图神经网络,通过群体平衡减轻了 GNN 的不公平性。从技术上讲,FairGB 由两个模块组成:反事实节点混合和贡献对齐损失。首先,我们选择跨领域和跨类别的反事实对,并插值自我网络以生成新样本。通过分析的指导,我们可以揭示我们模型的去偏见机制,并证明我们的策略可以使敏感属性在统计上独立于目标标签。其次,我们根据梯度重新权衡每个群体的贡献。通过结合这两个模块,它们可以相互促进。基准数据集上的实验结果表明,我们的方法在效用和公平性指标方面均可以实现最先进的结果。代码可在此 https URL 上找到。
论文链接: https://arxiv.org/abs/2407.11624
Github: https://github.com/ZhixunLEE/FairGB
知识蒸馏的不变一致性
原标题: Invariant Consistency for Knowledge Distillation
作者: Nikolaos Giakoumoglou, Tania Stathaki
机构: 帝国理工学院 深度知识蒸馏
摘要: 知识蒸馏(KD)涉及将一个神经网络的知识转移给另一个神经网络,通常是从一个更大、训练良好的模型(教师)到一个更小、更高效的模型(学生)。传统的知识蒸馏方法通过最小化教师和学生网络的概率输出之间的Kullback-Leibler(KL)散度来实现。然而,这种方法经常忽视了嵌入在教师网络中的关键结构知识。在本文中,我们介绍了不变一致性蒸馏(ICD),这是一种旨在通过确保学生模型的表示与教师模型的表示一致来增强知识蒸馏的新方法。我们的方法将对比学习与显式不变性惩罚相结合,从教师对数据的表示中捕获了更多信息。我们在CIFAR-100数据集上的结果表明,ICD优于传统的知识蒸馏技术,并超过了13种最先进的方法。在某些情况下,学生模型甚至在准确性方面超过了教师模型。此外,我们成功地将我们的方法转移到其他数据集,包括Tiny ImageNet和STL-10。代码将很快公开。
论文链接: https://arxiv.org/abs/2407.11802
面向企业信用评估的图维度注意力网络
原标题: Graph Dimension Attention Networks for Enterprise Credit Assessment
作者: Shaopeng Wei, Beni Egressy, Xingyan Chen, Yu Zhao, Fuzhen Zhuang, Roger Wattenhofer, Gang Kou
机构: Member, IEEE Gang Kou
摘要: 企业信用评估对于评估财务风险至关重要,而图神经网络(GNNs)凭借其先进的建模实体间关系能力,是深入了解这些金融网络的自然工具。然而,现有基于GNN的方法主要强调实体级别的注意力机制用于传染风险聚合,往往忽视了不同特征维度的异质重要性,因此在充分建模信用风险水平方面存在不足。为解决这一问题,我们提出了一种名为图维度注意网络(GDAN)的新型架构,它结合了维度级别的注意力机制,以捕捉细粒度的与风险相关的特征。此外,我们探索了在金融场景中基于GNN方法的可解释性,并提出了一种简单但有效的面向数据的GDAN解释器,称为GDAN-DistShift。DistShift通过量化消息传递过程中的分布变化来提供边级别的可解释性。此外,我们收集了一个真实的、多源的企业信用评估数据集(ECAD),并已向研究界提供了访问权限,因为在这一领域缺乏高质量的数据集。在ECAD上进行的大量实验证明了我们方法的有效性。此外,我们还在知名数据集SMEsD和DBLP上运行了GDAN,同样取得了出色的结果。
论文链接: https://arxiv.org/abs/2407.11615
点击高斯:与任意3D高斯交互分割
原标题: Click-Gaussian: Interactive Segmentation to Any 3D Gaussians
作者: Seokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do
机构: LG电子、首尔国立大学
摘要: 通过对3D高斯分布进行交互式分割,为实时操纵3D场景提供了巨大机会,这要归功于3D高斯飞溅的实时渲染能力。然而,当前的方法在处理嘈杂的分割输出时需要耗费大量时间进行后处理。此外,它们难以提供详细的分割,而这对于对3D场景进行精细操作是很重要的。在这项研究中,我们提出了Click-Gaussian,它学习了两级粒度的可区分特征字段,促进了分割而无需耗时的后处理。我们深入探讨了由于从3D场景独立获得的2D分割而产生的学习特征字段不一致而带来的挑战。当跨视图的2D分割结果,即3D分割的主要线索,相互冲突时,3D分割的准确性会下降。为了克服这些问题,我们提出了全局特征引导学习(GFL)。GFL从跨视图的嘈杂2D分割中构建全局特征候选集群,这在训练3D高斯特征时平滑了噪声。我们的方法每次点击运行时间为10毫秒,比先前方法快15到130倍,同时显著提高了分割准确性。我们的项目页面位于此URL。
论文链接: https://arxiv.org/abs/2407.11793
Github: https://seokhunchoi.github.io/Click-Gaussian
LRQ: 通过学习低秩权重缩放矩阵优化大语言模型的后训练量化
原标题: LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices
作者: Jung Hyun Lee, Jeonghoon Kim, June Yong Yang, Se Jung Kwon, Eunho Yang, Kang Min Yoo, Dongsoo Lee
机构: NA VER Cloud KAIST AI AITRICS SNU AI Center
摘要: 随着大语言模型(LLMs)的商业化,权重激活量化技术已经出现,用于压缩和加速LLMs,实现高吞吐量同时降低推理成本。然而,现有的用于量化LLMs权重和激活的后训练量化(PTQ)技术仍然存在着不可忽略的准确性下降问题,特别是在大规模多任务语言理解方面。为了解决这个问题,我们提出了低秩量化(LRQ)- 一种简单而有效的用于LLMs的后训练权重量化方法,通过利用低秩权重缩放矩阵重构中间Transformer块的输出,取代传统的需要与其相关权重一样多可学习尺度的完整权重缩放矩阵。由于通过低秩结构进行参数共享,LRQ只需要学习更少的参数,同时实现权重的个体缩放,从而提升了量化LLMs的泛化能力。我们展示了在(i)8位权重和每张量激活量化,(ii)4位权重和8位每个Token激活量化,以及(iii)低位权重量化方案下,LRQ相对于先前的LLM PTQ工作的优越性。我们的代码可在\url{this https URL}找到,以激励LLM研究人员和工程师。
论文链接: https://arxiv.org/abs/2407.11534
Github: https://github.com/onliwad101/FlexRound_LRQ
将AI参与推广到更广泛范围:对OpenAI民主输入AI项目的评论
原标题: Bringing AI Participation Down to Scale: A Comment on Open AIs Democratic Inputs to AI Project
作者: David Moats, Chandrima Ganguly
机构: 赫尔辛基大学
摘要: 这篇评论文章审查了最近的 Open AI Democratic Inputs 计划,该计划资助了10个团队设计程序,以促进生成式人工智能中的公众参与。虽然赞赏这些项目中的技术创新,但我们发现了一些共同的假设,包括LLM的普遍性、提取抽象价值、征求解决方案而非问题,并将参与等同于民主。相反,我们呼吁进行涉及特定社区和用例的人工智能参与,并征求需要解决的具体问题。我们还发现,这些社区对结果有利害关系很重要,包括对数据或模型的所有权。
论文链接: https://arxiv.org/abs/2407.11613
对 GPU 上 HGNN 训练的特征和理解
原标题: Characterizing and Understanding HGNN Training on GPUs
作者: Dengke Han, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Ninghui Sun
机构: 中国科学院计算技术研究所 中国科学院大学
摘要: 由于异构图神经网络(HGNNs)在异构图数据的显著表示能力方面,已被广泛应用于诸如推荐系统和医疗分析等许多关键的现实世界领域。在它们的实际应用之前,通过大量训练来确定针对特定任务的最佳HGNN模型参数是一项耗时且昂贵的过程。为了增强HGNN训练的效率,必须对训练过程中的执行语义和模式进行表征和分析,以识别性能瓶颈。在这项研究中,我们对两种主流HGNN训练场景进行了深入的量化和分析,包括单GPU和多GPU分布式训练。基于表征结果,我们揭示了不同HGNN训练场景中的性能瓶颈及其根本原因,并从软件和硬件两个角度提供优化指南。
论文链接: https://arxiv.org/abs/2407.11790
EARN 公平性:在利益相关者中解释、询问、审查和协商人工智能公平度量
原标题: EARN Fairness: Explaining, Asking, Reviewing and Negotiating Artificial Intelligence Fairness Metrics Among Stakeholders
作者: Lin Luo, Yuri Nakao, Mathieu Chollet, Hiroya Inakoshi, Simone Stumpf
机构: 格拉斯哥大学 福富士通有限公司
摘要: 许多人工智能(AI)专家提出并采用了许多公平度量标准,以定量衡量偏见并定义AI模型的公平性。认识到需要迎合利益相关者对公平理解的多样性,正在努力征求他们的意见。然而,将AI公平度量标准传达给没有AI专业知识的利益相关者,捕捉他们的个人偏好,并寻求集体共识仍然具有挑战性且未被充分探讨。为弥合这一差距,我们提出了一个新框架,EARN Fairness,它促进了利益相关者之间的集体度量标准决策,而无需AI专业知识。该框架具有一个可适应的交互式系统和以利益相关者为中心的EARN Fairness流程,用于解释公平度量标准,询问利益相关者的个人度量标准偏好,共同审查度量标准,并就度量标准选择达成共识。为了收集经验结果,我们将该框架应用于信用评级场景,并进行了一项涉及18名没有AI知识的决策主体的用户研究。我们确定了他们的个人度量标准偏好以及他们在个人会话中对不公平水平的可接受程度。随后,我们揭示了他们如何在团队会话中达成度量标准共识。我们的工作表明,EARN Fairness框架使利益相关者能够表达个人偏好并达成共识,为在高风险环境中实施以人为中心的AI公平提供了实用指导。通过这种方法,我们旨在协调不同利益相关者的公平期望,促进更加公平和包容的AI公平。
论文链接: https://arxiv.org/abs/2407.11442
使用去噪神经权重进行高效训练
原标题: Efficient Training with Denoised Neural Weights
作者: Yifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren
机构: Snap Inc. Northeastern University
摘要: 良好的权重初始化是降低深度神经网络(DNN)模型训练成本的有效措施。如何初始化参数的选择具有挑战性,可能需要手动调整,这可能耗时且容易出现人为错误。为了克服这些限制,这项工作迈出了一步,构建了一个权重生成器来合成神经网络的初始化权重。我们以图像到图像翻译任务与生成对抗网络(GANs)为例,因为容易收集涵盖广泛范围的模型权重。具体而言,我们首先收集了一个包含各种图像编辑概念及其对应训练权重的数据集,后来用于训练权重生成器。为了解决不同层之间的特征差异和需要预测的大量权重,我们将权重分成相等大小的块,并为每个块分配一个索引。随后,使用概念的文本条件和块索引,通过这样的数据集训练扩散模型。通过使用我们的扩散模型预测的去噪权重初始化图像翻译模型,训练仅需43.3秒。与从头开始训练(即Pix2pix)相比,我们在获得更好的图像生成质量的同时,为新概念实现了15倍的训练时间加速。
论文链接: https://arxiv.org/abs/2407.11966
跨阶段相互学习框架用于非对比CT扫描中肺栓塞的识别
原标题: Cross-Phase Mutual Learning Framework for Pulmonary Embolism Identification on Non-Contrast CT Scans
作者: Bizhe Bai, Yan-Jie Zhou, Yujian Hu, Tony C. W. Mok, Yilang Xiang, Le Lu, Hongkun Zhang, Minfeng Xu
机构: 阿里巴巴集团 DAMO学院 杭州湖畔实验室 浙江大学计算机科学与技术学院 复旦大学信息科学与技术学院 浙江大学医学院第一附属医院
摘要: 肺栓塞(PE)是一种危及生命的疾病,迅速准确的诊断至关重要,但由于主要表现为非典型症状,因此诊断困难。肺动脉CT造影(CTPA)被公认为临床上的金标准成像工具,但对急诊科患者可能存在禁忌症,并且是一项繁重的程序,因此需要通过非对比CT(NCT)扫描来识别PE。在这项工作中,我们探讨了将深度学习方法应用于NCT扫描以进行PE识别的可行性。我们提出了一种新颖的交叉阶段互相学习框架(CPMN),促进了从CTPA到NCT的知识转移,同时以多任务方式进行栓塞分割和异常分类。所提出的CPMN利用了增强双通道网络之间空间连续性和互相学习的Inter-Feature Alignment(IFA)策略,同时Intra-Feature Discrepancy(IFD)策略可以促进对单通道网络中复杂背景下PE的精确分割。为了全面评估所提出的方法,建立了一个包含334名PE患者和1,105名正常受试者的大规模双相数据集。实验结果表明,CPMN在NCT扫描中实现了领先的识别性能,患者级敏感性和特异性分别为95.4%和99.6%,表明我们的方法具有潜力成为临床实践中PE识别的经济、可访问和精确工具。
论文链接: https://arxiv.org/abs/2407.11529
提高 mHealth 微干预在应对压力方面的参与度和功效:一项野外研究
原标题: Improving Engagement and Efficacy of mHealth Micro-Interventions for Stress Coping: an In-The-Wild Study
作者: Chaya Ben Yehuda, Ran Gilad-Bachrach, Yarin Udi
机构: 特拉维夫大学 爱尔兰
摘要: 在保持移动健康(mHealth)干预的长期用户参与度并保持其高效性方面,仍然是现实世界中健康应用的一个持续挑战。为了解决这个问题,我们引入了一种新算法,即个性化、上下文感知推荐器(PCAR),用于干预选择,并在一个现场实验中评估其性能。在一个为期四周的野外实验中,涉及29名有年幼子女的父母,我们通过移动聊天机器人提供个性化的减压微干预。我们使用瞬时应激水平生态瞬时评估(EMAs)在每次干预前后评估它们对减压的影响。我们的研究结果表明,与随机干预选择和未接受任何干预的对照组相比,PCAR干预选择在增强mHealth微干预对应对压力的参与度和效果方面表现出优势。此外,我们展示了即使是简短的一分钟干预也可以显著降低感知到的压力水平(p=0.001)。我们观察到,个体在活动之间的过渡时期,例如从下午活动过渡到睡前常规时,最容易接受一分钟的干预。我们的研究通过引入一种个性化的上下文感知干预选择算法,提高了mHealth干预的参与度和效果,确定了减压干预的关键时机,并提供了改善应对压力的机制的见解。
论文链接: https://arxiv.org/abs/2407.11612
荆棘与算法:受长颈鹿和阿卡西亚树启发的生成式人工智能挑战航行
原标题: Thorns and Algorithms: Navigating Generative AI Challenges Inspired by Giraffes and Acacias
作者: Waqar Hussain
机构: 澳大利亚墨尔本 CSIRO的Data61
摘要: 人类与生成式人工智能(Gen AI)之间的相互作用与非洲大草原上长颈鹿和金合欢之间动态关系有着深刻的相似之处。正如长颈鹿穿越金合欢的荆棘防御以获取营养一样,人类与Gen AI互动,通过应对伦理和操作挑战来利用其优势。本文探讨了人类如何像年幼的长颈鹿一样正在掌握他们的环境,处于适应和塑造Gen AI的早期阶段。它深入探讨了人类正在制定和完善的策略,以帮助减轻偏见、错误信息和侵犯隐私等风险,这些风险影响并塑造了Gen AI的演变。虽然长颈鹿-金合欢的类比恰当地描绘了人类与人工智能的关系,但它对比了自然的进化完美与人造技术固有的缺陷以及人类滥用技术的倾向,从而引发许多伦理困境。通过HHH框架,我们确定了在人工智能开发中嵌入乐于助人、诚实和无害价值观的途径,培育符合人类价值观的安全对齐智能体。这一叙事呈现了对人类韧性和适应能力的谨慎乐观观点,展示了我们利用技术并有效实施保障措施的能力,而不屈服于其危险。它强调了一种共生关系,人类和人工智能不断塑造彼此以实现互惠。
论文链接: https://arxiv.org/abs/2407.11360
基于运动导向的单目动态人体建模的神经辐射场
原标题: Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling
作者: Jaehyeok Kim, Dongyoon Wee, Dan Xu
机构: 香港科技大学 南韩NAVER Cloud 公司
摘要: 这篇论文介绍了面向运动的组合神经辐射场(MoCo-NeRF),这是一个旨在通过新颖的非刚性运动建模方法执行单眼人类视频的自由视点渲染的框架。在动态穿着衣物的人类背景下,复杂的服装动态产生了与骨骼关节运动本质上不同且对渲染质量至关重要的非刚性运动。传统方法将非刚性运动建模为空间(3D)偏差以及骨骼变换。然而,由于学习复杂性高且缺乏直接监督,要想实现最佳质量要么耗时要么具有挑战性。为解决这一问题,我们提出了一种新颖的方法,将非刚性运动建模为辐射残差场,以便从渲染中获得更直接的颜色监督,并利用刚性辐射场作为先验来降低学习过程的复杂性。我们的方法利用单一的多分辨率哈希编码(MHE)同时学习刚性骨骼运动的规范 T-pose 表示和非刚性运动的辐射残差场。此外,为了进一步提高训练效率和可用性,我们将 MoCo-NeRF 扩展到支持在单个框架内同时训练多个主体,这得益于我们对非刚性运动建模的有效设计。通过全局 MHE 和可学习的身份编码以及多个局部 MHE 的整合,我们实现了这种可扩展性。我们在 ZJU-MoCap 和 MonoCap 上展示了广泛的结果,清楚地展示了在单主体和多主体设置中的最先进性能。代码和模型将在项目页面上公开提供:此处的链接。
论文链接: https://arxiv.org/abs/2407.11962
Github: https://stevejaehyeok.github.io/publications/moco-nerf
Diff-MTS:面向大模型时代的工业时间序列的时间增强条件扩散式AIGC
原标题: Diff-MTS: Temporal-Augmented Conditional Diffusion-based AIGC for Industrial Time Series Towards the Large Model Era
作者: Lei Ren, Haiteng Wang, Yuanjun Laili
机构: 清华大学
摘要: 工业多变量时间序列(MTS)是人们了解机器状态的工业领域的关键视角。然而,由于数据收集困难和隐私问题,用于构建工业智能和工业大模型的可用数据远远不够。因此,工业时间序列数据生成具有重要意义。现有研究通常应用生成对抗网络(GANs)来生成MTS。然而,由于生成器和鉴别器的联合训练,GANs在训练过程中存在不稳定性。本文提出了一种称为Diff-MTS的时间增强条件自适应扩散模型,用于MTS生成。它旨在更好地处理MTS数据的复杂时间依赖性和动态性。具体而言,提出了一种条件自适应最大均值差异(Ada-MMD)方法,用于受控生成MTS,不需要分类器来控制生成。它改善了扩散模型的条件一致性。此外,建立了一个用于捕获复杂时间模式并进一步提高合成时间序列质量的时间分解重建UNet(TDR-UNet)。对C-MAPSS和FEMTO数据集进行的全面实验表明,所提出的Diff-MTS在多样性、保真度和效用方面明显优于基于GAN的方法。这些结果表明,Diff-MTS有助于生成工业数据,有助于智能维护和工业大模型的构建。
论文链接: https://arxiv.org/abs/2407.11501
随机网络物理系统在分布转移下的统计可达性分析
原标题: Statistical Reachability Analysis of Stochastic Cyber-Physical Systems under Distribution Shift
作者: Navid Hashemi, Lars Lindemann, Jyotirmoy V. Deshmukh
机构: 南加州大学
摘要: 可达性分析是一种为随机的网络物理系统(SCPSs)提供安全保障的常用方法,它接受系统动态的符号描述,并使用集合传播方法计算有界时间范围内可达状态集的过估计。在本文中,我们研究了为没有动态符号描述的SCPS执行可达性分析的问题,而是使用可以模拟生成系统轨迹的数字孪生模型进行描述。一个重要挑战是模拟器隐含地对SCPS的轨迹集合建模概率分布;然而,在部署环境中实际轨迹的分布可能会与模拟器假设的分布有所偏移,这被称为模拟到真实之间的差距。因此,我们提出了一种统计可达性分析技术,给定用户提供的阈值 1 − ϵ 1-\epsilon 1−ϵ,提供一个保证在部署期间任何可达状态都以不小于此阈值的概率位于该集合中的集合。我们的方法基于三个主要步骤:(1)从采样轨迹中学习确定性替代模型,(2)在替代模型上进行可达性分析,以及(3)使用{\em 鲁棒符合推断},利用额外的一组采样轨迹来量化替代模型与部署的SCPS之间的分布偏移。为了对可达集中的保守性进行抵消,我们提出了一种新颖的方法来训练最小化分位数损失项(而不是通常的均方损失)的替代模型,并提供了一种使用归一化替代误差的符合推断来提供更紧凑保证的新方法。我们在各种案例研究中展示了我们技术的有效性。
论文链接: https://arxiv.org/abs/2407.11609
COMET: “经验锥”增强大型多模态数学问题生成模型
原标题: COMET: “Cone of experience” enhanced large multimodal model for mathematical problem generation
作者: Sannyuya Liu, Jintian Feng, Zongkai Yang, Yawei Luo, Qian Wan, Xiaoxuan Shen, Jianwen Sun
机构: 华中师范大学 中央中国师范大学 浙江大学
摘要: 在许多教育场景中,高质量数学问题的自动生成具有实际价值。大型多模型由于在跨模态数据场景中取得了广泛成功,为数学问题生成提供了一种新颖的技术方法。然而,传统的将问题解决与问题生成分离的方法以及主流的单调数据结构和同质训练目标的微调框架限制了大型多模型在数学问题生成中的应用。为了解决这些挑战,本文提出了COMET,一种增强的“经验锥体”大型多模型,用于数学问题生成。首先,从相互能力促进和应用逻辑的角度,我们将干扰生成和问题解决统一到数学问题生成中。其次,提出了一个由“经验锥体”指导的三阶段微调框架。该框架将微调数据分为符号经验、图标经验和直接经验,以便与教师职业成长中的经验相对应。在该框架中设计了几种细粒度数据构建和注入方法。最后,我们构建了一个中文多模数学问题数据集,以填补该领域中中文多模数据的空白。结合客观和主观指标,在多个数据集上的实验证明了所提框架和模型的有效性。
论文链接: https://arxiv.org/abs/2407.11315
使用自监督异常检测和有限数据进行连续膝关节骨关节炎严重程度评分的AI系统
原标题: An AI System for Continuous Knee Osteoarthritis Severity Grading Using Self-Supervised Anomaly Detection with Limited Data
作者: Niamh Belton, Aonghus Lawlor, Kathleen M. Curran
机构: 都柏林大学学院计算机科学学院 都柏林大学数据分析洞察中心 Science Foundation Ireland机器学习研究培训中心
摘要: 现有的膝关节骨关节炎(OA)等级评分系统的诊断准确性和主观性一直是持续争论和关注的焦点。现有的自动化解决方案被训练来模拟这些不完美的系统,同时也依赖于大型注释数据库进行完全监督训练。本文提出了一个自动连续评分膝关节骨关节炎的三阶段方法,该方法建立在异常检测(AD)原则的基础上;学习健康膝关节X射线的稳健表示,并根据其与正常中心的距离对疾病严重程度进行评分。在第一阶段,提出了SS-FewSOME,这是一种自监督的AD技术,它学习了“正常”表示,只需要健康受试者的示例和现有方法所需标签的<3%。在第二阶段,该模型用于伪标记一部分未标记数据为“正常”或“异常”,随后使用CLIP对伪标签进行去噪。最后阶段涉及使用提出的双中心表示学习(DCRL)对标记和伪标记数据进行重新训练,该方法学习了两个表示空间的中心;正常和异常。然后根据到学习中心的距离对疾病严重程度进行评分。所提出的方法在OA检测方面的表现优于现有技术,边际高达24%,疾病严重程度评分与Kellgren-Lawrence分级系统的相关性与人类专家表现水平相同。代码可在此https网址找到。
论文链接: https://arxiv.org/abs/2407.11500
Github: https://github.com/niamhbelton/SS-FewSOME_Disease_Severity_Knee_Osteoarthritis
通过图稀疏化解决图神经网络中的过度平滑问题:一种基于桁架的方法
原标题: Tackling Oversmoothing in GNN via Graph Sparsification: A Truss-based Approach
作者: Tanvir Hossain, Khaled Mohammed Saifuddin, Muhammad Ifte Khairul Islam, Farhan Tanvir, Esra Akbas
机构: 乔治亚州立大学
摘要: 图神经网络(GNN)通过在各个领域的网络中编码有意义的拓扑结构,在节点级和图级任务上取得了巨大成功,这些领域包括社交网络和生物网络。然而,重复的聚合操作导致节点表示过度混合,特别是在具有多个GNN层的密集区域,导致嵌入几乎无法区分。这种现象导致了过度平滑问题,阻碍了下游图分析任务。为了克服这个问题,我们提出了一种新颖灵活的基于桁架的图稀疏化模型,该模型修剪图的密集区域中的边。在密集区域修剪冗余边有助于防止在GNN模型中进行分层消息传递和池化期间聚合过多的邻域信息。然后,我们将我们的稀疏化模型应用于最先进的基准GNN和池化模型,如GIN、SAGPool、GMT、DiffPool、MinCutPool、HGP-SL、DMonPool和AdamGNN。对不同真实数据集的大量实验表明,我们的模型显著提高了基准GNN模型在图分类任务中的性能。
论文链接: https://arxiv.org/abs/2407.11928
在可持续家庭环境中多目标强化学习的元学习方法
原标题: A Meta-Learning Approach for Multi-Objective Reinforcement Learning in Sustainable Home Environments
作者: Junlin Lu, Patrick Mannion, Karl Mason
机构: 加尔韦大学
摘要: 有效的住宅电器调度对可持续生活至关重要。虽然多目标强化学习(MORL)在平衡电器调度中用户偏好方面表现出色,但传统的MORL在具有可再生能源波动特征的非稳态住宅环境中由于数据有限而面临困难。显著的背景转变可能使先前学习的策略失效。为了解决这些挑战,我们将最先进的MORL算法与元学习范式相结合,实现对不断变化的背景快速、少样本适应。此外,我们采用基于自动编码器(AE)的无监督方法来检测环境背景变化。我们还开发了一个住宅能源环境,利用伦敦住宅环境的真实数据来评估我们的方法。这项研究不仅评估了MORL在住宅电器调度中的应用,还强调了元学习在能源管理中的有效性。我们的表现最佳方法明显超越了最佳基准线,而训练模型节省了3.28%的电费,用户舒适度增加了2.74%,预期效用提高了5.9%。此外,它将解决方案的稀疏性减少了62.44%。值得注意的是,这些收益是在使用96.71%更少的训练数据和61.1%更少的训练步骤的情况下实现的。
论文链接: https://arxiv.org/abs/2407.11489
增强 TinyML 安全性:对对抗性攻击可转移性的研究
原标题: Enhancing TinyML Security: Study of Adversarial Attack Transferability
作者: Parin Shah, Yuvaraj Govindarajulu, Pavan Kulkarni, Manojkumar Parmar
机构: AIShield 博世全球软件技术
摘要: 人工智能(AI)和机器学习(ML)领域最近取得的进展推动了 TinyML 的兴起,这是一种在边缘进行 AI 计算而无需依赖云连接的范式。虽然 TinyML 提供了实时数据分析和迅速响应,对于各种应用至关重要,但其设备固有的资源限制使其容易受到安全风险的威胁。这项研究深入探讨了资源受限的嵌入式硬件上 AI 模型的对抗性漏洞,重点关注模型提取和规避攻击。我们的研究结果显示,来自强大主机的对抗性攻击可能会转移到像 ESP32 和 Raspberry Pi 这样更小、不太安全的设备上。这说明对抗性攻击可能会扩展到小型设备,突显了其脆弱性,并强调了在 TinyML 部署中加强安全措施的必要性。这一探索加深了对 TinyML 中安全挑战的理解,并为在基于 AI 的边缘计算环境中保护敏感数据和确保设备可靠性提供了见解。
论文链接: https://arxiv.org/abs/2407.11599
XEdgeAI:一个以人为中心的工业检测框架,采用以数据为中心的可解释边缘人工智能方法。
原标题: XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach
作者: Truong Thanh Hung Nguyen, Phuc Truong Loc Nguyen, Hung Cao
机构: 新不伦瑞克大学 Analytics Everywhere 实验室,弗雷德里克顿,加拿大 巴伐利亚弗赖德里希-亚历山大大学
摘要: 最近深度学习的进展显著提高了工业环境中的视觉质量检测和预测性维护。然而,在低资源边缘设备上部署这些技术面临重大挑战,因为它们对计算的需求高,且可解释人工智能(XAI)方法的复杂性固有。本文通过引入一种新颖的XAI集成视觉质量检测框架来解决这些挑战,该框架优化了在低资源边缘设备上部署语义分割模型。我们的框架结合了XAI和大视觉语言模型,通过视觉和文本解释向最终用户提供以人为中心的可解释性。这对于最终用户的信任和模型的可解释性至关重要。我们概述了一个包含六个基本模块的全面方法论:基础模型微调、基于XAI的解释生成、XAI方法评估、XAI引导的数据增强、边缘兼容模型的开发,以及可理解的视觉和文本解释的生成。通过XAI引导的数据增强,结合领域专家知识和视觉文本解释的增强模型成功部署在移动设备上,以支持最终用户在现实场景中。实验结果展示了所提出框架的有效性,移动模型在显著减小模型大小的同时实现了竞争性准确性。这种方法为在关键工业应用中广泛采用可靠和可解释的人工智能工具铺平了道路,这些应用中的决策必须既迅速又可证明。
论文链接: https://arxiv.org/abs/2407.11771
多通道遮蔽自编码器及全面评估:从任意单导联心电图重建12导联心电图
原标题: Multi-Channel Masked Autoencoder and Comprehensive Evaluations for Reconstructing 12-Lead ECG from Arbitrary Single-Lead ECG
作者: Jiarong Chen, Wanqing Wu, Tong Liu, Shenda Hong
机构: 中山大学生物医学工程学院 北京大学国家健康数据科学研究院 北京大学医学技术研究所 天津医科大学第二医院心血管疾病离子分子功能重点实验室
摘要: 在心血管疾病(CVD)的背景下,心电图(ECG)是医生常用的标准诊断工具,通常在临床实践中使用12导联配置。然而,表面上放置的10个电极会导致很多不便和不适,而快速发展的可穿戴设备采用减少导联或单导联心电图来减少长期监测中的不适。由于单导联心电图是12导联心电图的子集,它提供的心脏健康信息不足,在现实世界的医疗应用中发挥着次要作用。因此,有必要利用信号生成技术通过从真实的单导联心电图重建12导联心电图来缩小它们在临床重要性上的差距。具体而言,本研究提出了一种用于实现这一目标的多通道掩蔽自动编码器(MCMA)。在实验结果中,生成信号与真实信号之间的可视化结果可以展示所提出框架的有效性。同时,本研究引入了一个名为ECGGenEval的综合评估基准,包括信号级、特征级和诊断级评估,为12导联心电图信号和生成模型提供全面评估。此外,定量实验结果如下,在信号级评估中均方误差分别为0.0178和0.0658,相关系数分别为0.7698和0.7237,诊断级评估中两个生成的12导联心电图的平均F1分数分别为0.8319和0.7824,实现了最先进的性能。开源代码可在\url{this https URL}上公开获取。
论文链接: https://arxiv.org/abs/2407.11481
Github: https://github.com/CHENJIAR3/MCMA
DiNO-Diffusion。通过自监督预训练扩展医学扩散
原标题: DiNO-Diffusion. Scaling Medical Diffusion via Self-Supervised Pre-Training
作者: Guillermo Jimenez-Perez, Pedro Osorio, Josef Cersovsky, Javier Montalt-Tordera, Jens Hooge, Steffen Vogler, Sadegh Mohammadi
机构: 拜耳股份公司 罗氏制药决策科学 - 计算机视觉与声音分析
摘要: 扩散模型(DMs)已经成为各种任务的强大基础模型,其中在合成图像生成方面受到了广泛关注。然而,它们对于训练需要大量带标注数据集的要求限制了它们在医学成像领域的适用性,因为那里的数据集通常较小且标注稀疏。我们引入了DiNO-Diffusion,这是一种用于训练潜在扩散模型(LDMs)的自监督方法,它将生成过程条件设置为从DiNO中提取的图像嵌入。通过消除对注释的依赖,我们的训练利用了来自公共胸部X射线(CXR)数据集的超过868k张未标记图像。尽管是自监督的,DiNO-Diffusion显示出全面的流形覆盖,FID分数低至4.7,并在下游任务评估时显示出新的特性。它可以用于生成语义多样的合成数据集,即使是从小数据池中,当用于数据增强时,分类性能的AUC增加高达20%。图像是通过在DiNO嵌入流形上使用不同的采样策略以及使用真实图像作为起点来生成的。结果表明,DiNO-Diffusion可以促进从有限数量的真实数据灵活训练下游AI模型的大型数据集的创建,同时还具有隐私保护的潜力。此外,DiNO-Diffusion展示了在评估肺叶分割时高达84.4%的Dice分数的零样本分割性能。这证明了良好的CXR图像解剖对齐,类似于在普通DM上使用文本描述符进行分割。最后,DiNO-Diffusion可以轻松适应其他医学成像模态或最先进的扩散模型,为医学成像开启了大规模、多领域的图像生成管道。
论文链接: https://arxiv.org/abs/2407.11594
模仿人类动作在主动说话者检测任务中实现了人形机器人自然的头部运动
原标题: Imitation of human motion achieves natural head movements for humanoid robots in an active-speaker detection task
作者: Bosong Ding, Murat Kirtay, Giacomo Spigler
机构: 清华大学
摘要: 头部动作对于社交人际互动至关重要。它们可以传递重要的线索(例如,共同注意、说话者检测),这些线索无法仅通过口头交流实现。这种优势在人机互动中同样适用。尽管通过生成式人工智能模型对人类动作建模近年来在机器人领域已成为一个活跃的研究领域,但利用这些方法来产生人机互动中的头部动作仍未得到充分探索。在这项工作中,我们采用了生成式人工智能流程为 Nao 仿人机器人生成类似人类的头部动作。此外,我们在一个实时的小组对话环境中对系统进行了主动说话者跟踪任务的测试。总体而言,结果显示 Nao 机器人成功以自然的方式模仿人类头部动作,同时在对话过程中积极跟踪说话者。本研究的代码和数据可在以下网址获得:https://这里是网址。
论文链接: https://arxiv.org/abs/2407.11915
Github: https://github.com/dingdingding60/Humanoids2024HRI
一个基于通道注意力驱动的混合CNN框架用于稻叶病害检测
原标题: A Channel Attention-Driven Hybrid CNN Framework for Paddy Leaf Disease Detection
作者: Pandiyaraju V, Shravan Venkatraman, Abeshek A, Pavan Kumar S, Aravintakshan S A, Senthil Kumar A M, Kannan A
机构: 维特大学 记工学院 安娜大学
摘要: 农民在水稻叶子早期生长阶段识别疾病时面临各种挑战,这是产量不佳的主要原因。因此,在农业中,早期和准确的疾病识别对于避免作物损失和改善种植至关重要。在这项研究中,我们提出了一种新颖的混合深度学习(DL)分类器,通过扩展Squeeze-and-Excitation网络架构与通道注意机制以及Swish ReLU激活函数相结合设计。我们提出的模型中的通道注意机制在特征提取和选择过程中识别出对分类最重要的特征通道。通过利用Swish ReLU激活函数来缓解死亡ReLU问题,而Squeeze-and-Excitation模块改善了信息传播和跨通道交互。在评估过程中,我们的模型实现了99.76%的高F1分数和99.74%的准确率,超过了现有模型的性能。这些结果展示了最先进的DL技术在农业中的潜力,有助于推动更高效可靠的疾病检测系统的发展。
论文链接: https://arxiv.org/abs/2407.11753
QVD:视频扩散模型的后训练量化
原标题: QVD: Post-training Quantization for Video Diffusion Models
作者: Shilong Tian, Hong Chen, Chengtao Lv, Yu Liu, Jinyang Guo, Xianglong Liu, Shengxi Li, Hao Yang, Tao Xie
机构: 北京航空航天大学 美团
摘要: 最近,视频扩散模型(VDMs)因其在生成连贯和逼真视频内容方面取得的显著进展而受到了广泛关注。然而,同时处理多帧特征,再加上相当大的模型大小,导致高延迟和大量内存消耗,阻碍了它们更广泛的应用。后训练量化(PTQ)是一种有效的技术,可以减少内存占用并提高计算效率。与图像扩散不同,我们观察到,融入所有帧特征的时间特征呈现出明显的偏斜。此外,我们调查了视频扩散模型中显著的通道间差异和不对称性,导致各个通道的量化级别覆盖率较低,并增加了量化的挑战。为了解决这些问题,我们引入了专为视频扩散模型量身定制的第一种PTQ策略,名为QVD。具体来说,我们提出了专为时间特征设计的高时间可辨识度量化(HTDQ)方法,保留了量化特征的高可辨识度,为所有视频帧提供精确的时间指导。此外,我们提出了旨在改善各个通道上量化级别覆盖范围的分散通道范围集成(SCRI)方法。在各种模型、数据集和位宽设置上进行的实验证实了我们的QVD在各种指标上的有效性。特别是,在W8A8上,我们实现了接近无损性能下降,在FVD方面超过当前方法205.12。
论文链接: https://arxiv.org/abs/2407.11585
工业时间序列的AIGC:从深度生成模型到大生成模型
原标题: AIGC for Industrial Time Series: From Deep Generative Models to Large Generative Models
作者: Lei Ren, Haiteng Wang, Yang Tang, Chunhua Yang
机构: 清华大学 哈尔滨工业大学
摘要: 随着像ChatGPT这样的生成模型取得了显著的成功,人工智能生成内容(AIGC)正在经历爆炸式发展。生成模型不仅限于文本和图像,还可以生成工业时间序列数据,解决了数据收集和数据标注的困难。由于其出色的生成能力,它们已被广泛应用于物联网、元宇宙和网络物理社会系统,以提高工业生产的效率。本文全面介绍了从深度生成模型(DGMs)到大生成模型(LGMs)的工业时间序列生成模型。首先,提出了基于DGM的工业时间序列生成的AIGC框架。在这个框架内,我们调查了先进的工业DGM,并提出了多角度分类。此外,我们从四个方面系统分析了构建工业LGM所需的关键技术:大规模工业数据集、用于复杂工业特征的LGM架构、工业时间序列的自监督训练,以及工业下游任务的微调。最后,我们总结了在工业中发展生成模型所面临的挑战和未来方向。
论文链接: https://arxiv.org/abs/2407.11480
连接加权一阶模型计数和图多项式
原标题: Bridging Weighted First Order Model Counting and Graph Polynomials
作者: Qipeng Kuang, Ondřej Kuželka, Yuanhong Wang, Yuyi Wang
机构: 香港大学 捷克布拉格理工大学 北京航空航天大学 中车株洲研究院
摘要: 加权一阶模型计数问题(WFOMC)要求计算给定一阶逻辑句子在给定域上模型的加权和。对于来自带有计数量词的二元片段 C 2 C^2 C2 的句子,可以在域大小的多项式时间内解决此问题。当通过以下公理之一扩展 C 2 C^2 C2 时,这种多项式时间复杂度也得以保留:线性序公理、树公理、森林公理、有向无环图公理或连通性公理。一个有趣的问题是,还有哪些其他公理可以以这种方式添加到一阶句子中。我们通过将WFOMC与图多项式相关联,为这个问题提供了一个新的视角。利用WFOMC,我们为一阶逻辑句子定义了弱连通性多项式和强连通性多项式。结果表明,这些多项式具有以下有趣的特性。首先,对于来自 C 2 C^2 C2 的句子,它们可以在域大小的多项式时间内计算。其次,我们可以使用它们来解决具有所有已知可处理的公理以及新公理(如二分图性、强连通性、成为一个跨度子图、具有 k k k 个连通分量等)的WFOMC。第三,众所周知的 Tutte 多项式可以作为弱连通性多项式的特例恢复,严格和非严格有向色多项式可以从强连通性多项式中恢复,这使我们能够展示这些重要的图多项式可以在顶点数量的多项式时间内计算,对于任何可以由固定的 C 2 C^2 C2 句子和任意数量的基础一元文字的合取编码的图。
论文链接: https://arxiv.org/abs/2407.11877
利用自监督音频掩码自编码器进行通用声音分离
原标题: Universal Sound Separation with Self-Supervised Audio Masked Autoencoder
作者: Junqi Zhao, Xubo Liu, Jinzheng Zhao, Yi Yuan, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
机构: 萨里大学 中文大学 汉普郡大学
摘要: 通用声音分离(USS)是将任意声源混合物分离的任务。通常,通用分离模型是通过有标签数据以监督方式从头开始训练的。自监督学习(SSL)是一种新兴的深度学习方法,利用无标签数据获得任务无关的表示,可以使许多下游任务受益。在本文中,我们提出将自监督预训练模型,即音频掩码自编码器(A-MAE),集成到通用声音分离系统中,以增强其分离性能。我们采用两种策略来利用SSL嵌入:在微调期间冻结或更新A-MAE的参数。SSL嵌入与短时傅立叶变换(STFT)连接,作为分离模型的输入特征。我们在AudioSet数据集上评估我们的方法,实验结果表明,所提出的方法成功地提高了基于最先进的ResUNet的USS模型的分离性能。
论文链接: https://arxiv.org/abs/2407.11745
探究联邦参数高效微调视觉Transformer在医学图像分类中的有效性
原标题: Probing the Efficacy of Federated Parameter-Efficient Fine-Tuning of Vision Transformers for Medical Image Classification
作者: Naif Alkhunaizi, Faris Almalik, Rouqaiah Al-Refai, Muzammal Naseer, Karthik Nandakumar
机构: 穆罕默德·本·扎耶德人工智能大学
摘要: 随着大型预训练Transformer模型的出现,为各种下游任务微调这些模型成为一个关键问题。训练数据的匮乏、数据孤岛的存在以及严格的隐私约束加剧了医学影像领域中这一微调问题,迫切需要能够实现预训练模型协作微调的算法。此外,这些模型的庞大尺寸需要使用参数高效微调(PEFT)来减少联邦学习中的通信负担。在这项工作中,我们系统地研究了各种联邦PEFT策略,用于调整一个在大型自然图像数据集上预训练的Vision Transformer(ViT)模型,以用于医学图像分类。除了评估已知的PEFT技术外,我们还引入了PEFT算法的新的联邦变体,如视觉提示调整(VPT)、视觉提示的低秩分解、随机块注意力微调,以及低秩适应(LoRA)+VPT等混合PEFT方法。此外,我们进行了彻底的实证分析,以确定联邦环境中的最佳PEFT方法,并了解数据分布对联邦PEFT的影响,特别是对于域外(OOD)和非独立同分布数据。这项研究的关键见解是,虽然大多数联邦PEFT方法对于域内转移效果良好,但在处理OOD和非IID场景时存在显著的准确性与效率的权衡,而这在医学影像领域通常是普遍情况。具体而言,每减少一个数量级的微调/交换参数可能导致准确性下降4%。因此,对于联邦PEFT来说,初始模型选择至关重要。最好使用从域内医学图像数据中学习到的医学基础模型(如果可用),而不是通用视觉模型。
论文链接: https://arxiv.org/abs/2407.11573
XTraffic:一个结合交通和事故的数据集,具有可解释性和更多内容。
原标题: XTraffic: A Dataset Where Traffic Meets Incidents with Explainability and More
作者: Xiaochuan Gou, Ziyue Li, Tian Lan, Junpeng Lin, Zhishuai Li, Bingyu Zhao, Chen Zhang, Di Wang, Xiangliang Zhang
机构: 沙特阿拉伯国王阿卜杜拉科技大学 德国科隆大学 清华大学 中国科学院自动化研究所 维也纳科技大学 塔夫茨大学 美国圣母大学
摘要: 长期以来,关于两个高度相关的领域——交通和事故,进行了分开的研究。交通领域见证了复杂的深度学习模型,例如,为了使预测更准确几个百分点,而事故领域仅研究事故本身,例如,推断事故风险。我们首次在一个大规模区域(16,972个交通节点)上对这两个领域进行了时空对齐,跨越了整个2023年:我们的XTraffic数据集包括交通数据,即交通流量、车道占用和平均车速的时间序列指标,以及事故数据,其记录在时空上与交通数据对齐,包括七种不同的事故类别。此外,每个节点还包括车道的详细物理和政策级元属性。我们的数据可以使传统的与交通相关的任务朝着更高的可解释性和实践性迈进:我们不再进行传统的预测或分类任务,而是进行:(1)事故后交通预测,以量化不同事故对交通指标的影响;(2)使用交通指标进行事故分类,以确定预防措施的事故类型;(3)在交通指标、元属性和事故之间进行全局因果分析,为各种因素的相互关系提供高层指导;(4)在道路节点内进行局部因果分析,以研究不同事故如何影响道路段之间的关系。该数据集可在此http URL找到。
论文链接: https://arxiv.org/abs/2407.11477
Github: http://xaitraffic.github.io
NITRO-D: 深度卷积神经网络的本地整数训练
原标题: NITRO-D: Native Integer-only Training of Deep Convolutional Neural Networks
作者: Alberto Pirillo, Luca Colombo, Manuel Roveri
机构: 米兰理工大学
摘要: 量化已经变得越来越关键,以解决深度神经网络(DNNs)不断增加的计算和内存需求。通过减少用于表示权重和激活的位数(通常从32位浮点减少到16位或8位整数),量化减少了DNN模型的内存占用、能耗和执行时间。然而,传统的量化方法通常侧重于DNN的推断,而训练过程仍然依赖于浮点运算。迄今为止,文献中只有一项工作解决了多层感知器(MLP)架构的整数训练。这项工作介绍了NITRO-D,一个新的框架,用于训练任意深度的整数卷积神经网络(CNNs),在整数域中完全进行训练和推断。NITRO-D是文献中第一个无需引入量化方案即可训练整数CNNs的框架。具体而言,NITRO-D引入了一个新颖的架构,集成了多个整数局部损失块,其中包括提出的NITRO Scaling Layer和NITRO-ReLU激活函数。此外,它还引入了一种新颖的整数学习算法,源自局部误差信号(LES),利用了IntegerSGD,这是一种专门设计用于在整数环境中操作的优化器。NITRO-D在一个开源的Python库中实现。广泛的实验评估表明,它在几个最先进的图像识别数据集上的有效性。结果显示,与最先进的解决方案相比,整数MLP架构的性能显著提高了2.47%至5.96%,并且具有训练整数CNN架构的能力,准确度下降最小为-0.15%至-4.22%,与浮点LES相比。
论文链接: https://arxiv.org/abs/2407.11698
使用大语言模型进行模式匹配:一项实验研究
原标题: Schema Matching with Large Language Models: an Experimental Study
作者: Marcel Parciak, Brecht Vandevoort, Frank Neven, Liesbet M. Peeters, Stijn Vansummeren
机构: 乌哈塞尔特大学 数据科学研究所 Diepenbeek比利时 UHasselt 生物医学 Diepenbeek比利时
摘要: 大语言模型(LLMs)已经在各种任务中展示出了有用的应用,包括数据整理。在这篇论文中,我们研究了使用现成的大语言模型进行模式匹配。我们的目标是仅使用名称和描述来识别两个关系模式元素之间的语义对应关系。通过在健康领域创建的新基准,我们提出了不同的所谓任务范围。这些是用于提示大语言模型进行模式匹配的方法,这些方法在提示中包含的上下文信息量上有所不同。使用这些任务范围,我们将基于大语言模型的模式匹配与字符串相似性基线进行比较,研究匹配质量、验证工作量、决策性和方法的互补性。我们发现,匹配质量受到上下文信息不足以及提供过多上下文信息的影响。一般来说,使用更新版本的大语言模型增加了决策性。我们确定了具有可接受验证工作量并成功识别大量真实语义匹配的任务范围。我们的研究表明,大语言模型在引导模式匹配过程中具有潜力,并且能够帮助数据工程师加快这一任务,仅基于模式元素的名称和描述,而无需数据实例。
论文链接: https://arxiv.org/abs/2407.11852
DynSyn:在过驱动的具身系统中实现高效学习和控制的动态协同表示
原标题: DynSyn: Dynamical Synergistic Representation for Efficient Learning and Control in Overactuated Embodied Systems
作者: Kaibo He, Chenhui Zuo, Chengtian Ma, Yanan Sui
机构: 清华大学 哈尔滨工业大学 北京大学 中科院自动化所
摘要: 学习有效控制高维、过驱动系统的策略是深度强化学习算法面临的重要挑战。这种控制场景经常出现在脊椎动物肌肉骨骼系统的神经控制中。研究这些控制机制将为我们提供洞察高维、过驱动系统控制的见解。在神经机械学中被称为肌肉协同的执行器协调被认为是简化运动指令生成的一种假设机制。系统的动力学结构是其功能的基础,使我们能够推导出执行器的协同表示。受这一理论启发,我们提出了动态协同表示(DynSyn)算法。DynSyn旨在从动力学结构中生成协同表示,并对这些表示进行任务特定的、状态相关的调整,以改善运动控制。我们展示了DynSyn在涉及不同肌肉骨骼模型的各种任务中的效率,相较于基准算法,实现了最先进的样本效率和稳健性。DynSyn生成了可解释的协同表示,捕捉了动力学结构的基本特征,并展示了在不同运动任务中的泛化能力。
论文链接: https://arxiv.org/abs/2407.11472
TGIF:文本引导修复伪造数据集
原标题: TGIF: Text-Guided Inpainting Forgery Dataset
作者: Hannes Mareen, Dimitrios Karageorgiou, Glenn Van Wallendael, Peter Lambert, Symeon Papadopoulos
机构: 根特大学
摘要: 随着生成式人工智能技术的出现,数字图像处理变得越来越容易访问和逼真。最近的发展使得基于文本引导的修补成为可能,可以通过最小的努力实现复杂的图像编辑。这给数字媒体取证带来了新挑战。例如,基于扩散模型的方法可能会将修补区域拼接到原始图像中,或者重新生成整个图像。在后一种情况下,传统的图像伪造定位(IFL)方法通常会失败。本文介绍了Text-Guided Inpainting Forgery(TGIF)数据集,这是一个包含大约80,000张伪造图像的综合集合,旨在支持图像伪造定位和合成图像检测(SID)方法的训练和评估。TGIF数据集包括大约80,000张伪造图像,源自流行的开源和商业方法;SD2、SDXL和Adobe Firefly。利用这些数据,我们对几种最先进的IFL和SID方法进行了基准测试。传统的IFL方法可以检测到拼接图像,但无法检测到重新生成的修补图像。此外,传统的SID可能会将重新生成的修补图像检测为伪造,但无法定位修补区域。最后,当受到更强的压缩时,这两种方法都会失败,因为它们对现代压缩算法(如WEBP)的鲁棒性较差。因此,这项工作展示了现代生成方法执行的局部操作对最先进的检测器的低效性,并希望有助于开发更有能力的IFL和SID方法。数据集可以从以下网址下载:https://…(链接已省略)。
论文链接: https://arxiv.org/abs/2407.11566
Github: https://github.com/IDLabMedia/tgif-dataset
变分随机平滑用于样本级对抗鲁棒性
原标题: Variational Randomized Smoothing for Sample-Wise Adversarial Robustness
作者: Ryo Hase, Ye Wang, Toshiaki Koike-Akino, Jing Liu, Kieran Parsons
机构: 三菱电机公司 三菱电机研究实验室
摘要: 随机平滑是一种防御技术,旨在提高对抗性示例的鲁棒性,这些对抗性示例是对神经网络模型性能造成影响的小输入扰动。传统的随机平滑为每个输入样本添加具有固定噪声水平的随机噪声,以消除对抗性扰动。本文提出了一个新的变分框架,通过引入噪声水平选择器,为每个输入使用适合的每样本噪声水平。我们的实验结果表明,对抗性攻击的经验鲁棒性得到了增强。我们还提供并分析了我们的逐样本平滑方法的认证鲁棒性。
论文链接: https://arxiv.org/abs/2407.11844
RobotKeyframing:通过密集和稀疏奖励混合学习高级目标的运动
原标题: RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards
作者: Fatemeh Zargarbashi, Jin Cheng, Dongho Kang, Robert Sumner, Stelian Coros
机构: 瑞士苏黎世联邦理工学院 ETH Z ¨urich 美国迪士尼研究工作室 Disney Research Studios
摘要: 这篇论文提出了一种新颖的基于学习的控制框架,利用关键帧技术在四足机器人的自然运动中融入高层次目标。这些高层次目标被指定为在时间上任意间隔的部分或完整姿势目标的可变数量。我们提出的框架利用多批评者强化学习算法来有效处理稠密和稀疏奖励的混合。此外,它采用基于Transformer的编码器来适应可变数量的输入目标,每个目标都与特定的到达时间相关联。通过模拟和硬件实验,我们展示了我们的框架可以有效地在所需时间内满足目标关键帧序列。在实验中,与标准的单批评者替代方案相比,多批评者方法显著减少了超参数调整的工作量。此外,提出的基于Transformer的架构使机器人能够预测未来目标,从而在达到目标的能力方面取得了定量改进。
论文链接: https://arxiv.org/abs/2407.11562
Repurformer:用于重用感知分子生成的Transformer
原标题: Repurformer: Transformers for Repurposing-Aware Molecule Generation
作者: Changhun Lee, Gyumin Lee
机构: 釜山科技大学 韩国 大学 韩国
摘要: 在药物发现研究中,生成具有所需属性的多样化分子至关重要,这涉及到许多基于深度生成模型的方法。尽管近年来这些模型取得了显著进展,特别是在变分自动编码器(VAEs)、生成对抗网络(GANs)、Transformer和扩散模型方面,但一个被称为“样本偏差问题”的重要挑战仍然存在。当生成的分子针对相同的蛋白质时,这一问题会导致这些分子在结构上相似,降低了生成的多样性。为了解决这个问题,我们提出利用蛋白质和化合物之间的多跳关系。我们的模型Repurformer将双向预训练与快速傅立叶变换(FFT)和低通滤波(LPF)相结合,以捕捉复杂的相互作用并生成多样化的分子。对BindingDB数据集进行的一系列实验证实,Repurformer成功地为类似正样本的锚定化合物创建替代物,增加了锚定化合物和生成化合物之间的多样性。
论文链接: https://arxiv.org/abs/2407.11439
SKADA-Bench:使用真实验证对无监督领域自适应方法进行基准测试
原标题: SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation
作者: Yanis Lalou, Théo Gnassounou, Antoine Collas, Antoine de Mathelin, Oleksii Kachaiev, Ambroise Odonnat, Alexandre Gramfort, Thomas Moreau, Rémi Flamary
机构: École Polytechnique Université Paris-Saclay Centre Borelli Huawei Noah’s Ark Lab
摘要: 无监督域自适应(DA)包括调整在标记源域上训练的模型,以在具有一定数据分布偏移的未标记目标域上表现良好。尽管文献中提出了许多方法,但公平和现实的评估仍然是一个悬而未决的问题,特别是由于在无监督设置中选择超参数的方法论困难。通过SKADA-Bench,我们提出了一个框架来评估DA方法,并对现有的浅层算法(包括重新加权、映射和子空间对齐)进行公平评估。通过嵌套交叉验证和各种无监督模型选择评分,在受控偏移的模拟数据集和跨多种模态的真实世界数据集上进行了实际超参数选择,例如图像、文本、生物医学和具有特定特征提取的表格数据。我们的基准强调了现实验证的重要性,并为实际应用提供了实用指导,深入了解了模型选择方法的选择和影响。SKADA-Bench是开源的、可复现的,并且可以轻松扩展新的DA方法、数据集和模型选择标准,而无需重新评估竞争对手。SKADA-Bench可在GitHub上找到,链接为https://github.com/。
论文链接: https://arxiv.org/abs/2407.11676
Github: https://github.com/scikit-adaptation/skada-bench
研究对表格数据的对抗攻击的不可察觉性:实证分析
原标题: Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis
作者: Zhipeng He, Chun Ouyang, Laith Alzubaidi, Alistair Barros, Catarina Moreira
机构: 昆士兰科技大学 悉尼科技大学 里斯本理工大学
摘要: 对抗性攻击是机器学习模型面临的潜在威胁,因为它们可以通过向输入数据引入难以察觉的扰动来导致模型做出错误预测。虽然在非结构化数据(如图像)中得到了广泛研究,但在结构化数据(如表格数据)中的应用面临着独特挑战,这是由于表格数据的异质性和错综复杂的特征相互依赖性。在表格数据中的难以察觉性涉及在潜在引起错误分类的同时保持数据完整性,突显了针对表格数据制定定制难以察觉性标准的必要性。然而,目前缺乏用于评估专门针对表格数据的对抗性攻击的标准化指标。为了填补这一空白,我们提出了一组用于评估对抗性攻击在表格数据上的难以察觉性的属性。这些属性被定义为捕捉扰动数据的七个方面:接近原始输入、改动的稀疏性、与原始数据集中数据点的偏差、改变敏感特征的敏感性、扰动的不可变性、扰动值的可行性以及表格特征之间错综复杂的相互依赖性。此外,我们对七个属性进行了定量实证评估和基于案例的定性示例分析。评估揭示了攻击成功和难以察觉性之间的权衡,特别是关于接近度、敏感性和偏差。尽管没有评估的攻击能够同时实现最佳效果和难以察觉性,但无界攻击在制作难以察觉的对抗性示例方面对于表格数据更具有前景。该研究还强调了评估算法在有效控制稀疏性方面的局限性。我们建议在未来的攻击设计中加入稀疏性度量,以规范扰动特征的数量。
论文链接: https://arxiv.org/abs/2407.11463
使用扩散模型自主生成少数样本
原标题: Self-Guided Generation of Minority Samples Using Diffusion Models
作者: Soobin Um, Jong Chul Ye
机构: KAIST 大田中科院
摘要: 我们提出了一种新颖的方法,用于生成生活在数据流形低密度区域的少数样本。我们的框架建立在扩散模型之上,利用了引导采样的原则,在推断时结合任意能量指导。我们采样器的关键特征在于其“自包含”性质,即仅使用预训练模型即可实现。这使我们的采样器与现有技术有所区别,后者需要昂贵的额外组件(如外部分类器)来生成少数样本。具体而言,我们首先通过评估与后验均值相关的重建损失来估计中间潜在样本内特征的可能性。然后,生成过程通过最小化估计可能性进行,从而鼓励在后续时间步的潜在样本中出现少数特征。为了进一步提高我们采样器的性能,我们提供了几种时间调度技术,适当管理引导在推断步骤中的影响。在基准真实数据集上的实验表明,我们的方法可以极大地提高创建现实低可能性少数实例的能力,而无需依赖昂贵的额外元素。代码可在\url{this https URL}获取。
论文链接: https://arxiv.org/abs/2407.11555
Github: https://github.com/soobin-um/sg-minority
用于稳健反事实解释的一般发生模型变化
原标题: Generally-Occurring Model Change for Robust Counterfactual Explanations
作者: Ao Xu, Tieru Wu
机构: 吉林大学
摘要: 随着算法决策对人类生活影响日益增大,模型的可解释性已成为机器学习中的一个关键问题。反事实解释是可解释机器学习领域中的一种重要方法,不仅可以帮助用户理解机器学习模型为何做出特定决策,还可以帮助用户理解如何改变这些决策。自然地,研究反事实解释生成算法对模型变化的稳健性是一项重要任务。先前的文献提出了自然发生的模型变化的概念,这使我们对模型变化的稳健性有了更深入的理解。在本文中,我们首先进一步概括了自然发生的模型变化的概念,提出了一个更一般的模型参数变化概念,即普遍发生的模型变化,具有更广泛的适用范围。我们还证明了相应的概率保证。此外,我们考虑了一个更具体的问题,即数据集扰动,并通过结合优化理论给出了相关的理论结果。
论文链接: https://arxiv.org/abs/2407.11426
通过双半球 RL 智能体实现优雅的任务适应
原标题: Graceful task adaptation with a bi-hemispheric RL agent
作者: Grant Nicholas, Levin Kuhlmann, Gideon Kowadlo
机构: 莫纳什大学 Cerenaut
摘要: 在人类中,执行任务的责任逐渐从右半球转移到左半球。新奇-常规假说(NRH)指出,右半球和左半球分别用于执行新奇和常规任务,使我们能够学习各种新奇任务同时能够胜任任务。基于NRH,我们开发了一个具有专门半球的强化学习智能体,可以利用右半球的通用知识,避免在新奇任务上表现不佳。此外,我们发现这种设计对其学习新任务的能力几乎没有影响。我们最后总结了对我们的智能体的改进,并探讨了潜在的扩展到持续学习环境的可能性。
论文链接: https://arxiv.org/abs/2407.11456
R-SFLLM:具有大语言模型的分割联邦学习的干扰鲁棒框架
原标题: R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models
作者: Aladin Djuhera, Vlad C. Andrei, Xinyang Li, Ullrich J. Mönich, Holger Boche, Walid Saad
摘要: 分布式机器学习中的分割联邦学习(SFL)是一种计算高效的范式,其中大型机器学习模型的组件被外包到远程服务器。在SFL中一个重要的挑战,特别是在通过无线信道部署时,是传输的模型参数容易受到对抗性干扰,可能危及学习过程。这在大语言模型(LLMs)中的词嵌入参数中尤为突出,这些参数对于语言理解至关重要。本文通过推导ML训练损失散度的表达式,并显示其上界为均方误差(MSE),深入洞察了对SFL中的干扰LLM词嵌入的影响。基于这一分析,提出了一个用于无线网络上具有LLMs的韧性SFL的物理层框架(R-SFLLM)。R-SFLLM利用无线感知数据收集有关干扰到达方向(DoAs)的信息,以制定一种新颖的、感知辅助的抗干扰策略,同时优化波束成形、用户调度和资源分配。使用BERT和RoBERTa模型进行的大量实验表明,R-SFLLM的有效性,实现了在各种自然语言处理(NLP)任务和数据集上接近基准性能。所提出的方法进一步引入了一个对抗性训练组件,通过受控的噪声暴露显著增强了LLM对训练期间扰动参数的韧性。结果表明,更敏感于噪声的模型,如RoBERTa,在资源分配不公平时尤其受益于这一特性。还表明,特别是最坏情况下的干扰会导致最坏情况的模型结果,因此需要对抗干扰的SFL协议。
论文链接: https://arxiv.org/abs/2407.11654
可控文本化图像字幕:通过用户定义的亮点引导视觉叙事
原标题: Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights
作者: Shunqi Mao, Chaoyi Zhang, Hang Su, Hwanjun Song, Igor Shalyminov, Weidong Cai
机构: 悉尼大学 AWS AI实验室 韩国科学技术院
摘要: 上下文化图像字幕(CIC)将传统图像字幕发展到一个更复杂的领域,需要多模态推理的能力。它旨在在给定特定上下文信息的情况下生成图像字幕。本文进一步介绍了一个新颖的可控上下文化图像字幕(Ctrl-CIC)领域。与仅依赖于广泛上下文的CIC不同,Ctrl-CIC强调用户定义的亮点,迫使模型定制与上下文中突出部分 resonating 的字幕。我们提出了两种方法,基于提示的控制器(P-Ctrl)和基于重新校准的控制器(R-Ctrl),以生成聚焦字幕。P-Ctrl通过在字幕前加上基于亮点驱动的前缀来使模型生成与亮点相关的字幕,而R-Ctrl调整模型以有选择地重新校准编码器嵌入以突出显示的标记。此外,我们设计了一个由GPT-4V 强化的评估器,以评估受控字幕的质量,同时还使用标准评估方法。大量实验结果表明了我们方法的高效和有效的可控性,开辟了在实现用户自适应图像字幕方面的新方向。代码可在此网址获得。
论文链接: https://arxiv.org/abs/2407.11449
Github: https://github.com/ShunqiM/Ctrl-CIC
通过Transformer和2D-CNN学习电力负荷序列的全局和局部特征:一种基于图像的多步预测方法,融合相空间重构
原标题: Learning Global and Local Features of Power Load Series Through Transformer and 2D-CNN: An image-based Multi-step Forecasting Approach Incorporating Phase Space Reconstruction
作者: Zihan Tang, Tianyao Ji, Wenhu Tang
机构: 华南理工大学
摘要: 随着现代电力系统不断发展,准确的电力负荷预测仍然是一个关键问题。相空间重构方法可以有效地从系统动力学的角度保留电力负荷的混沌特征,因此是一种有前景的基于知识的电力负荷预测预处理方法。然而,受其基本理论的限制,目前的研究中在实施多步预测方案方面仍存在差距。为了弥合这一差距,本研究提出了一种通过将PSR与神经网络集成的新型多步预测方法。首先,详细讨论了从PSR预处理中获得的相轨迹中的有用特征。通过数学推导,首次展示了PSR的等效表征以及另一种时间序列预处理方法——补丁分割。基于这一先验知识,引入了一种基于图像建模视角的全局和局部特征提取策略。随后,设计了一种新颖的深度学习模型,即PSR-GALIEN,用于端到端处理,在其中,Transformer编码器和2D卷积神经网络用于提取图像中的全局和局部模式,而基于多层感知的预测器用于高效的相关建模。然后,在五个真实世界基准数据集上进行了大量实验,以验证其有效性并深入了解详细属性。结果显示,与六种最先进的深度学习模型相比,PSR-GALIEN的预测性能始终优于这些基准线,在日内和提前一天的预测场景中均实现了卓越的准确性。同时,提出了一种基于可视化的方法来解释预测结果的归因。
论文链接: https://arxiv.org/abs/2407.11553
由生成式人工智能驱动的个性化对话式旅行助手
原标题: Personalized Conversational Travel Assistant powered by Generative AI
作者: Alexio Cassani, Michele Ruberl, Antonio Salis, Giacomo Giannese, Gianluca Boanelli
机构: Fairmind S. r.l. Società Benefit、Tiscali Italia S.p.A.
摘要: 旅游和目的地管理组织(DMO)行业正在迅速发展,以适应新技术和旅行者的期望。生成式人工智能(AI)提供了一个令人惊讶和创新的机会,通过提供个性化、互动和引人入胜的帮助来增强旅游体验。在本文中,我们提出了一个基于生成式AI的旅游助手聊天机器人。该聊天机器人利用AI生成逼真和创意文本的能力,采用了意大利著名的全知全能阿姨的友好人设,为游客提供个性化信息、定制和动态的旅行建议和行程计划以及个性化行程,使用文本和语音命令,并支持不同语言,以满足意大利和外国游客的期望。这项工作正在意大利经济增长部(MIMIT)资助的莫利塞CTE研究项目中开发,旨在利用云和人工智能等最先进的技术,以在智慧城市环境中提供最先进的解决方案。
论文链接: https://arxiv.org/abs/2407.11830
DreamCatalyst:通过控制可编辑性和身份保留实现快速高质量的3D编辑
原标题: DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation
作者: Jiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim
机构: 韩国科学技术院Graduate School of Artificial Intelligence
摘要: 由于其固有的三维一致性,得分蒸馏采样(SDS)已成为文本驱动的三维编辑任务中的有效框架。然而,现有基于SDS的三维编辑方法存在训练时间长、结果质量低的问题,主要是因为这些方法偏离了扩散模型的采样动态。在本文中,我们提出了DreamCatalyst,这是一个将基于SDS的编辑解释为扩散反向过程的新框架。我们的目标函数考虑了采样动态,从而使DreamCatalyst的优化过程成为编辑任务中扩散反向过程的近似。DreamCatalyst的目标是减少训练时间并提高编辑质量。DreamCatalyst提供两种模式:(1)更快速的模式,仅需大约25分钟即可编辑NeRF场景;(2)高质量模式,在不到70分钟内产生优秀结果。具体而言,我们的高质量模式在速度和质量方面均优于当前NeRF编辑方法的最新技术。请在我们的项目页面上查看更多详尽的结果:https://此网址。
论文链接: https://arxiv.org/abs/2407.11394
Github: https://dream-catalyst.github.io
TM-PATHVQA:90000+无文本多语言医学视觉问题。
原标题: TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering
作者: Tonmoy Rajkhowa, Amartya Roy Chowdhury, Sankalp Nagaonkar, Achyut Mani Tripathi
机构: 印度理工学院,达尔瓦德 分校
摘要: 在医疗保健和医学诊断领域,视觉问答(VQA)可能会成为一个至关重要的工具,特别是在分析复杂医学图像对准确诊断至关重要的情况下。当前基于文本的VQA系统在需要无需手动操作和易于访问的情况下限制了它们的实用性。基于语音的VQA系统可能提供了一种更好的交互方式,在执行任务的同时可以访问信息。为此,这项工作通过引入一个无文本多语言病理VQA(TMPathVQA)数据集,扩展了PathVQA数据集,包含了英语、德语和法语的口头提问。该数据集包括了98,397个多语言口头提问和答案,基于5,004张病理图像,以及70小时的音频。最后,这项工作对使用各种声学和视觉特征组合实现的TMPathVQA系统进行了基准测试和比较。
论文链接: https://arxiv.org/abs/2407.11383
分割、提升和拟合:从2D提示自动进行3D形状标注
原标题: Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts
作者: Jianhao Li, Tianyu Sun, Zhongdao Wang, Enze Xie, Bailan Feng, Hongbo Zhang, Ze Yuan, Ke Xu, Jiaheng Liu, Ping Luo
机构: 北京航空航天大学 清华大学 华为诺亚方舟实验室 南京大学 香港大学
摘要: 这篇论文提出了一种算法,用于从2D点或框提示自动标记3D物体,特别侧重于自动驾驶应用。与以往的方法不同,我们的自动标注器预测3D形状而不是边界框,并且不需要在特定数据集上进行训练。我们提出了一个“分割、提升和拟合”(SLF)范式来实现这一目标。首先,我们使用“分割任意物体模型”(SAM)从提示中分割出高质量的实例掩模,并将剩余的问题转化为从给定的2D掩模预测3D形状。由于这个问题的不适定性,它带来了一个重大挑战,因为多个3D形状可以投影到相同的掩模中。为了解决这个问题,我们将2D掩模提升到3D形式,并利用梯度下降来调整它们的姿势和形状,直到投影符合掩模并且表面符合周围的LiDAR点。值得注意的是,由于我们不在特定数据集上进行训练,SLF自动标注器不会像其他方法那样过度拟合训练集中的偏倚注释模式。因此,跨不同数据集的泛化能力得到提高。在KITTI数据集上的实验结果表明,SLF自动标注器产生了高质量的边界框注释,实现了近90%的IoU@0.5的AP。使用生成的伪标签训练的检测器的性能几乎与使用实际地面真实注释训练的检测器一样好。此外,SLF自动标注器在详细形状预测方面表现出有希望的结果,为动态物体的占用注释提供了一个潜在的替代方案。
论文链接: https://arxiv.org/abs/2407.11382
对 Shapley 值的特征推断攻击
原标题: Feature Inference Attack on Shapley Values
作者: Xinjian Luo, Yangfan Jiang, Xiaokui Xiao
机构: 新加坡国立大学 南洋理工大学IBM 谷歌 微软
摘要: 作为合作博弈论中的解决方案概念,沙普利价值在模型可解释性研究中得到高度认可,并被谷歌、微软和IBM等领先的机器学习即服务(MLaaS)提供商广泛采用。然而,尽管可解释性和隐私是机器学习(ML)模型的两个基础,但由于沙普利价值为基础的模型可解释性方法已经得到深入研究,很少有研究人员考虑沙普利价值所带来的隐私风险。
在本文中,我们使用特征推断攻击来研究基于沙普利价值的模型可解释性方法的隐私风险:根据它们的沙普利价值解释重建私有模型输入。具体而言,我们提出了两种对手。第一个对手可以通过在辅助数据集上训练攻击模型并具有对模型可解释性服务的黑盒访问来重建私有输入。第二个对手,即使没有任何背景知识,也可以通过利用模型输入和输出之间的局部线性相关性成功重建大部分私有特征。我们在领先的MLaaS平台上进行了所提出的攻击,即谷歌云、微软Azure和IBM aix360。实验结果表明,领先的MLaaS平台中使用的最先进的基于沙普利价值的模型可解释性方法存在漏洞,并强调了未来研究中设计保护隐私的模型可解释性方法的重要性和必要性。据我们所知,这也是第一项调查沙普利价值隐私风险的工作。
论文链接: https://arxiv.org/abs/2407.11359
SES: 架起图神经网络解释性和预测之间的鸿沟
原标题: SES: Bridging the Gap Between Explainability and Prediction of Graph Neural Networks
作者: Zhenhua Huang, Kunhao Li, Shaojie Wang, Zhaohong Jia, Wentao Zhu, Sharad Mehrotra
机构: 安徽大学 亚马逊研究 加州大学欧文分校
摘要: 尽管图神经网络(GNNs)在分析图数据方面表现出色,但实现高准确性和可解释性预测仍然具有挑战性。现有的GNN解释器通常提供与GNN预测不相关的事后解释,导致误导。自解释GNN在训练过程中提供内置解释。然而,它们无法利用解释结果来增强预测性能,也无法提供节点特征的高质量解释,并且需要额外的过程来生成可解释的子图,这是昂贵的。为了解决上述限制,我们提出了一种自解释和自监督图神经网络(SES),以弥合可解释性和预测之间的差距。SES包括两个过程:可解释训练和增强预测学习。在可解释训练期间,SES利用与图编码器共同训练的全局掩码生成器,并直接生成关键的结构和特征掩码,减少时间消耗并提供节点特征和子图解释。在增强预测学习阶段,利用解释构建基于掩码的正负对,计算三元损失,并通过对比学习增强节点表示。
论文链接: https://arxiv.org/abs/2407.11358
大视觉语言模型作为情感识别器在情境感知中的应用
原标题: Large Vision-Language Models as Emotion Recognizers in Context Awareness
作者: Yuxuan Lei, Dingkang Yang, Zhaoyu Chen, Jiawei Chen, Peng Zhai, Lihua Zhang
机构: 复旦大学 智能技术实验室 中国教育部人工智能与机器人工程研究中心 吉林省人工智能与无人系统工程研究中心
摘要: 上下文感知情绪识别(CAER)是一项复杂且重要的任务,需要从各种情境线索中感知情绪。先前的方法主要集中在设计复杂的架构,从图像中提取情绪线索。然而,它们的知识局限于特定的训练数据集,并可能反映了标注者的主观情绪偏见。此外,在现实世界的应用中,获取大量标记数据通常是具有挑战性的。在本文中,我们系统地探索了利用大视觉语言模型(LVLMs)增强CAER任务的潜力,从三个范式入手:1)我们在两个CAER数据集上微调LVLMs,这是将大型模型转移到下游任务的最常见方式。2)我们设计了零样本和少样本模式,评估LVLMs在数据有限甚至完全未知的情况下的性能。在这种情况下,提出了一个无需训练的框架,充分利用LVLMs的“在上下文学习”能力。具体而言,我们开发了一种基于图像相似度的排名算法来检索示例;随后,将指令、检索到的示例和测试示例组合起来,馈送LVLMs以获得相应的情绪判断。3)为了利用LVLMs丰富的知识库,我们将“思维链”(CoT)纳入我们的框架,以增强模型的推理能力并提供可解释的结果。大量实验证明,LVLMs在不同范式下的CAER任务中取得了竞争性能。值得注意的是,在少样本设置中表现出的优越性能表明LVLMs在完成特定任务时无需进行大量训练是可行的。
论文链接: https://arxiv.org/abs/2407.11300
零样本适应用于逆问题中扩散模型的近似后验采样
原标题: Zero-Shot Adaptation for Approximate Posterior Sampling of Diffusion Models in Inverse Problems
作者: Yaşar Utku Alçalar, Mehmet Akçakaya
机构: 明尼苏达大学,明尼阿波利斯
摘要: 扩散模型已经成为解决反问题的强大生成技术。尽管这些模型在成像中的各种反问题中取得了成功,但它们需要许多步骤才能收敛,导致推理时间较慢。最近,扩散模型的一个趋势是采用复杂的噪声时间表,这些时间表涉及在较低噪声水平下更频繁地迭代时间步,从而改善图像生成和收敛速度。然而,将这些想法应用于使用经验调整前向模型对数似然项权重的扩散模型来解决反问题仍然具有挑战性。为了应对这些挑战,我们提出了零样本近似后验采样(ZAPS),利用了与零样本物理驱动深度学习的联系。ZAPS固定采样步骤的数量,并使用物理引导损失函数进行零样本训练,以学习每个不规则时间步长处的对数似然权重。我们将ZAPS应用于最近提出的扩散后验采样方法作为基线,尽管ZAPS也可以与其他后验采样扩散模型一起使用。我们进一步使用可学习对角线条目的对角化方法来近似先验的对数Hessian,以提高计算效率。这些参数在给定的计算预算下经过固定数量的时代进行优化。我们在各种嘈杂的反问题上的结果,包括高斯和运动去模糊、修补和超分辨率,表明ZAPS减少了推理时间,提供了对不规则噪声时间表的稳健性,并改善了重建质量。代码可在此 https URL 中找到。
论文链接: https://arxiv.org/abs/2407.11288
Github: https://github.com/ualcalar17/ZAPS