cs.AI: 调查解释性和AI素养在用户遵从性中的作用
原标题: Investigating the Role of Explainability and AI Literacy in User Compliance
作者: Niklas Kühl, Christian Meske, Maximilian Nitsche, Jodie Lobana
机构: 贝尔瑙特大学 德国鲁尔大学 IBM德国 麦克马斯特大学
摘要: 人工智能在不同领域变得越来越普遍。然而,由于复杂的基于人工智能的系统通常是黑盒的,决策逻辑不透明,用户发现很难遵守它们的建议。尽管研究人员正在研究可解释人工智能(XAI)以增加底层机器学习模型的透明度,但目前尚不清楚哪种类型的解释是有效的,以及其他哪些因素会增加遵从性。为了更好地理解这些因素的相互作用,我们进行了一项实验,共有562名参与者,他们被呈现了一个人工智能的建议和两种不同类型的XAI。我们发现,引入XAI后用户的遵从性增加,但也受到人工智能素养的影响。我们还发现,人工智能素养、XAI和用户的遵从性之间的关系受用户对人工智能的心理模型的调节。我们的研究对成功设计利用XAI的基于人工智能的系统具有几个意义。
论文链接: https://arxiv.org/pdf/2406.12660
cs.AI: 使用神经随机微分方程概率预测连续疾病轨迹和治疗效果的时间预测
原标题: Probabilistic Temporal Prediction of Continuous Disease Trajectories and Treatment Effects Using Neural SDEs
作者: Joshua Durso-Finley, Berardino Barile, Jean-Pierre Falet, Douglas L. Arnold, Nick Pawlowski, Tal Arbel
机构: 麦吉尔大学 中微软研究院 Montreal神经研究所 MILA(魁北克人工智能研究所)
摘要: 基于医学影像的个性化医疗,包括预测未来个体化临床疾病进展和治疗反应,将对医疗保健和药物开发产生巨大影响,特别是对于长期、复杂、异质进展且无法治愈的疾病(例如多发性硬化症(MS))。在这项工作中,我们提出了第一个用神经随机微分方程(NSDE)模拟疾病进展连续时间演变的随机因果时间框架。所提出的因果推断模型以患者的高维影像(MRI)和表格数据作为输入,并在潜在空间中预测不同治疗的事实和反事实进展轨迹。NSDE允许估计高置信度的个性化轨迹和治疗效果。我们在一个大型、多中心、专有数据集上进行了大量实验,该数据集包括在多个随机临床试验中获取的患者3D MRI和临床数据,用于MS治疗。我们的结果展示了第一个成功基于不确定性的因果深度学习(DL)模型,能够准确预测未来患者MS残疾演变(例如EDSS)和利用基线MRI预测治疗效果,并且能够发现在临床试验中即使未达到临床终点的患者亚组,模型对其治疗反应具有高置信度。
论文链接: https://arxiv.org/pdf/2406.12807
cs.AI: 代码生成评估的基准和指标:一项关键回顾
原标题: Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review
作者: Debalina Ghosh Paul, Hong Zhu, Ian Bayley
机构: 牛津布鲁克斯大学 School of Engineering, Computing and Mathematics
摘要: 随着大语言模型(LLMs)的快速发展,已经开发出大量的机器学习模型来辅助编程任务,包括从自然语言输入生成程序代码。然而,尽管已经进行了大量研究工作来评估和比较这些LLMs,但如何评估这项任务仍然是一个未解决的问题。本文对现有关于测试和评估这些工具的工作进行了批判性审查,重点关注两个关键方面:评估中使用的基准和指标。根据审查结果,进一步讨论了研究方向。
论文链接: https://arxiv.org/pdf/2406.12655
cs.AI: 使用逆强化学习实现机械溶栓中导管和导丝的自主导航
原标题: Autonomous navigation of catheters and guidewires in mechanical thrombectomy using inverse reinforcement learning
作者: Harry Robertshaw, Lennart Karstensen, Benjamin Jackson, Alejandro Granados, Thomas C. Booth
机构: 伦敦国王学院生物医学工程与成像科学学院 Friedrich-Alexander大学Erlangen-Nürnberg AIBE
摘要: 目的:导航导管和导丝的自主导航可以增强血管内手术的安全性和有效性,减少手术时间和操作者的辐射暴露。集成远程操作机器人技术可以扩大对机械血栓切除术(MT)等时间紧迫的急诊手术的访问。强化学习(RL)在血管内导航中显示出潜力,但在没有奖励信号的情况下,其应用遇到挑战。本研究探讨了使用逆强化学习(IRL)利用专家示范来推断MT血管内自主导航的可行性。方法:本研究建立了一个基于模拟的MT导航训练和评估环境。我们使用IRL从专家行为中推断奖励函数,用于导航导丝和导管。我们利用软演员-评论家算法(soft actor-critic)使用各种奖励函数训练模型,并在模拟环境中比较它们的性能。结果:我们证明了使用IRL进行导航的可行性。在评估单个设备与双设备(即导丝与导管和导丝)跟踪时,两种方法的成功率分别为95%和96%。然而,双跟踪利用了两种设备模仿专家。当使用奖励塑形获得的奖励函数进行训练时,成功率为100%,手术时间为22.6秒。这优于密集奖励函数(96%,24.9秒)和IRL推导的奖励函数(48%,59.2秒)。结论:我们通过使用IRL在特别是MT方面推进了自主血管内干预导航的发展。结果强调了使用奖励塑形来训练模型的潜力,为增强MT的可访问性和精度提供了一个有前途的途径。我们期望未来的研究可以将我们的方法扩展到不同的解剖结构,以增强其泛化能力。
论文链接: https://arxiv.org/pdf/2406.12499
cs.AI: 一种神经列生成方法用于具有二维装载和后进先出约束的车辆路径问题
原标题: A Neural Column Generation Approach to the Vehicle Routing Problem with Two-Dimensional Loading and Last-In-First-Out Constraints
作者: Yifan Xia, Xiangyi Zhang
机构: 南京大学 QB信息技术公司
摘要: 这篇文章介绍了一个解决具有二维装载约束(2L-CVRP)和后进先出(LIFO)规则的车辆路径问题的精确算法。虽然已经提出了许多启发式方法来解决其复杂性,这些方法源自两个 NP 难问题:车辆路径问题(VRP)和二维装箱问题(2D-BPP),但对于开发精确算法却付出了较少的关注。为了弥合这一差距,本文提出了一种精确算法,它整合了先进的机器学习技术,特别是一种新颖的注意力和循环机制的组合。这种整合加速了最新的精确算法在各种问题实例中的中位数约 29.79%。此外,所提出的算法成功解决了标准测试平台上的一个开放实例,展示了机器学习模型的整合带来的显著改进。代码可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2406.12454
Github: https://github.com/xyfffff/NCG-for-2L-CVRP
cs.AI: 潜在直觉物理:学习从3D视频中转移隐藏的物理知识
原标题: Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video
作者: Xiangming Zhu, Huayu Deng, Haochen Yuan, Yunbo Wang, Xiaokang Yang
机构: 上海交通大学
摘要: 我们介绍了潜在直觉物理,这是一个用于物理模拟的迁移学习框架,可以从单个3D视频中推断流体的隐藏属性,并在新颖的场景中模拟所观察到的流体。我们的关键见解是利用从可学习的先验分布中提取的潜在特征,条件于基本粒子状态,以捕捉不可见和复杂的物理特性。为实现这一目标,我们训练一个参数化的先验学习器,给定视觉观察结果以逼近逆向图形的视觉后验,粒子状态和视觉后验均来自学习的神经渲染器。收敛的先验学习器嵌入在我们的概率物理引擎中,使我们能够在不了解真实物理参数的情况下对未知几何形状、边界和动力学进行新颖的模拟。我们通过三种方式验证了我们的模型:(i)使用学习的视觉世界物理进行新颖场景模拟,(ii)预测观察到的流体动力学的未来,以及(iii)监督粒子模拟。我们的模型在所有三个任务中表现出很强的性能。
论文链接: https://arxiv.org/pdf/2406.12769
cs.AI: RS-GPT4V:用于遥感图像理解的统一多模态指令遵循数据集
原标题: RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding
作者: Linrui Xu, Ling Zhao, Wang Guo, Qiujun Li, Kewang Long, Kaiqi Zou, Yuhan Wang, Haifeng Li
机构: 中南大学
摘要: 遥感图像智能理解模型正在经历一场由多模态大语言模型(MLLM)推动的新的深刻范式转变,即从范式学习领域模型(LaDM)转变为学习预训练的通用基础模型,然后再适应领域模型(LaGD)。在新的LaGD范式下,过去十年中促进遥感图像智能理解进展的旧数据集已不再适用于全新的任务。我们认为必须设计一个新的数据集,以减轻具有以下特征的任务:1)泛化:训练模型学习任务之间的共享知识,并适应不同的任务;2)理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能够用自然语言描述场景;3)推理:训练模型能够实现高级视觉推理。在本文中,我们设计了一个由GPT-4V和现有数据集生成的高质量、多样化和统一的遥感图像智能理解多模态指令遵循数据集,我们称之为RS-GPT4V。为了实现泛化,我们使用了从GPT-4V通过指令遵循推导出的(问题,答案)来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了具有局部策略的分层指令描述,其中描述了对象的细粒度属性及其空间关系,并具有整合所有局部信息以产生详细指令描述的全局策略;为了实现推理,我们设计了多轮问答对,为模型提供推理能力。实证结果表明,通过RS-GPT4V微调的MLLM能够描述细粒度信息。该数据集可在以下网址获得:https://此网址。
论文链接: https://arxiv.org/pdf/2406.12479
Github: https://github.com/GeoX-Lab/RS-GPT4V
cs.AI: 工业工作流中工人行为的自动洞察力生成与可解释机器学习
原标题: Automatic generation of insights from workers’ actions in industrial workflows with explainable Machine Learning
作者: Francisco de Arriba-Pérez, Silvia García-Méndez, Javier Otero-Mosquera, Francisco J. González-Castaño, Felipe Gil-Castiñeira
机构: IEEE
摘要: 新技术,如机器学习(ML),为评估工业工作流程并自动生成关键绩效指标(KPI)提供了巨大潜力。然而,尽管已经建立了衡量工业机械效率的标准,但对于工人的生产力却没有精确的等价物,鉴于下一代工业工作流程缺乏熟练的劳动力,这是非常可取的。因此,需要一种结合制造过程数据和工人绩效的ML解决方案来实现这一目标。此外,近年来,人们已经付出了巨大的努力来解释ML方法,这些方法可以自动向人类操作员解释它们的决策,从而提高它们的可信度。我们建议将可解释的ML解决方案应用于区分工业工作流程中的专家和非专家工人,我们在质量评估工业工作站对此进行了验证。关于所使用的方法论,输入数据由制造机器捕获并存储在NoSQL数据库中。数据经过处理,用于构建用于自动分类的特征,并计算工人的KPI,以预测他们的专业水平(所有分类指标均超过90%)。这些KPI以及决策中的相关特征通过解释性仪表板上的自然语言扩展进行了文本解释。这些自动解释使得能够从专家工人那里推断出对非专家工人的知识。后者说明了自解释ML研究对于自动生成洞见以提高工业工作流程生产力的兴趣。
论文链接: https://arxiv.org/pdf/2406.12732
cs.AI: 在医学领域的生成人工智能中,检索增强生成
原标题: Retrieval-Augmented Generation for Generative Artificial Intelligence in Medicine
作者: Rui Yang, Yilin Ning, Emilia Keppo, Mingxuan Liu, Chuan Hong, Danielle S Bitterman, Jasmine Chiat Ling Ong, Daniel Shu Wei Ting, Nan Liu
机构: 杜克-新加坡国立大学医学院
摘要: 生成人工智能(AI)已经在包括医学在内的各个领域带来了革命性的创新。然而,它也表现出一些局限性。作为回应,检索增强生成(RAG)提供了潜在的解决方案,通过利用外部知识的检索,使模型能够生成更准确的内容。随着生成AI的快速发展,RAG可以为将这一变革性技术与医学应用相连接铺平道路,并有望为医疗保健带来公平性、可靠性和个性化方面的创新。
论文链接: https://arxiv.org/pdf/2406.12449
cs.AI: 同质工具的自适应选择:在RAG场景中的具体应用
原标题: Adaptive Selection for Homogeneous Tools: An Instantiation in the RAG Scenario
作者: Feiteng Mu, Yong Jiang, Liwen Zhang, Chu Liu, Wenjie Li, Pengjun Xie, Fei Huang
机构: 香港理工大学 阿里巴巴集团
摘要: 当前关于工具学习的研究主要集中在从各种选择中选择最有效的工具,通常忽视了成本效益,这是人类问题解决中的一个关键因素。在本文中,我们通过预测同类工具的性能和完成给定任务所需的相关成本,来解决同类工具的选择问题。然后以一种成本效益的方式将查询分配给最佳工具。我们的实验结果表明,与强基准方法相比,我们的方法在较低成本下实现了更高的性能。
论文链接: https://arxiv.org/pdf/2406.12429
cs.AI: 利用课程学习增强时空分位数预测:经验教训
原标题: Enhancing Spatio-temporal Quantile Forecasting with Curriculum Learning: Lessons Learned
作者: Du Yin, Jinliang Deng, Shuang Ao, Zechen Li, Hao Xue, Arian Prabowo, Renhe Jiang, Xuan Song, Flora Salim
机构: 新南威尔士大学 澳大利亚 香港科技大学 南方科技大学 中国 东京大学 空间信息科学中心 吉林大学 人工智能学院
摘要: 在时空(ST)数据上训练模型存在一个开放问题,这是由于数据本身的复杂和多样性,直接在原始ST数据上训练模型的性能很难保证。虽然限制训练数据的多样性可以使训练变得更容易,但也可能导致模型缺乏知识和信息,从而导致性能下降。为了解决这一挑战,我们提出了一种创新的范式,它包括三种独立的课程学习形式,分别从空间、时间和分位数的角度进行针对性的学习。此外,我们的框架还包括一个堆叠融合模块,用于将来自三种类型课程学习的多样信息进行组合,从而实现强大而全面的学习过程。我们通过大量的实证评估证明了这一框架的有效性,突出了它在解决复杂的ST挑战方面的更好性能。我们进行了彻底的消融研究,以调查我们课程的有效性,并解释它如何有助于提高ST数据的学习效率。
论文链接: https://arxiv.org/pdf/2406.12709
cs.AI: 用于证明修复或攻击大语言模型的隐形编辑
原标题: Stealth edits for provably fixing or attacking large language models
作者: Oliver J. Sutton, Qinghua Zhou, Wei Wang, Desmond J. Higham, Alexander N. Gorban, Alexander Bastounis, Ivan Y. Tyukin
机构: 伦敦国王学院 利斯特大学 爱丁堡大学
摘要: 我们揭示了编辑大型语言模型的新方法和理论基础技术。我们还展示了新理论如何用于评估模型的可编辑性,并揭示它们对以前未知的恶意攻击的敏感性。我们的理论方法表明,一个单一的度量(模型特征的内在维度的特定测量)对于预测流行的编辑方法的成功至关重要,并揭示了编辑方法家族之间的新桥梁。我们将这些方法统称为隐形编辑方法,因为它们旨在直接且廉价地更新模型的权重,以纠正模型对已知幻觉提示的响应,而不会影响模型的行为,也不需要重新训练。通过仔细应用我们理论研究所得的见解,我们能够引入一种新的网络块——名为喷气背包块——它经过优化,用于高度选择性的模型编辑,仅使用标准网络操作,并可以插入到现有网络中。内在维度度量还决定了语言模型对隐形攻击的脆弱性:对模型权重的微小改变会改变其对单个攻击者选择的提示的响应。隐形攻击不需要访问或了解模型的训练数据,因此对重新分发的基础模型构成了一个强大但以前未被认识到的威胁。它们在许多情况下都足够简单,可以在恶意软件中实施。广泛的实验结果说明并支持了该方法及其理论基础。编辑语言模型的演示和源代码可在此网址获得。
论文链接: https://arxiv.org/pdf/2406.12670
Github: https://github.com/qinghua-zhou/stealth-edits
cs.AI: 使用粗糙集和共识聚类在网络中进行社区检测的新算法
原标题: A Novel Algorithm for Community Detection in Networks using Rough Sets and Consensus Clustering
作者: Darian H. Grass-Boada, Leandro González-Montesino, Rubén Armañanzas
机构: DATAI(数据科学与人工智能研究所) TECNUN工程学院(西班牙)
摘要: 复杂网络,如社交、生物和技术系统中的网络,通常对社区检测任务提出挑战。我们的研究引入了一种基于粗糙聚类的共识社区框架(RC-CCD),用于有效识别网络社区的结构。RC-CCD 方法采用粗糙集理论处理数据中的不确定性,并利用共识聚类方法聚合多个聚类结果,增强社区检测的可靠性和准确性。这种整合使得 RC-CCD 能够有效管理复杂网络中常见的重叠社区。
这种方法擅长检测重叠社区,提供了对网络结构的详细和准确的表示。通过对Lancichinetti-Fortunato-Radicchi方法生成的基准网络进行全面测试,展示了新提议对不同节点度和社区大小的强大性和适应性。RC-CCD 与其他知名检测算法的交叉比较结果突显了其稳定性和适应性。
论文链接: https://arxiv.org/pdf/2406.12412
cs.AI: RIGL: 一种统一的相互作用方法,用于跟踪独立和群体学习过程
原标题: RIGL: A Unified Reciprocal Approach for Tracing the Independent and Group Learning Processes
作者: Xiaoshan Yu, Chuan Qin, Dazhong Shen, Shangshang Yang, Haiping Ma, Hengshu Zhu, Xingyi Zhang
机构: 安徽大学 清华大学 上海人工智能实验室 北京职业科学实验室
摘要: 在教育领域,独立学习和集体学习被视为最经典的范式。前者允许学习者自主指导他们的学习,而后者通常以教师指导的场景为特征。智能教育领域的最新研究利用深层时间模型来追踪学习过程,捕捉学生知识状态的动态,并取得了显著的表现。然而,现有方法主要集中在对独立学习过程建模,对集体学习范式的关注较少。此外,两种学习过程之间的相互影响,特别是它们共同促进学生全面发展的潜力,仍然未得到充分探讨。因此,在本文中,我们提出了RIGL,一个统一的相互模型,用于追踪个体和集体层面的知识状态,借鉴了独立学习和集体学习过程。具体而言,我们首先引入了一个时间框架感知的相互嵌入模块,同时模拟不同时间框架下学生和集体的响应交互。随后,我们采用相互增强学习建模,充分利用两种行为之间的全面和互补信息。此外,我们设计了一个关系引导的时间注意网络,由动态图建模和时间自注意机制组成。它用于深入研究个体和集体在学习过程中的动态相互影响。最后,我们引入了一个偏差感知对比学习模块,以增强模型训练的稳定性。对四个真实世界的教育数据集进行的大量实验证明了所提出的RIGL模型的有效性。
论文链接: https://arxiv.org/pdf/2406.12465
cs.AI: 一种前沿的深度学习方法,用于增强物联网安全。
原标题: A Cutting-Edge Deep Learning Method For Enhancing IoT Security
作者: Nadia Ansar, Mohammad Sadique Ansari, Mohammad Sharique, Aamina Khatoon, Md Abdul Malik, Md Munir Siddiqui
机构: 贾汉吉拉巴德技术学院
摘要: 在物联网中存在重大问题,涉及数十亿设备的异构性和大量数据。本文提出了一种创新的物联网(IoT)环境入侵检测系统(IDS),采用了集成深度学习卷积神经网络(CNN)和长短期记忆(LSTM)网络的设计。基于CICIDS2017数据集,我们的模型在将网络流量分类为良性或恶意方面实现了99.52%的准确率。我们的模型在实时处理能力、可扩展性和低误报率方面超过了一些传统的IDS方法,因此在当今的物联网网络中被证明是成功的应用。讨论了模型的发展和性能,以及可能扩展到自适应学习技术和跨领域适用性的其他相关领域的应用。涉及深度学习用于物联网网络安全的研究提供了显著改善网络安全的有效解决方案。
论文链接: https://arxiv.org/pdf/2406.12400
cs.AI: 飞机装配中的缺陷识别的在线自适应异常检测
原标题: Online-Adaptive Anomaly Detection for Defect Identification in Aircraft Assembly
作者: Siddhant Shete, Dennis Mronga, Ankita Jadhav, Frank Kirchner
摘要: 异常检测涉及检测数据中与已建立模式的偏差。它在自动驾驶、预测性维护和医学诊断等领域有各种应用。为了提高异常检测的准确性,可以将迁移学习应用于大型预训练模型,并使其适应特定的应用场景。在本文中,我们提出了一种利用迁移学习进行在线自适应异常检测的新框架。该方法通过选择视觉上相似的训练图像并在线拟合从训练子集中提取的EfficientNet特征的正常模型,以适应不同的环境。然后,通过计算测试图像特征与正常模型之间的马氏距离来执行异常检测。采用不同的相似度度量(SIFT/FLANN,余弦)和正常模型(MVG,OCSVM),并将它们进行比较。我们在不同的异常检测基准和受控实验室环境中收集的数据上评估了该方法。实验结果展示了超过0.975的检测准确度,优于最先进的ET-NET方法。
论文链接: https://arxiv.org/pdf/2406.12698
cs.AI: 在野外昆虫识别:AMI 数据集
原标题: Insect Identification in the Wild: The AMI Dataset
作者: Aditya Jain, Fagner Cunha, Michael James Bunsen, Juan Sebastián Cañas, Léonard Pasi, Nathan Pinoy, Flemming Helsing, JoAnne Russo, Marc Botham, Michael Sabourin, Jonathan Fréchette, Alexandre Anctil, Yacksecari Lopez, Eduardo Navarro, Filonila Perez Pimentel, Ana Cecilia Zamora, José Alejandro Ramirez Silva, Jonathan Gagnon, Tom August, Kim Bjerge, Alba Gomez Segura, Marc Bélisle, Yves Basset, Kent P. McFarland, David Roy, Toke Thomas Høye, Maxim Larrivée, David Rolnick
机构: 米拉 - 魁北克人工智能研究所 联邦亚马逊大学 奥胡斯大学 佛蒙特生态研究中心 英国生态与水文中心 麦奎尔中心 亚鲁斯大学
摘要: 昆虫代表了全球生物多样性的一半,然而世界上许多昆虫正在消失,这对生态系统和农业产生严重影响。尽管存在这一危机,由于人类专家稀缺和缺乏可扩展的监测工具,关于昆虫多样性和丰度的数据仍然非常不足。生态学家已经开始采用摄像机陷阱来记录和研究昆虫,并提出计算机视觉算法作为可扩展数据处理的答案。然而,在野外进行昆虫监测面临着独特的挑战,这些挑战在计算机视觉领域尚未得到解决,包括长尾数据的组合、极其相似的类别和显著的分布转变。我们提供了第一个针对细粒度昆虫识别的大规模机器学习基准,旨在匹配生态学家面临的真实任务。我们的贡献包括来自公民科学平台和博物馆的图像数据集,以及来自多个大陆的自动摄像机陷阱的专家注释数据集,旨在测试在野外条件下的分布外泛化能力。我们训练和评估了各种基线算法,并引入了一系列数据增强技术,以增强地理和硬件设置的泛化能力。代码和数据集已公开发布。
论文链接: https://arxiv.org/pdf/2406.12452
Github: https://github.com/rolnicklab/ami-dataset
cs.AI: 语言模型网络中的问题解决
原标题: Problem-Solving in Language Model Networks
作者: Ciaran Regan, Alexandre Gournail, Mizuki Oka
机构: 筑波大学 格勒诺布尔国立理工学院-安西马格,格勒诺布尔大学
摘要: 为了提高大型语言模型(LLMs)的推理和问答能力,引入了几种多智能体方法。虽然这些方法提高了性能,但基于集体智能的方法在复杂网络结构和智能体相互作用动态的应用仍未得到充分探索。本研究将多智能体辩论的概念扩展到更一般的网络拓扑结构,衡量了问答准确性、影响力、共识以及偏见对集体的影响。结果显示,随机网络的表现与完全连接的网络相似,尽管使用的标记数量明显较少。此外,在智能体之间形成强烈共识与正确答案相关,而分歧的回答通常表明答案不正确。分析智能体的影响力揭示了自我反思和相互连接之间的平衡;当局部交互不正确时,自我反思有助于,而当智能体本身不正确时,局部交互有助于。此外,偏见在系统性能中起着重要作用,正确偏置的中心节点提升了性能。这些见解表明,在多智能体系统中使用随机网络或具有知识智能体放置在中心位置的无标度网络可以提高整体性能。
论文链接: https://arxiv.org/pdf/2406.12374
Github: https://github.com/tsukuba-websci/psilmn
cs.AI: XXLTraffic:扩展和极长的交通数据集,用于超动态预测挑战。
原标题: XXLTraffic: Expanding and Extremely Long Traffic Dataset for Ultra-Dynamic Forecasting Challenges
作者: Du Yin, Hao Xue, Arian Prabowo, Shuang Ao, Flora Salim
机构: 新南威尔士大学
摘要: 交通预测对于智慧城市和智能交通计划至关重要,深度学习在近年来对建模复杂时空模式取得了显著进展。然而,当前的公共数据集在反映真实世界场景的超动态特性方面存在局限,这些特性包括不断发展的基础设施、不同的时间分布以及由于传感器停机或交通模式变化而产生的时间间隙。这些局限不可避免地限制了现有交通预测数据集的实际适用性。为了弥合这一差距,我们推出了 XXLTraffic,这是目前最大的公共交通数据集,具有最长的时间跨度和在数据中观察到的传感器节点数量不断增加,旨在支持超动态预测研究。我们的基准包括典型的时间序列预测设置,涵盖了按小时和按天聚合的数据,以及引入间隙并对训练规模进行下采样以更好地模拟实际约束的新配置。我们期待新的 XXLTraffic 将为时间序列和交通预测社区提供新的视角。它还将为开发和评估旨在解决超动态和极长期预测问题的模型提供一个稳健的平台。我们的数据集补充了现有的时空数据资源,并引领了该领域的新研究方向。
论文链接: https://arxiv.org/pdf/2406.12693
cs.AI: 已认证的机器学习目标检测用于监控任务
原标题: Certified ML Object Detection for Surveillance Missions
作者: Mohammed Belcaid (C-S Group), Eric Bonnafous, Louis Crison, Christophe Faure (C-S Group), Eric Jenn, Claire Pagetti
机构: CS集团 IRT Saint-Exupéry ONERA
摘要: 在本文中,我们介绍了一个涉及机器学习目标检测组件的无人机检测系统的开发过程。其目的是达到可接受的性能目标,并提供足够的证据,以满足ED 324 / ARP 6983标准(即将发布)的建议,从而增强对设计系统可靠性的信心。
论文链接: https://arxiv.org/pdf/2406.12362
cs.AI: 循环对应损失:从未标记和无序的 RGB 图像中学习密集的视图不变视觉特征
原标题: Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images
作者: David B. Adrian, Andras Gabor Kupcsik, Markus Spies, Heiko Neumann
摘要: 机器人操作依赖于学习的物体中心描述符在近年来变得流行起来。视觉描述符可以轻松描述操作任务的目标,它们可以通过自我监督有效地学习,并且可以编码被激活甚至非刚性的物体。然而,在自我监督方法中学习稳健的、视角不变的关键点需要一个细致的数据收集方法,涉及精确的校准和专家监督。在本文中,我们引入了循环对应损失(CCL)用于视角不变的密集描述符学习,它采用循环一致性的概念,实现了简单的数据收集管道,并在不成对的 RGB 摄像头视图上进行训练。关键思想是通过尝试使用对新图像的预测来预测原始图像中的原始像素,同时根据估计的置信度缩放误差项,自主检测有效像素对应。我们的评估表明,我们的自我监督 RGB-only 方法优于其他方法,并在关键点跟踪以及机器人抓取下游任务的性能方面接近监督方法的性能。
论文链接: https://arxiv.org/pdf/2406.12441
cs.AI: 用 Bregman 学习稀疏化偏微分方程解数据的降维
原标题: Sparsifying dimensionality reduction of PDE solution data with Bregman learning
作者: Tjeerd Jan Heeringa, Christoph Brune, Mengwu Guo
机构: 特温特大学 荷兰 兰德大学 瑞典
摘要: 经典模型简化技术将控制方程投影到原始状态空间的线性子空间上。最近的数据驱动技术使用神经网络实现非线性投影。虽然这些技术通常能够实现更强的压缩,但它们可能具有冗余参数,并导致次优的潜在维度。为了克服这些问题,我们提出了一种多步算法,通过在编码器-解码器网络中引入稀疏性,有效减少参数数量并进一步压缩潜在空间。该算法从稀疏初始化网络开始,并使用线性化的Bregman迭代进行训练。这些迭代在计算机视觉和压缩感知任务中非常成功,但尚未用于降阶建模。在训练之后,我们进一步通过使用一种适当正交分解形式来压缩潜在空间的维度。最后,我们使用偏置传播技术将引入的稀疏性转化为参数的有效减少。我们将该算法应用于三个代表性的偏微分方程模型:一维扩散、一维对流和二维反应扩散。与Adam等常规训练方法相比,所提出的方法在具有相似准确性的情况下,参数数量减少30%,潜在空间显著减小。
论文链接: https://arxiv.org/pdf/2406.12672
cs.AI: 有限节点标签的联邦学习
原标题: Federated Learning with Limited Node Labels
作者: Bisheng Tang, Xiaojun Chen, Shaopu Wang, Yuexin Xuan, Zhendong Zhao
机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院
摘要: 子图联邦学习(SFL)是一种研究方法,因其处理分布式图结构数据的潜力而受到重视。在SFL中,本地模型包括具有部分图结构的图神经网络(GNNs)。然而,一些SFL模型忽视了缺失的跨子图边的重要性,这可能导致本地GNN无法将全局表示传递给其他方的GNN。此外,现有的SFL模型需要大量标记数据,这限制了它们的实际应用。为了克服这些限制,我们提出了一种名为FedMpa的新型SFL框架,旨在学习跨子图节点表示。FedMpa首先使用少量数据训练多层感知器(MLP)模型,然后将联邦特征传播到本地结构。为了进一步改进具有本地子图的节点嵌入表示,我们引入了FedMpae方法,该方法通过创新视角重构本地图结构,应用池化操作形成超级节点。我们在六个图数据集上进行了大量实验,结果表明FedMpa在节点分类方面非常有效。此外,我们的消融实验证实了FedMpa的有效性。
论文链接: https://arxiv.org/pdf/2406.12435
cs.AI: PruningBench:结构剪枝的全面基准
原标题: PruningBench: A Comprehensive Benchmark of Structural Pruning
作者: Haoling Li, Changhao Li, Mengqi Xue, Gongfan Fang, Sheng Zhou, Zunlei Feng, Huiqiong Wang, Yong Wang, Lechao Cheng, Mingli Song, Jie Song
机构: 浙江大学 杭州城市大学 国立新加坡大学 宁波创新中心 浙江大学 国家电网山东电力公司 合肥工业大学
摘要: 结构修剪已成为一种有前途的方法,可以生产更高效的模型。然而,社区在标准化基准和度量方面存在缺乏,这导致该领域的进展尚未得到充分理解。为了填补这一空白,我们提出了第一个全面的基准,称为\textit{PruningBench},用于结构修剪。PruningBench展示了以下三个特点:1)PruningBench采用统一一致的框架来评估各种结构修剪技术的有效性;2)PruningBench系统地评估了16种现有的修剪方法,涵盖了各种模型(例如CNN和ViTs)和任务(例如分类和检测);3)PruningBench提供了易于实现的接口,以促进未来修剪方法的实施,并使随后的研究人员将他们的工作纳入我们的排行榜。我们提供了一个在线修剪平台,网址为http URL,用于定制修剪任务并重现本文中的所有结果。代码将公开发布。
论文链接: https://arxiv.org/pdf/2406.12315
其他链接: http://pruning.vipazoo.cn
cs.AI: 探索用于心肺音监测的感知设备
原标题: Exploring Sensing Devices for Heart and Lung Sound Monitoring
作者: Yasaman Torabi, Shahram Shirani, James P. Reilly
机构: 麦克马斯特大学 加拿大
L.R.威尔逊/贝尔加拿大数据通信主席
摘要: 本论文介绍了心肺听诊传感设备的全面评估,有助于理解传感设备的理论方面,以及设计新型传感设备的实际注意事项。设计听诊器的方法之一是使用电容式电极麦克风(ECM)。在本文中,我们首先介绍了心脏和肺部的声学特性,以及听诊器演变的简要历史。然后,我们讨论了ECM传感器的基本概念以及基于这项技术的最新听诊器。针对基于ECM的系统的局限性,我们探讨了微机电系统(MEMS)的潜力,特别关注压电换能器(PZT)传感器。本文全面审查了传感技术,强调了过去十年中可穿戴心肺听诊的创新MEMS设计。据我们所知,这是第一篇总结ECM和MEMS应用于心脏和肺部声音分析的论文。关键词:微电子机械系统(MEMS);电容式电极麦克风(ECM);可穿戴传感设备;心肺听诊;心音图(PCG);心音;肺音
论文链接: https://arxiv.org/pdf/2406.12432
cs.AI: 基于机器学习的危险飞行天气预测研究
原标题: Research on Dangerous Flight Weather Prediction based on Machine Learning
作者: Haoxing Liu, Renjie Xie, Haoshen Qin, Yizhou Li
机构: 上海吉祥航空有限公司;佛罗里达大学工程学院;凯斯西储大学
摘要: 随着航空运输规模的不断扩大,对航空气象支持的需求也在不断增长。恶劣天气对飞行安全的影响至关重要。如何有效利用气象数据提高飞行危险天气的预警能力,确保飞机的安全飞行,是航空气象服务的首要任务。在这项工作中,我们使用支持向量机(SVM)模型来预测危险的飞行天气,特别是对于像风暴和湍流这样具有高度不确定性的气象条件。SVM是一种监督学习方法,通过在高维空间中找到最佳决策边界来区分不同类别的数据。为了满足这项研究的需求,我们选择径向基函数(RBF)作为核函数,这有助于处理非线性问题,使模型能够更好地捕捉复杂的气象数据结构。在模型训练阶段,我们使用了来自多个气象站的历史气象观测数据,包括温度、湿度、风速、风向和其他与飞行安全密切相关的气象指标。通过这些数据,SVM模型学习如何区分正常和危险的飞行天气条件。
论文链接: https://arxiv.org/pdf/2406.12298
cs.AI: LVLM-based图像字幕生成中,更多细节总是会引入更多的幻觉吗?
原标题: Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning?
作者: Mingqian Feng, Yunlong Tang, Zeliang Zhang, Chenliang Xu
机构: 罗切斯特大学
摘要: 大型视觉语言模型(LVLMs)在整合视觉和语言环境以生成详细内容方面表现出色,促进了诸如图像字幕等应用。然而,使用LVLMs生成描述通常面临对象幻觉(OH)的挑战,即输出文本误代实际输入图像中的对象。虽然先前的研究将OH的发生归因于包含更多细节,但我们的研究发现现有指标存在技术缺陷,导致对模型和OH结论的评估不可靠。这引发了一个争论:在基于LVLM的图像字幕中,更多细节是否总是会引入更多幻觉?
在本文中,我们通过提出一种新的解码策略——差异化束搜索解码(DBD),以及一组可靠的新评估指标:CLIP-精度、CLIP-召回率和CLIP-F1,来解决这一争论。DBD将隐藏在视觉输入中的丰富信息并行解码为称为单元事实的不同语言表示。这种解码是通过一个精心设计的差分分数实现的,该分数指导并行搜索和候选筛选。然后,选择的单元事实被聚合以生成最终的字幕。我们提出的指标通过比较地面真实图像区域和生成文本分区的嵌入组来评估图像字幕的全面性和准确性。对Visual Genome数据集的大量实验验证了我们的方法的有效性,表明它在产生详细描述的同时保持了较低的幻觉水平。
论文链接: https://arxiv.org/pdf/2406.12663
cs.AI: 神经元激活作为解释大语言模型引发算术推理的统一视角的调查
原标题: An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs
作者: Daking Rai, Ziyu Yao
机构: 乔治梅森大学
摘要: 大语言模型(LLMs)在使用“Chain-of-Thought(CoT)”提示时展现出了强大的算术推理能力。然而,我们对它们在LLMs中是如何被处理的理解仍然有限。为了揭开这个谜团,先前的研究主要集中在消除CoT提示中的不同组件,并经验性地观察它们对LLM性能的影响。然而,这些组件对LLM推理的重要性的原因并未被探索。为了填补这一空白,在这项工作中,我们调查了“神经元激活”作为一个透镜,以提供对先前研究观察的统一解释。具体来说,我们研究了LLMs前馈层中可能激活其算术推理能力的神经元,以Llama2为例。为了促进这一调查,我们还提出了一种基于GPT-4的方法,自动识别暗示算术推理的神经元。我们的分析表明,在LLMs的前馈层中激活推理神经元可以解释CoT提示中各种组件的重要性,未来的研究可以扩展这一点,以获得更完整的理解。
论文链接: https://arxiv.org/pdf/2406.12288
cs.AI: 基金会模型与联邦学习的协同作用:一项调查
原标题: Synergizing Foundation Models and Federated Learning: A Survey
作者: Shenghui Li, Fanghua Ye, Meng Fang, Jiaxu Zhao, Yun-Hin Chan, Edith C.-H. Ngai, Thiemo Voigt
机构: 瑞典乌普萨拉大学 英国伦敦大学学院 英国利物浦大学 荷兰埃因霍温科技大学 中国香港大学 瑞典瑞典研究院
摘要: 最近发展的基础模型(FMs),包括大语言模型、视觉 Transformer 和多模态模型,对学术界和工业界都产生了重大影响。与小规模模型相比,FMs 在预训练阶段对大量数据的需求更为强烈。尽管通用 FMs 可以在从互联网等开放来源收集的数据上进行预训练,但特定领域的 FMs 需要专有数据,由于隐私问题导致可用数据量的实际挑战。联邦学习(FL)是一种协作学习范式,突破了来自不同参与者的数据可用性障碍。因此,它提供了一种有前途的解决方案,可以在保护隐私的同时使用分布式数据集定制和调整 FMs 以适应各种特定领域的任务。本调查论文讨论了协同 FL 和 FMs 的潜力和挑战,并总结了核心技术、未来方向和应用。FM-FL 的定期更新论文集可在此 https URL 上获取。
论文链接: https://arxiv.org/pdf/2406.12844
Github: https://github.com/lishenghui/awesome-fm-fl
cs.AI: 能否对抗性地提高 Go AI 的鲁棒性?
原标题: Can Go AIs be adversarially robust?
作者: Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave
机构: FAR AI MILA MIT
摘要: 先前的研究发现,像KataGo这样的超级人类水平围棋AI可以被简单的对抗策略所击败。在本文中,我们研究了简单的防御是否能提高KataGo的最坏情况表现。我们测试了三种自然的防御方法:对手构建位置的对抗训练,迭代对抗训练和改变网络架构。我们发现其中一些防御能够抵御先前发现的攻击。不幸的是,我们也发现这些防御都无法抵御自适应攻击。特别是,我们能够训练出新的对手,通过导致它们以人类不会出现的方式失误,可靠地击败我们的防御智能体。我们的结果表明,即使在围棋等狭窄领域中,构建健壮的AI系统也是具有挑战性的。有关攻击的交互式示例和我们代码库的链接,请参见此https网址。
论文链接: https://arxiv.org/pdf/2406.12843
其他链接: https://goattack.far.ai
cs.AI: 插槽状态空间模型
原标题: Slot State Space Models
作者: Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn
机构: 罗格斯大学 韩国科学技术院 (KAIST)
摘要: 最近的状态空间模型(SSMs)如S4、S5和Mamba在长期时间依赖建模方面表现出了显著的计算优势。然而,在许多序列建模问题中,底层过程本质上是模块化的,有兴趣引入归纳偏差来模拟这种模块化结构。在本文中,我们介绍了SlotSSMs,这是一种将独立机制纳入SSMs以保持或鼓励信息分离的新框架。与维护单一状态向量的传统SSMs不同,SlotSSMs将状态维护为称为“slots”的多个向量的集合。关键是,状态转换是针对每个slot独立进行的,通过自注意力的瓶颈实现跨slot的稀疏交互。在实验中,我们在以物体为中心的视频理解、3D视觉推理和视频预测任务中评估了我们的模型,这涉及对多个对象及其长期时间依赖关系进行建模。我们发现,我们提出的设计相比现有的序列建模方法提供了显著的性能提升。
论文链接: https://arxiv.org/pdf/2406.12272
cs.AI: 概率概念解释器:对视觉基础模型的可信概念解释
原标题: Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models
作者: Hengyi Wang, Shiwei Tan, Hao Wang
机构: 清华大学 哈尔滨工业大学
摘要: 视觉Transformer(ViTs)已成为一个重要的关注领域,特别是因为它们具有与大型语言模型联合训练的能力,并且可以作为强大的视觉基础模型。然而,对于ViTs的可信解释方法的发展滞后,特别是在后续解释ViT预测的情况下。现有的子图像选择方法,如特征归因和概念模型,在这方面表现不佳。本文提出了解释ViTs的五个期望条件——忠实性、稳定性、稀疏性、多级结构和简洁性,并且展示了当前方法在全面满足这些标准方面的不足。我们引入了一个变分贝叶斯解释框架,命名为概率概念解释器(PACE),它模拟了补丁嵌入的分布,以提供可信的后续概念解释。我们的定性分析揭示了补丁级别概念的分布,阐明了通过建模补丁嵌入和ViT预测的联合分布来解释ViTs的有效性。此外,这些补丁级别的解释弥合了图像级和数据集级解释之间的差距,从而完成了PACE的多级结构。通过对合成和真实世界数据集的广泛实验,我们证明了PACE在所定义的期望条件方面超过了最先进的方法。
论文链接: https://arxiv.org/pdf/2406.12649
cs.AI: 推动近似 EFX 分配的前沿
原标题: Pushing the Frontier on Approximate EFX Allocations
作者: Georgios Amanatidis, Aris Filos-Ratsikas, Alkmini Sgouritsa
机构: 埃塞克斯大学 数学、统计与精算科学学院 爱丁堡大学 计算机学院 雅典经济和商业大学 信息学系 Archimedes/AthenaRC
摘要: 我们研究将一组不可分割的商品分配给一组具有加法估值函数的代理商的问题,旨在实现对任何商品的近似无嫉妒性( α \alpha α-EFX)。该问题的最新研究结果包括:(精确的)EFX分配存在于以下情况:(a)最多有三个代理商,或(b)代理商的估值函数最多可以取两个值,或(c)代理商的估值函数可以通过图表示。对于 α \alpha α-EFX,已知对于具有加法估值函数的任意数量的代理商,存在 0.618 0.618 0.618-EFX分配。在本文中,我们展示了当(a)最多有\emph{七个代理商},(b)代理商的估值函数最多可以取\emph{三个值},或(c)代理商的估值函数可以通过\emph{多重图}表示时,存在 2 / 3 2/3 2/3-EFX分配。我们的结果可以有两种解释。首先,通过将EFX的概念放宽到 2 / 3 2/3 2/3-EFX,我们获得了对已知存在精确EFX分配设置的严格概括的存在结果。其次,通过对设置施加限制,我们设法突破了 0.618 0.618 0.618的障碍,并实现了 2 / 3 2/3 2/3的近似保证。因此,我们的结果推动了近似EFX分配的存在和计算的\emph{前沿},并深入探讨了解决精确EFX分配存在性的挑战。
论文链接: https://arxiv.org/pdf/2406.12413
cs.AI: 揭秘高阶图神经网络
原标题: Demystifying Higher-Order Graph Neural Networks
作者: Maciej Besta, Florian Scheidl, Lukas Gianinazzi, Shachar Klaiman, Jürgen Müller, Torsten Hoefler
机构: 苏黎世联邦理工学院 巴斯夫公司
摘要: 高阶图神经网络(HOGNNs)是一类重要的GNN模型,利用顶点之间的多元关系,超越普通的边缘。它们已被用于消除过度平滑或过度压缩等问题,显著提高GNN预测的准确性,改进GNN架构的表达能力,以及实现众多其他目标。引入了大量的HOGNN模型,它们具有不同的神经架构,甚至对“高阶”含义有不同的理解。这种丰富性使得适当分析和比较HOGNN模型,以及决定在何种情景下使用特定模型变得非常具有挑战性。为了缓解这一问题,我们首先设计了HOGNNs的深入分类法和蓝图。这有助于设计最大化性能的模型。然后,我们使用我们的分类法来分析和比较现有的HOGNN模型。我们分析的结果被综合成一组见解,有助于在特定情景下选择最有益的GNN模型,并提供了进一步研究更强大的HOGNNs的一系列挑战和机遇的全面列表。
论文链接: https://arxiv.org/pdf/2406.12841
cs.AI: 关于多器官图像分割基础模型公平性的实证研究
原标题: An Empirical Study on the Fairness of Foundation Models for Multi-Organ Image Segmentation
作者: Qin Li, Yizhe Zhang, Yan Li, Jun Lyu, Meng Liu, Longyu Sun, Mengting Sun, Qirong Li, Wenyue Mao, Xinran Wu, Yajing Zhang, Yinghua Chu, Shuo Wang, Chengyan Wang
机构: 复旦大学 南京理工大学 上海交通大学医学院 哈佛医学院 Institute of Science
摘要: 分割基础模型,例如 Segment Anything Model (SAM),在医学图像社区引起了越来越多的关注。早期的开拓性研究主要集中在评估和改进 SAM 的整体准确性和效率,但很少关注公平性考虑。这种疏忽引发了关于潜在性能偏见的问题,这些偏见可能与 nnU-Net 等特定任务的深度学习模型中发现的类似。在本文中,我们探讨了关于大型分割基础模型的公平困境。我们预先策划了一个包括肝脏、肾脏、脾脏、肺部和主动脉等器官的 3D MRI 和 CT 扫描的基准数据集,共包括 1056 名健康受试者的专家分割。关键是,我们记录了每个受试者的性别、年龄和身体质量指数(BMI)等人口统计学细节,以促进细致的公平性分析。我们测试了用于医学图像分割的最先进的基础模型,包括原始 SAM、医学 SAM 和 SAT 模型,以评估不同人口统计学群体之间的分割效果,并确定差异。我们的综合分析,考虑了各种混杂因素,揭示了这些基础模型中的显著公平性问题。此外,我们的研究结果不仅突出了整体分割指标(如 Dice 相似性系数)的差异,还显示了分割错误的空间分布存在显著变化,为确保医学图像分割的公平性提供了经验证据。
论文链接: https://arxiv.org/pdf/2406.12646
cs.AI: 对大语言模型在医学领域的对抗攻击
原标题: Adversarial Attacks on Large Language Models in Medicine
作者: Yifan Yang, Qiao Jin, Furong Huang, Zhiyong Lu
机构: 美国国立卫生研究院 (NIH) 马里兰大学学院园 (University of Maryland at College Park)
摘要: 将大型语言模型(LLMs)集成到医疗应用中,为医学诊断、治疗建议和患者护理提供了有希望的进展。然而,LLMs对敌对攻击的敏感性构成了重大威胁,可能导致在敏感的医疗环境中产生有害结果。本研究调查了LLMs在三项医疗任务中对两种类型敌对攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有LLMs都容易受到多个任务中的操纵。这项研究进一步揭示,领域特定任务在模型微调中需要更多的敌对数据,以便对更强大的模型进行有效的攻击执行,尤其是对于更有能力的模型。我们发现,虽然整合敌对数据并不会显著降低医学基准上的整体模型性能,但它确实会导致微调模型权重的明显变化,这表明了检测和对抗模型攻击的潜在途径。这项研究突出了在医疗应用中迫切需要健壮的安全措施和防御机制的发展,以确保LLMs在医疗环境中的安全和有效部署。
论文链接: https://arxiv.org/pdf/2406.12259
cs.AI: 多臂赌博PAC多类分类的快速速率
原标题: Fast Rates for Bandit PAC Multiclass Classification
作者: Liad Erez, Alon Cohen, Tomer Koren, Yishay Mansour, Shay Moran
机构: 空字符串 Erez∗Alon Cohen∗ Tomer Koren∗ Yishay Mansour∗ Shay Moran†‡
摘要: 我们研究了多类别 PAC 学习与强化学习反馈,其中输入被分类为 K K K 个可能的标签之一,反馈仅限于预测的标签是否正确。我们的主要贡献在于设计了一种新颖的学习算法,用于该问题的零知识 ( ε , δ ) (\varepsilon,\delta) (ε,δ)-PAC 版本,对于任何有限的假设类 H H H,样本复杂度为 O ( ( poly ( K ) + 1 / ε 2 ) log ( ∣ H ∣ / δ ) ) O\big( (\operatorname{poly}(K) + 1 / \varepsilon^2) \log (|H| / \delta) \big) O((poly(K)+1/ε2)log(∣H∣/δ))。就对 ε \varepsilon ε 的主导依赖而言,这改进了现有的问题界限,其形式为 O ( K / ε 2 ) O(K/\varepsilon^2) O(K/ε2)。我们还将此结果扩展到一般类,并建立类似的样本复杂度界限,其中 log ∣ H ∣ \log |H| log∣H∣ 被 Natarajan 维度取代。这与问题的全信息版本中的最佳速率相匹配,并解决了 Daniely、Sabato、Ben-David 和 Shalev-Shwartz (2011) 研究的一个开放问题,他们证明了在可实现的 PAC 学习中,强化学习反馈的乘法价格是 Θ ( K ) \Theta(K) Θ(K)。我们通过揭示与零知识情况形成鲜明对比来补充这一点,其中强化学习反馈的价格仅为 O ( 1 ) O(1) O(1),当 ε → 0 \varepsilon \to 0 ε→0 时。我们的算法利用随机优化技术,通过最小化基于 Frank-Wolfe 更新的对数障碍潜力来计算假设之间的低方差探索分布,并且在提供对 H H H 的 ERM 申请的情况下,计算效率高。
论文链接: https://arxiv.org/pdf/2406.12406
cs.AI: 通过图神经赌博进行影响最大化
原标题: Influence Maximization via Graph Neural Bandits
作者: Yuting Feng, Vincent Y. F. Tan, Bogdan Cautis
机构: 新加坡国立大学 巴黎-萨克雷大学 CNRS LISN
摘要: 我们考虑在影响最大化(IM)研究中一个普遍的场景,即对扩散网络的拓扑结构了解有限。我们将IM问题设置在一个多轮扩散活动中,旨在最大化受影响的不同用户数量。利用赌博算法有效平衡探索和利用的目标能力,以及神经网络的表达能力,我们的研究探讨了神经赌博算法在IM问题中的应用。我们提出了IM-GNB(具有图神经赌博的影响最大化)框架,其中我们提供了受影响用户的概率估计,这些用户受到影响者(也称为扩散种子)的影响。这一初始估计形成了构建利用图和探索图的基础。随后,IM-GNB通过使用图卷积网络(GCN)实时选择种子节点来处理探索-利用权衡,在每个情境设置中使用预估图来改进影响者的预估奖励。通过对两个大型真实世界数据集的大量实验,我们证明了IM-GNB相对于其他基准方法的有效性,在未知的基础网络情况下显著改善了这种扩散活动的传播结果。
论文链接: https://arxiv.org/pdf/2406.12835
cs.AI: CleanGen: 在大语言模型中减轻生成任务的后门攻击
原标题: CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models
作者: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran
机构: 华盛顿大学 西华盛顿大学
摘要: 大语言模型(LLMs)在生成任务中的显著表现使从业者能够利用公开可用的模型来支持定制应用,例如聊天机器人和虚拟助手。然而,用于训练或微调这些LLMs的数据通常是保密的,这使得攻击者可以篡改数据并向模型中注入后门。在本文中,我们开发了一种新颖的推理时间防御,名为CleanGen,用于减轻LLMs中生成任务的后门攻击。CleanGen是一种轻量且有效的解码策略,与最先进的LLMs兼容。我们对CleanGen的见解是,与其他LLMs相比,带有后门的LLMs将显着提高分配给表示攻击者所需内容的标记的概率。这些标记概率上的差异使得CleanGen能够识别攻击者偏爱的可疑标记,并用另一个未受相同攻击者影响的LLM生成的标记替换它们,从而避免生成攻击者所需内容。我们对CleanGen进行了五种最先进的后门攻击的评估。我们的结果表明,与五种最先进的基线防御相比,CleanGen在所有五种后门攻击中实现了更低的攻击成功率(ASR)。此外,部署CleanGen的LLMs在为良性用户查询提供帮助时,保持了响应的及时性,并且增加的计算开销很小。
论文链接: https://arxiv.org/pdf/2406.12257
cs.AI: VIA:全局和局部视频编辑的时空视频适应框架
原标题: VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
作者: Jing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang
机构: 加州大学圣塔克鲁兹分校 Snap研究 KAUST 德克萨斯大学达拉斯分校
摘要: 视频编辑是数字媒体的基石,涵盖了娱乐、教育和专业沟通等多个领域。然而,以往的方法往往忽视了全局和局部上下文的全面理解的必要性,导致在时空维度上对长视频进行编辑时出现不准确和不一致的情况。在本文中,我们介绍了VIA,这是一个统一的时空视频适应框架,用于全局和局部视频编辑,推动了对长达一分钟视频进行一致编辑的极限。首先,为了确保单个帧内的局部一致性,VIA的基础是一种新颖的测试时编辑适应方法,该方法调整了预训练的图像编辑模型,以改善潜在编辑方向和文本指令之间的一致性,并调整了掩码潜变量以实现精确的局部控制。此外,为了在视频序列中保持全局一致性,我们引入了时空适应,该方法调整了关键帧中的一致注意变量,并在整个序列中进行战略性应用,以实现编辑效果。大量实验证明,与基准方法相比,我们的VIA方法产生的编辑更忠实于源视频,在时空上更连贯,并且在局部控制上更精确。更重要的是,我们展示了VIA可以在几分钟内实现一致的长视频编辑,释放了对长视频序列进行高级视频编辑任务的潜力。
论文链接: https://arxiv.org/pdf/2406.12831
cs.AI: GW-MoE: 用全局工作空间理论解决MoE路由器中的不确定性
原标题: GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory
作者: Haoze Wu, Zihan Qiu, Zili Wang, Hang Zhao, Jie Fu
机构: 浙江大学 清华大学 INF科技 香港科技大学
摘要: 混合专家模型(MoE)已被证明是一种有效的方法来扩展模型规模。通过动态和稀疏地选择激活的专家,MoE可以有效地减少计算成本。尽管取得了成功,我们观察到MoE模型中许多标记具有不确定的路由结果。这些标记对于选择每个专家几乎具有相等的分数,我们证明这种不确定性可能导致错误的选择。受全局工作空间理论(GWT)的启发,我们提出了一种新的微调方法,GW-MoE,以解决这个问题。核心思想是在微调过程中将不确定的标记广播到专家之间。因此,这些标记在推理过程中可以从任何专家那里获得必要的知识,并且对选择变得不太敏感。GW-MoE不会引入额外的推理开销。我们验证了GW可以缓解不确定性问题,并在不同任务(文本分类、问答、摘要、代码生成和数学问题求解)和模型规模(650M和8B参数)中持续改进。
论文链接: https://arxiv.org/pdf/2406.12375
cs.AI: ScenEval:用于代码生成场景评估的基准测试
原标题: ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation
作者: Debalina Ghosh Paul, Hong Zhu, Ian Bayley
机构: 牛津布鲁克斯大学 School of Engineering, Computing and Mathematics
摘要: 在基于场景的机器学习模型评估中,一个关键问题是如何构建能够代表各种场景的测试数据集。本文提出的方法是构建一个基准,并为每个测试案例附加元数据。然后可以使用测试态射构建测试系统,根据元数据过滤测试案例以形成数据集。
本文演示了这种方法在大型语言模型用于代码生成的情况下的应用。一个名为ScenEval的基准是从教科书、在线教程网站和Stack Overflow中的问题构建的。演示了按场景进行过滤,并使用测试集来评估ChatGPT对于Java代码生成的性能。
我们的实验发现,ChatGPT的性能随着编码任务的复杂性而下降。在高级主题如多线程、数据结构算法和递归方法方面表现最弱。ChatGPT生成的Java代码在行数上往往比参考解决方案要短得多,但在圈复杂度和认知复杂度指标上更可能更复杂,如果生成的代码是正确的。然而,如果代码不正确,生成的代码往往比参考解决方案更简单。
论文链接: https://arxiv.org/pdf/2406.12635
cs.AI: 通过多视图图对比学习和HSIC瓶颈正则化从组织学中预测的基因表达的空间分辨率
原标题: Spatially Resolved Gene Expression Prediction from Histology via Multi-view Graph Contrastive Learning with HSIC-bottleneck Regularization
作者: Changxi Chi, Hang Shi, Qi Zhu, Daoqiang Zhang, Wei Shao
机构: 南京航空航天大学
摘要: 空间转录组学(ST)的快速发展使得基因表达在空间分辨率上的测量成为可能,从而可以同时描述基因表达、斑点的空间位置以及匹配的组织病理学图像。然而,收集ST数据的成本远高于获取组织病理学图像,因此一些研究尝试通过利用相应的组织病理学图像来预测ST上的基因表达。大多数现有的基于图像的基因预测模型将ST数据中每个斑点的预测任务视为独立的,忽略了斑点之间的空间依赖关系。此外,虽然组织学图像与ST数据共享表型特征,但提取这样的共同信息以帮助对齐配对的图像和表达表示仍然是一个挑战。为了解决上述问题,我们提出了一个名为HSIC-bottleneck正则化的多视图图对比学习框架(ST-GCHB),旨在学习共享表示,以帮助通过考虑它们的空间依赖性来填补查询图像斑点的基因表达。
论文链接: https://arxiv.org/pdf/2406.12229
cs.AI: 无国界新闻:跨语言新闻推荐的多语言句子嵌入领域自适应
原标题: News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation
作者: Andreea Iana, Fabian David Schmidt, Goran Glavaš, Heiko Paulheim
机构: 曼海姆大学 德国 维尔茨堡大学 人工智能与数据科学中心
摘要: 快速增长的多语种新闻消费者数量对新闻推荐系统提出了越来越大的挑战,因为需要提供定制化推荐。首先,即使由多语种语言模型(LMs)驱动,现有的神经新闻推荐系统在零样本跨语言转移(ZS-XLT)方面也存在相当大的性能损失。其次,在少样本推荐和冷启动设置中,对神经推荐系统的骨干LM进行微调的当前范式在计算上是昂贵的,并且在数据稀缺或完全不可用的情况下是不可行的。在这项工作中,我们提出了一种新闻适应的句子编码器(NaSE),它是从预训练的大规模多语种句子编码器(SE)中专门针对领域进行了特化。为此,我们构建并利用了两个多语种新闻特定语料库PolyNews和PolyNewsParallel。通过将新闻适应的多语种SE放置在适当位置,我们测试了新闻推荐的监督微调的有效性,并提出了基于(i)冻结的NaSE嵌入和(ii)延迟点击行为融合的简单而强大的基线。我们展示了NaSE在真正的冷启动和少样本新闻推荐中实现了最先进的ZS-XLT性能。
论文链接: https://arxiv.org/pdf/2406.12634
cs.AI: 基于无人机的智能信息系统对自动驾驶车辆的冬季道路安全进行监测。
原标题: UAV-based Intelligent Information Systems on Winter Road Safety for Autonomous Vehicles
作者: Siva Ariram, Veikko Pekkala, Timo Mäenpää, Antti Tikänmaki, Juha Röning
机构: 奥卢大学 Finland Civil Engineering Faculty of Technology University of Oulu Biomimetics and Intelligent Systems Group Faculty of Information Technology and Electrical Engineering
摘要: 随着自动驾驶车辆继续改变交通运输方式,解决恶劣天气条件带来的挑战,特别是在冬季,对确保安全和高效运营至关重要。在恶劣天气条件下进行道路安全检查的最重要方面之一是,有限的车道宽度可能会降低道路容量,并增加涉及自动驾驶车辆的严重事故风险。在这项研究中,提出了一种改善冬季道路驾驶挑战的方法,该方法利用了从无人机和自动驾驶车辆的视角对道路进行分割和宽度估计的模型。本文提出的方法旨在为自动驾驶汽车提供最新和准确的见解,增强它们在冬季景观中的适应性和决策能力。
论文链接: https://arxiv.org/pdf/2406.12370
cs.AI: 在医学影像中隐私保护的联邦学习与不确定性估计
原标题: Privacy Preserving Federated Learning in Medical Imaging with Uncertainty Estimation
作者: Nikolas Koutsoubis, Yasin Yilmaz, Ravi P. Ramachandran, Matthew Schabath, Ghulam Rasool
机构: 南佛罗里达大学 罗恩大学
摘要: 机器学习(ML)和人工智能(AI)在医疗保健领域取得了显著进展。在医学影像领域,ML模型有望改善疾病诊断、治疗规划和治疗后监测。各种计算机视觉任务,如图像分类、目标检测和图像分割,有望成为临床分析的常规。然而,围绕患者数据的隐私问题阻碍了构建大型训练数据集以开发和训练准确、稳健和可推广模型的进展。联邦学习(FL)成为一个引人注目的解决方案,它通过共享模型训练信息(梯度)而不是数据(例如医学图像),使组织能够共同进行ML模型训练。FL的分布式学习框架促进了机构间的合作,同时保护了患者的隐私。然而,FL在隐私保护方面虽然稳健,但面临着一些挑战。在模型训练过程中,仍然可以从组织之间共享的梯度中获取敏感信息。此外,在医学影像中,由于数据中存在噪音和伪影,准确量化模型的置信度/不确定性至关重要。由于组织之间数据的异质性,FL中的不确定性估计面临着独特的障碍。本文全面审查了FL、隐私保护和不确定性估计,重点关注医学影像。除了对当前研究进行调查外,我们还确定了该领域的差距,并提出了FL研究的未来方向,以增强隐私保护并解决医学影像数据中的噪音挑战。
论文链接: https://arxiv.org/pdf/2406.12815
Github: https://github.com/niko-k98/awesome-list-federated-learning-review
cs.AI: 数据采样的记忆序列长度影响元强化学习智能体的适应性
原标题: Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents
作者: Menglong Zhang, Fuyuan Qian, Quanying Liu
机构: 南方科技大学
摘要: 快速适应新任务对于现实世界中的具身智能体来说非常重要。元强化学习(meta-RL)已经成为一种有效的方法,能够在未知环境中实现快速适应。与基于策略的元-RL算法相比,离线策略算法严重依赖于高效的数据采样策略来提取和表示历史轨迹。然而,我们对不同的数据采样方法如何影响元-RL智能体表示未知环境的能力知之甚少。在这里,我们研究了数据采样策略对元-RL智能体探索和适应能力的影响。具体来说,我们在MuJoCo环境中进行了两种基于离线策略的元-RL算法的实验,这两种算法基于汤普森采样和贝叶斯最优理论,分别用于连续控制任务和稀疏奖励导航任务。我们的分析揭示了长期记忆和短期记忆序列采样策略对元-RL智能体的表示和适应能力产生影响。我们发现,基于贝叶斯最优理论的算法表现出更强大和更好的适应能力,相比之下,基于汤普森采样的算法,突出了适当的数据采样策略对智能体表示未知环境的重要性,特别是在奖励稀疏的情况下。
论文链接: https://arxiv.org/pdf/2406.12359
cs.AI: 在政府组织中实现知识管理的成功导航:一种类型-2模糊方法
原标题: Navigating Knowledge Management Implementation Success in Government Organizations: A type-2 fuzzy approach
作者: Saman Foroutani, Nasim Fahimian, Reyhaneh Jalalinejad, Morteza Hezarkhani, Samaneh Mahmoudi, Behrooz Gharleghi
机构: 伊斯兰阿扎德大学Safashahr分校、汉堡、帕多瓦大学
摘要: 优化信息和知识管理对于组织有效地实现其目标至关重要。作为一种稀缺而宝贵的资源,有效的知识管理提供了战略优势,并已成为组织成功的关键决定因素。该研究旨在确定政府组织实施知识管理系统的关键成功和失败因素。本研究采用描述性调查方法,通过随机访谈和问卷收集数据。研究重点强调了政府组织知识管理系统的关键成功因素,包括合作、开放的氛围、员工培训、创造力和创新、消除组织约束、奖励政策、角色塑造和专注。相反,未考虑正式性、员工参与、协作技术、网络和硬件基础设施、复杂性、IT人员和信任可能对成功实施构成重大障碍。
论文链接: https://arxiv.org/pdf/2406.12345
cs.AI: 组织在组织病理学中的图神经网络:新兴趋势和未来方向
原标题: Graph Neural Networks in Histopathology: Emerging Trends and Future Directions
作者: Siemen Brussee, Giorgio Buzzanca, Anne M.R. Schrader, Jesper Kers
机构: 荷兰莱顿大学医疗中心 阿姆斯特丹大学医疗中心
摘要: 全切片图像(WSIs)的组织病理学分析在深度学习方法的利用方面出现了激增,特别是卷积神经网络(CNNs)。然而,CNNs 在捕捉WSIs中固有的复杂空间依赖关系方面经常表现不佳。图神经网络(GNNs)提供了一种有前途的替代方案,能够直接建模成对交互作用,并有效地识别WSIs中的拓扑组织和细胞结构。鉴于需要利用WSIs的拓扑结构的深度学习技术的迫切需求,GNNs在组织病理学中的应用经历了快速增长。在这篇全面的综述中,我们调查了组织病理学中的GNNs,讨论了它们的应用,并探讨了为未来该领域的进展铺平道路的新兴趋势。我们首先阐明了GNNs的基本原理及其在组织病理学中的潜在应用。借助定量文献分析,我们确定了四个新兴趋势:分层GNNs、自适应图结构学习、多模态GNNs和高阶GNNs。通过深入探讨这些趋势,我们提供了对组织病理学中GNNs不断发展的见解。基于我们的发现,我们提出了推动该领域前进的未来方向。我们的分析旨在引导研究人员和从业者采用创新方法和方法论,促进通过图神经网络推动组织病理学分析的进展。
论文链接: https://arxiv.org/pdf/2406.12808
cs.AI: 通过使用大语言模型智能体进行代码分析来识别软件系统中的性能敏感配置。
原标题: Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents
作者: Zehao Wang, Dong Jae Kim, Tse-Hsun Chen
机构: 蒙特利尔康考迪亚大学
摘要: 配置设置对于调整软件行为以满足特定性能要求至关重要。然而,不正确的配置是普遍存在的,由于可能设置的数量和复杂性巨大,识别影响系统性能的配置是具有挑战性的。在这项工作中,我们提出了PerfSense,这是一个轻量级框架,利用大语言模型(LLMs)来高效地识别具有最小开销的性能敏感配置。PerfSense利用LLM智能体来模拟开发人员和性能工程师之间的交互,使用高级提示技术,如提示链接和检索增强生成(RAG)。我们对七个开源Java系统的评估表明,PerfSense在分类性能敏感配置方面的平均准确率达到了64.77%,优于我们的LLM基线(50.36%)和先前的最先进方法(61.75%)。值得注意的是,我们的提示链接技术提高了召回率10%至30%,同时保持类似的精度水平。此外,对362个错误分类的手动分析揭示了常见问题,包括LLMs对需求的误解(26.8%)。总之,PerfSense显著减少了分类性能敏感配置的手动工作量,并为未来基于LLM的代码分析研究提供了宝贵的见解。
论文链接: https://arxiv.org/pdf/2406.12806
cs.AI: 可解释的大语言模型微调的灾难性遗忘通过指令向量
原标题: Interpretable Catastrophic Forgetting of Large Language Model Fine-tuning via Instruction Vector
作者: Gangwei Jiang, Zhaoyi Li, Caigao Jiang, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Ying Wei
机构: 中国科学技术大学 南洋理工大学 蚂蚁集团 香港城市大学
摘要: 对大语言模型(LLMs)进行微调可能会导致它们失去其通用能力。然而,这种遗忘背后的内在机制仍未被探索。在本文中,我们首先通过关注知识理解和指令遵循来研究这一现象,后者被确定为微调过程中遗忘的主要原因。因此,我们提出了指令向量(IV)框架,以捕获与特定指令遵循能力密切相关的模型表示,从而使理解模型内在遗忘成为可能。通过对训练前后 IV 动态的分析,我们认为微调主要是添加了专门的推理模式,而不是擦除先前的技
论文链接: https://arxiv.org/pdf/2406.12227
cs.AI: 探索预训练代码生成模型的代码理解能力
原标题: Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models
作者: Jiayi Lin, Yutao Xie, Yue Yu, Yibiao Yang, Lei Zhang
机构: 国际数字经济学院 国防科技大学 南京大学
摘要: 最近,通过在大量未标记的编程语言数据上以自监督方式训练的大型代码生成模型取得了显著的成功。虽然这些模型获得了大量的代码知识,但它们在代码理解任务(如代码搜索和克隆检测)上表现不佳,因为它们是专门针对生成而训练的。从头开始在大规模代码数据上预训练更大的仅编码器架构模型可以提高理解性能。然而,这种方法成本高、耗时,因此不够理想。在本文中,我们首次将知识从预训练的代码生成模型转移到代码理解任务中,显著降低了训练成本。我们研究了使仅解码器模型获得稳健代码表示的有效策略。此外,我们引入了CL4D,一种对比学习方法,旨在增强仅解码器模型的表示能力。全面的实验证明,我们的方法在代码搜索和克隆检测等理解任务中实现了最先进的性能。我们的分析表明,我们的方法有效地减少了表示空间中语义相同样本之间的距离。这些发现表明了使用仅解码器结构模型统一代码理解和生成任务的潜力。
论文链接: https://arxiv.org/pdf/2406.12326
cs.AI: 无监督可解释的竞走活动预测从实验数据中
原标题: Unsupervised explainable activity prediction in competitive Nordic Walking from experimental data
作者: Silvia García-Méndez, Francisco de Arriba-Pérez, Francisco J. González-Castaño, Javier Vales-Alonso
机构: IEEE(电气和电子工程师协会)
摘要: 人工智能(AI)已在竞技体育中的人类活动识别(HAR)中找到应用。迄今为止,大多数用于HAR的机器学习(ML)方法都依赖于离线(批处理)训练,与在线处理无监督方法相比,这种方法会带来更高的计算和标记负担。此外,传统ML预测器背后的决策是不透明的,需要人类解释。在这项工作中,我们应用了一种基于低成本可穿戴惯性测量单元(IMUs)的在线处理无监督聚类方法。系统生成的结果允许在这些聚类中自动扩展有限的标记(例如,由裁判员提供),为可解释分类阶段提供相关信息。具体来说,我们的工作侧重于实现与运动员活动相关的预测的自动可解释性,区分北欧健走中的正确、不正确和作弊行为。所提出的解决方案在平均性能指标上达到了接近100%的水平。
论文链接: https://arxiv.org/pdf/2406.12762
cs.AI: UIFV:垂直联邦学习中的数据重构攻击
原标题: UIFV: Data Reconstruction Attack in Vertical Federated Learning
作者: Jirui Yang, Peng Chen, Zhihui Lu, Qiang Duan, Yubing Bao
机构: 复旦大学 上海区 信息科学技术学院 金融技术研究所
宾夕法尼亚州立大学
摘要: 垂直联邦学习(VFL)促进了协作机器学习,无需参与者共享原始私人数据。然而,最近的研究揭示了隐私风险,即在学习过程中对手可能通过数据泄露重构敏感特征。虽然基于梯度或模型信息的数据重构方法在某种程度上是有效的,但它们在VFL应用场景中存在局限性。这是因为这些传统方法在很大程度上依赖于特定的模型结构和/或在应用场景上有严格的限制。为了解决这个问题,我们的研究将统一逆向网络框架引入到VFL中,这产生了一种新颖灵活的方法(称为UIFV),它利用中间特征数据重构原始数据,而不是依赖于梯度或模型细节。中间特征数据是在VFL推断阶段由不同参与者交换的特征。对四个数据集的实验表明,我们的方法在攻击精度方面明显优于最先进的技术。我们的工作揭示了VFL系统内严重的隐私漏洞,对实际VFL应用构成了真正的威胁,从而确认了在VFL架构中进一步增强隐私保护的必要性。
论文链接: https://arxiv.org/pdf/2406.12588
cs.AI: InterIntent: 通过在互动游戏环境中理解意图来调查大语言模型的社交智能
原标题: InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context
作者: Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao
机构: 南加州大学
摘要: 大语言模型(LLMs)已经展示了模仿人类社交智能的潜力。然而,大多数研究集中在简单和静态的自我报告或基于表现的测试上,这限制了分析的深度和有效性。在本文中,我们开发了一个新颖的框架InterIntent,通过在游戏设置中映射它们理解和管理意图的能力,来评估LLMs的社交智能。我们关注社交智能的四个维度:情境意识、自我调节、自我意识和心灵理论。每个维度都与特定的游戏任务相关联:意图选择、意图跟随、意图总结和意图猜测。我们的研究结果表明,虽然LLMs在选择意图方面表现出了很高的熟练度,准确率达到了88%,但它们推断他人意图的能力明显较弱,比人类表现低20%。此外,游戏表现与意图理解相关,突显了这四个组成部分对游戏成功的重要性。这些发现强调了意图理解在评估LLMs的社交智能中的关键作用,并突显了使用社交推理游戏作为增强LLMs评估的复杂试验平台的潜力。InterIntent提供了一个结构化方法,弥合了多人游戏中社交智能评估的差距。
论文链接: https://arxiv.org/pdf/2406.12203
cs.AI: 利用模态和实例感知视觉提示学习增强可见-红外人员再识别
原标题: Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning
作者: Ruiqi Wu, Bingliang Jiao, Wenxuan Wang, Meng Liu, Peng Wang
机构: 西北工业大学 宁波理工学院 国家航天航空大数据应用技术集成实验室 西北工业大学荣誉学院 西北工业大学电子与信息学院
摘要: 可见-红外人员再识别(VI ReID)旨在在非重叠的摄像头视图之间匹配相同行人的可见和红外图像。这两种输入模态包含不变信息(如形状)和模态特定细节(如颜色)。理想的模型应该在训练过程中利用来自两种模态的宝贵信息,以增强表征能力。然而,由模态特定信息引起的差距给 VI ReID 模型同时处理不同模态输入带来了重大挑战。为了解决这个问题,我们在我们的工作中引入了适用于模态和实例的视觉提示(MIP)网络,旨在有效利用不变和特定信息进行识别。具体来说,我们的 MIP 模型是建立在 Transformer 架构上的。在这个模型中,我们设计了一系列模态特定提示,这些提示可以使我们的模型适应并利用不同模态输入中固有的特定信息,从而减少模态差距造成的干扰,并实现更好的识别。此外,我们还利用每个行人特征构建一组实例特定提示。这些定制的提示负责引导我们的模型动态地适应每个行人实例,从而捕获身份级别的判别线索以进行识别。通过对 SYSU-MM01 和 RegDB 数据集的大量实验,评估了我们设计的模块的有效性。此外,我们提出的 MIP 的性能优于大多数最先进的方法。
论文链接: https://arxiv.org/pdf/2406.12316
cs.AI: 穿越迷宫:评估和增强大语言模型对搜索问题推理能力的能力
原标题: Navigating the Labyrinth: Evaluating and Enhancing LLMs’ Ability to Reason About Search Problems
作者: Nasim Borazjanizadeh, Roei Herzig, Trevor Darrell, Rogerio Feris, Leonid Karlinsky
机构: 加州大学伯克利分校 MIT-IBM沃森人工智能实验室
摘要: 最近,大语言模型(LLMs)在数学和推理基准测试中取得了令人印象深刻的表现。然而,它们在逻辑问题和对人类来说相对容易的谜题上仍然经常遇到困难。为了进一步调查这一问题,我们引入了一个新的基准测试,名为SearchBench,其中包含11种独特的搜索问题类型,每种类型都配备了自动化流水线,用于生成任意数量的实例,并分析LLM生成的解决方案的可行性、正确性和最优性。我们发现,即使是最先进的LLMs也无法完全以文本形式解决这些问题,例如,GPT4只能解决1.4%的问题。SearchBench问题需要考虑到解决方案的多条路径以及回溯,这对自回归模型构成了重大挑战。指导LLMs生成解决问题的代码有所帮助,但仅有轻微改善,例如,GPT4的性能提高到11.7%。在这项工作中,我们展示了通过A*算法实现的上下文学习如何提高性能。这种推广方法的全部潜力在与我们提出的多阶段多尝试方法相结合时得以显现,该方法将算法实现分解为两个阶段,并对第一阶段进行单元测试验证,将GPT-4的性能提升至57%以上。
论文链接: https://arxiv.org/pdf/2406.12172
cs.AI: 通过MPI并行化系统上的矩阵计算实现忠实的密度峰聚类
原标题: Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System
作者: Ji Xu, Tianlong Xiao, Jinye Yang, Panpan Zhu
机构: 贵州大学 State Key Laboratory of Public Big Data
摘要: 密度峰聚类(DP)具有检测任意形状的簇和对非欧几里得空间数据进行聚类的能力,但其在计算和存储方面的二次复杂度使其难以扩展到大数据。在这方面已经提出了各种方法,包括基于MapReduce的分布式计算,多核并行性,表示转换(例如kd树,Z值),粒度计算等。然而,大多数现有方法都面临两个限制。一个是它们的目标数据集大多受限于欧几里得空间,另一个是它们只强调局部邻居,而在计算密度时由于限制切割核心而忽略全局数据分布。为了解决这两个问题,我们提出了一种忠实且并行的DP方法,该方法利用了两种类型的类似向量的距离矩阵和一个反向主节点查找策略。该方法在消息传递接口(MPI)系统上实现。大量实验证明,我们的方法能够对非欧几里得数据进行聚类,例如在社区检测中,同时在对大型欧几里得数据进行聚类时,优于现有的方法。我们的代码可以在以下网址公开获取:https://github.com/our_method。
论文链接: https://arxiv.org/pdf/2406.12297
Github: https://github.com/alanxuji/FaithPDP
cs.AI: 讨论图语义的一阶逻辑与相等性,用于讨论和论证推理。
原标题: Discussion Graph Semantics of First-Order Logic with Equality for Reasoning about Discussion and Argumentation
作者: Ryuta Arisaka
摘要: 我们制定了一阶逻辑与相等性的讨论图语义,以便像我们推理句子一样自然地推理讨论和论证。虽然已经有一些现有的提议使用形式逻辑来推理论证,但它们是自下而上构建的,并且专门针对Dung的论证模型。事实上,目前缺乏处理一般讨论和论证模型的形式推理框架。我们通过自上而下制定一阶逻辑(带相等性)公式的语义来实现这种普遍性,解决了目前的短缺。
论文链接: https://arxiv.org/pdf/2406.12163
cs.AI: 贝叶斯数据选择
原标题: Bayesian Data Selection
作者: Julian Rodemann
机构: LMU Munich
摘要: 一系列的机器学习算法会迭代地向训练样本中添加数据。例如,半监督学习、主动学习、多臂老虎机和贝叶斯优化。我们将这种数据添加方式嵌入到决策理论中,将数据选择视为决策问题。这为找到贝叶斯最优的数据选择铺平了道路。以半监督学习中的自训练为例,我们推导出了相应的贝叶斯准则。我们进一步展示,通过在模拟和真实世界数据上对广义线性模型、半参数广义加性模型和贝叶斯神经网络进行实证评估,部署该准则可以缓解确认偏见的问题。
论文链接: https://arxiv.org/pdf/2406.12560
cs.AI: 生成人工智能引导的用户研究:空中出租车服务的应用
原标题: Generative Artificial Intelligence-Guided User Studies: An Application for Air Taxi Services
作者: Shengdi Xiao, Jingjing Li, Tatsuki Fushimi, Yoichi Ochiai
机构: 筑波大学 综合人类研究科 、筑波大学 图书馆、信息与媒体科学研究所 、筑波大学 数字自然研究中心
摘要: 用户研究对满足用户需求至关重要。在用户研究中,会构建和招募真实的实验场景和参与者。然而,新兴和不熟悉的研究面临诸多限制,包括安全顾虑和迭代效率。为了解决这些挑战,本研究利用大语言模型(LLM)创建生成式人工智能虚拟场景,以进行用户体验评估。通过招募真实用户来评估这一体验,我们可以收集反馈,从而在早期设计阶段实现快速迭代。空中出租车特别代表了这些挑战,并被选为本研究的案例研究对象。主要贡献在于利用OpenAI的GPT-4模型和人工智能图像和视频生成器设计了虚拟ATJ。基于LLM生成的脚本,为空中出租车创建了关键视觉,并由72名参与者对ATJ进行了评估。此外,LLM展示了识别和建议显著改善参与者对空中出租车态度的环境的能力。教育水平和性别显著影响了参与者的态度和对ATJ的满意度。我们的研究证实了生成式人工智能支持用户研究的能力,为在早期设计阶段设计空中出租车用户体验提供了可行的方法和宝贵的见解。
论文链接: https://arxiv.org/pdf/2406.12296
cs.AI: TSI-Bench:时间序列插补基准测试
原标题: TSI-Bench: Benchmarking Time Series Imputation
作者: Wenjie Du, Jun Wang, Linglong Qian, Yiyuan Yang, Fanxing Liu, Zepu Wang, Zina Ibrahim, Haoxin Liu, Zhiyuan Zhao, Yingjie Zhou, Wenjia Wang, Kaize Ding, Yuxuan Liang, B. Aditya Prakash, Qingsong Wen
机构: PyPOTS Research
摘要: 有效的插补是时间序列分析的关键预处理步骤。尽管已经开发了许多深度学习算法用于时间序列插补,但社区缺乏标准化和全面的基准平台,以有效评估在不同设置下的插补性能。此外,尽管许多深度学习预测算法已经表现出色,但它们的建模成就是否可以转移到时间序列插补任务尚未被探索。为了弥补这些差距,我们开发了 TSI-Bench,这是我们所知道的第一个利用深度学习技术进行时间序列插补的全面基准套件。TSI-Bench管道标准化了实验设置,以便公平评估插补算法,并识别领域适当的缺失比例和模式对模型性能的影响的有意义见解。此外,TSI-Bench创新地提供了一种系统范式,以定制时间序列预测算法用于插补目的。我们在34,804个实验、28种算法和8个具有不同缺失情景的数据集上进行了广泛研究,证明了TSI-Bench在多样的下游任务中的有效性,并有潜力解锁时间序列插补研究和分析的未来方向。源代码和实验日志可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2406.12747
Github: https://github.com/WenjieDu/AwesomeImputation
cs.AI: 利用具有神经网络控制器的部门有界非线性确保积极性和稳定性
原标题: Ensuring Both Positivity and Stability Using Sector-Bounded Nonlinearity for Systems with Neural Network Controllers
作者: Hamidreza Montazeri Hedesh, Milad Siami
摘要: 本文介绍了一种新颖的方法,用于稳定性分析具有一类全连接前馈神经网络(FFNN)控制器的正反馈系统。通过为没有偏差的全连接FFNN建立区间界限,我们提出了一个稳定性定理,证明了在全连接FFNN控制下线性系统的全局指数稳定性。利用正Lur’e系统和正Aizerman猜想的原理,我们的方法有效地解决了在高度非线性系统中确保稳定性的挑战。我们方法的关键在于保持区间界限,以保持整个Lur’e系统的正性和Hurst特性。我们通过在由FFNN训练的输出反馈控制器数据管理的线性系统中实施我们的方法,展示了我们方法的实际适用性,突出了其增强动态系统稳定性的潜力。
论文链接: https://arxiv.org/pdf/2406.12744
cs.AI: 使用基于模型的反向增强进行离线模仿学习
原标题: Offline Imitation Learning with Model-based Reverse Augmentation
作者: Jie-Jing Shao, Hao-Sen Shi, Lan-Zhe Guo, Yu-Feng Li
机构: 南京大学 School of Intelligence Science and Technology
摘要: 在离线模仿学习(IL)中,主要挑战之一是专家观察和智能体实际遇到的分布之间的\textit{协变量转移},因为很难确定智能体在专家演示的状态分布之外应该采取什么行动。最近,无模型解决方案引入了补充数据,并识别潜在的类似专家的样本,以增加学习过程中可靠样本的数量。基于模型的解决方案构建具有保守量化的前向动态模型,然后在专家演示的附近生成额外的轨迹。然而,在没有奖励监督的情况下,这些方法在超出专家支持区域时往往过于保守,因为只有在接近专家观察到的状态时才能有一个能够启用策略优化的首选行动。为了鼓励在专家未观察到的状态上进行更多探索,我们提出了一种新颖的基于模型的框架,称为自主递进增强的离线模仿学习(SRA)。具体而言,我们从离线演示中构建了一个逆动态模型,它可以以自主的方式有效地生成通往专家观察到的状态的轨迹。然后,我们使用后续的强化学习方法从增强的轨迹中学习,并从专家未观察到的状态过渡到专家观察到的状态。这个框架不仅探索了专家未观察到的状态,还指导在这些状态上最大化长期回报,最终实现了超越专家数据的泛化。实证结果表明,我们的提议可以有效地缓解协变量转移,并在离线模仿学习基准测试中实现了最先进的性能。项目网站:\url{this https URL}。
论文链接: https://arxiv.org/pdf/2406.12550
其他链接: https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/
cs.AI: JEN-1 DreamStyler: 通过关键参数调整实现定制音乐概念学习
原标题: JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
作者: Boyu Chen, Peike Li, Yao Yao, Alex Wang
机构: Futureverse AI Innovation
摘要: 大型文本到音乐生成模型已经取得了显著进展,促进了从提供的文本提示中生成高质量和多样化的音乐作品。然而,输入文本提示可能无法准确捕捉用户需求,特别是当目标是生成体现自指定参考集合中的特定概念的音乐时。在本文中,我们提出了一种新颖的定制文本到音乐生成方法,该方法可以从两分钟的参考音乐中捕捉概念并生成符合概念的新音乐作品。我们通过使用参考音乐对预训练的文本到音乐模型进行微调来实现这一点。然而,直接微调所有参数会导致过拟合问题。为了解决这个问题,我们提出了一种关键参数调整方法,使模型能够吸收新概念同时保留其原始的生成能力。此外,当向预训练模型引入多个概念时,我们发现潜在的概念冲突。我们提出了一个概念增强策略来区分多个概念,使经过微调的模型能够同时生成包含单个或多个概念的音乐。由于我们是第一个研究定制音乐生成任务的团队,我们还为这一新任务引入了新的数据集和评估协议。我们提出的Jen1-DreamStyler在定性和定量评估中均优于几个基准模型。演示将在此 https URL 上提供。
论文链接: https://arxiv.org/pdf/2406.12292
其他链接: https://www.jenmusic.ai/research#DreamStyler
cs.AI: DASSF:用于航空目标检测的动态注意力尺度序列融合
原标题: DASSF: Dynamic-Attention Scale-Sequence Fusion for Aerial Object Detection
作者: Haodong Li, Haicheng Qu
机构: 辽宁工程技术大学 School of Software
摘要: 在航空图像中检测小物体是计算机视觉领域的基本任务。航空摄影中的移动物体存在诸如不同形状和大小、密集重叠、被背景遮挡和物体模糊等问题,然而,原始的 YOLO 算法由于对不同尺度目标的感知能力较弱,导致整体检测精度较低。为了提高密集重叠小目标和模糊目标的检测精度,本文提出了一种适用于航空图像中小目标检测的动态注意力尺度序列融合算法(DASSF)。首先,我们提出了一个动态尺度序列特征融合(DSSFF)模块,改进了上采样机制并减少了计算负载。其次,特别添加了一个用于增强小目标检测能力的 x-small 目标检测头。最后,为了提高不同类型和大小目标的表达能力,我们使用了动态头(DyHead)。我们提出的模型解决了航空图像中小目标检测的问题,并可应用于多个不同版本的 YOLO 算法,具有通用性。实验结果表明,当将 DASSF 方法应用于 YOLOv8 时,与 YOLOv8n 相比,在 VisDrone-2019 和 DIOR 数据集上,模型的平均精度(mAP)分别提高了 9.2% 和 2.4%,并且优于当前主流方法。
论文链接: https://arxiv.org/pdf/2406.12285
cs.AI: 揭秘时序差分学习中的最新启发式
原标题: Demystifying the Recency Heuristic in Temporal-Difference Learning
作者: Brett Daley, Marlos C. Machado, Martha White
机构: 阿尔伯塔大学 加拿大CIFAR AI主席
摘要: 强化学习中的最新启发式是一种假设,即发生在获得奖励的时间更近的刺激应该得到更重的强化。最新启发式是 TD( λ \lambda λ) 所做的关键假设之一,它根据指数衰减的权重加强最近的经验。事实上,所有其他广泛使用的 TD 学习的回报估计器,如 n n n 步回报,满足一个较弱(即非单调)的最新启发式。为什么最新启发式对时间信用分配有效?当信用分配方式违反这一启发式时会发生什么?在本文中,我们分析了在 TD 学习中采用最新启发式的具体数学含义。我们证明了满足这一启发式的任何回报估计器:1)保证收敛到正确的值函数,2)具有相对较快的收缩速率,3)具有长的有效信用分配窗口,但有界的最坏情况方差。我们还给出了一个反例,证明了违反最新启发式的基于策略的表格 TD 方法会发散。我们的结果提供了一些首次的理论证据,即基于最新启发式的信用分配有助于学习。
论文链接: https://arxiv.org/pdf/2406.12284
Github: https://github.com/brett-daley/recency-heuristic
cs.AI: 异质雪花假设:训练和赋能 GNNs 以处理异质图
原标题: The Heterophilic Snowflake Hypothesis: Training and Empowering GNNs for Heterophilic Graphs
作者: Kun Wang, Guibin Zhang, Xinnan Zhang, Junfeng Fang, Xun Wu, Guohao Li, Shirui Pan, Wei Huang, Yuxuan Liang
机构: 中国科学技术大学 同济大学 明尼苏达大学 双子城分校 牛津大学 港科大 澳大利亚格里菲斯大学 理化学研究所
摘要: 图神经网络(GNNs)已成为一系列基于图的学习任务的关键工具。值得注意的是,大多数当前的GNN架构都是在同质性的假设下运行的,无论是明确还是隐含地。虽然这一基本假设经常被采纳,但并非普遍适用,这可能导致学习效果的潜在缺陷。在本文中,\textbf{首次}我们将“一个节点一个感受域”的普遍概念转移到异质图上。通过构建一个代理标签预测器,我们使每个节点能够拥有潜在的预测分布,这有助于连接的节点确定它们是否应该聚合它们的相关邻居。最终,每个节点都可以拥有自己独特的聚合跳数和模式,就像每片雪花都是独一无二的,拥有自己的特点一样。基于观察,我们创新地引入了异质雪花假设,并提供了一个有效的解决方案,以指导和促进对异质图及其更多领域的研究。我们进行了包括以下内容的全面实验:(1)在10个具有不同同质性比例的图上的主要结果;(2)在各种深度GNN骨干(SGC、JKNet等)上的可扩展性,跨越各种大层数(2、4、6、8、16、32层);(3)与传统雪花假设的比较;(4)与现有图剪枝算法的效率比较。我们的观察表明,我们的框架作为一种多功能运算符,适用于各种任务。它可以集成到各种GNN框架中,提升深度性能,并提供一种可解释的方法来选择最佳的网络深度。源代码可在\url{this https URL}获取。
论文链接: https://arxiv.org/pdf/2406.12539
Github: https://github.com/bingreeky/HeteroSnoH
cs.AI: 运算学习和通用逼近的投影方法
原标题: Projection Methods for Operator Learning and Universal Approximation
作者: Emanuele Zappala
摘要: 我们利用Leray-Schauder映射在任意Banach空间上获得了连续算子的新的通用逼近定理。此外,我们介绍并研究了一种在具有多个变量的函数的Banach空间 L p L^p Lp上进行算子学习的方法,该方法基于多项式基的正交投影。我们推导了一个算子的通用逼近结果,其中我们在一些额外假设下学习了线性投影和有限维映射。对于 p = 2 p=2 p=2的情况,我们给出了逼近结果成立的一些充分条件。本文为深度学习方法论提供了理论框架,其实现将在随后的工作中提供。
论文链接: https://arxiv.org/pdf/2406.12264
cs.AI: 超越视觉外观:通过混合图推理进行隐私敏感对象识别
原标题: Beyond Visual Appearances: Privacy-sensitive Objects Identification via Hybrid Graph Reasoning
作者: Zhuohang Jiang, Bingkui Tong, Xia Du, Ahmed Alhammadi, Jizhe Zhou
机构: 四川大学 西安科技大学 阿布扎比莫哈迪大学 中国教育部机器学习与产业智能工程研究中心
摘要: 隐私敏感对象识别(POI)任务是为场景中的隐私敏感对象分配边界框。POI的关键在于确定对象的隐私类别(隐私敏感或非隐私敏感)。与传统的对象类别是由对象的视觉外观决定不同,一个对象的隐私类别是由场景背景推导出来的,并受到其视觉外观之外的各种隐含因素的影响。也就是说,在视觉上相似的对象在其隐私类别上可能完全相反。为了明确地从场景背景中推导出对象的隐私类别,在本文中,我们将POI任务解释为旨在保护场景中每个对象隐私的视觉推理任务。基于这一解释,我们提出了用于POI的PrivacyGuard框架。PrivacyGuard包含三个阶段。i)结构化:将非结构化图像首先转换为结构化的异构场景图,嵌入丰富的场景背景。ii)数据增强:提出了一种上下文扰动过采样策略,用于在场景图中创建略微扰动的隐私敏感对象,从而平衡隐私类别的倾斜分布。iii)混合图生成与推理:然后,通过赋予额外的“节点-节点”和“边-边”同质路径,将平衡的异构场景图转换为混合图。这些同质路径允许节点或边之间进行直接消息传递,从而加速推理并促进捕捉微妙的上下文变化。基于这种混合图… 有关完整摘要,请参阅原始论文。
论文链接: https://arxiv.org/pdf/2406.12736
cs.AI: 将扩散策略变分蒸馏为专家混合模型
原标题: Variational Distillation of Diffusion Policies into Mixture of Experts
作者: Hongyi Zhou, Denis Blessing, Ge Li, Onur Celik, Xiaogang Jia, Gerhard Neumann, Rudolf Lioutikov
机构: 卡尔斯鲁厄理工学院 德国
摘要: 这项工作介绍了变分扩散蒸馏(VDD),这是一种通过变分推断将去噪扩散策略蒸馏成专家混合模型(MoE)的新方法。扩散模型是当前生成建模的最新技术,因为其出色的学习和表示复杂、多模态分布的能力。这种能力使得扩散模型能够复制人类行为中固有的多样性,使其成为行为学习(如从人类示范中学习)中首选的模型。然而,扩散模型也存在一些缺点,包括似然性的难以计算和由于其迭代采样过程而导致的长推断时间。特别是推断时间对于机器人控制等实时应用构成了重大挑战。相比之下,MoE能够有效解决上述问题,同时保留了表示复杂分布的能力,但训练起来非常困难。VDD是第一种将预训练的扩散模型蒸馏成MoE模型的方法,因此结合了扩散模型的表达能力和混合模型的优势。具体来说,VDD利用变分目标的分解上界,允许分别训练每个专家,从而为MoE提供了稳健的优化方案。VDD在九个复杂的行为学习任务中展示了其能力:i)准确蒸馏扩散模型学习的复杂分布,ii)优于现有的最新蒸馏方法,iii)超越传统的MoE训练方法。
论文链接: https://arxiv.org/pdf/2406.12538
cs.AI: 利用可学习的数据增强进行自监督时间序列异常检测
原标题: Self-Supervised Time-Series Anomaly Detection Using Learnable Data Augmentation
作者: Kukjin Choi, Jihun Yi, Jisoo Mok, Sungroh Yoon
摘要: 不断努力推动各种制造过程中的异常检测,以提高工业场所的生产率和安全性。深度学习取代了基于规则的方法,并最近成为各种行业异常检测的一种有前途的方法。然而,在现实世界中,异常数据的稀缺性和获取标记数据的困难限制了检测模型的训练。在这项研究中,我们通过提出一种基于可学习数据增强的时间序列异常检测(LATAD)技术来解决这些缺点,该技术以自监督方式进行训练。LATAD通过对比学习从时间序列数据中提取有区别的特征。与此同时,可学习数据增强产生具有挑战性的负样本,以增强学习效率。我们根据潜在特征相似性测量了所提技术的异常分数。根据结果,LATAD在几个基准数据集上展现出与最先进的异常检测评估相当或更好的性能,并提供了一种基于梯度的诊断技术,帮助识别根本原因。
论文链接: https://arxiv.org/pdf/2406.12260
cs.AI: LLM4MSR: 一种基于大语言模型增强的多场景推荐范式
原标题: LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation
作者: Yuhao Wang, Yichao Wang, Zichuan Fu, Xiangyang Li, Xiangyu Zhao, Huifeng Guo, Ruiming Tang
机构: 香港城市大学 华为诺亚方舟实验室
摘要: 随着对更个性化推荐的需求增长和商业场景的急剧蓬勃发展,对多场景推荐(MSR)的研究引起了广泛关注,该研究利用所有场景的数据同时提高推荐性能。然而,现有方法往往整合了不足的场景知识,忽视了学习个性化跨场景偏好,从而导致性能不佳和解释能力不足。同时,尽管大语言模型(LLM)表现出很强的推理和语义信息捕捉能力,但调参的高推理延迟和高计算成本阻碍了其在工业推荐系统中的实施。为填补这些空白,我们在这项工作中提出了一种有效的高效可解释的LLM增强范式LLM4MSR。具体而言,我们首先利用LLM从设计的场景和用户级提示中揭示多层知识,包括场景相关性和用户的跨场景兴趣,而无需对LLM进行微调,然后采用分层元网络生成多层元层,明确提高了场景感知和个性化推荐能力。我们在KuaiSAR-small、KuaiSAR和亚马逊数据集上的实验验证了LLM4MSR的两个显著优势:(i)与不同多场景骨干模型的有效性和兼容性(在三个数据集上分别实现了1.5%、1%和40%的AUC改进),(ii)在工业推荐系统上的高效性和可部署性,以及(iii)改进的可解释性。实现的代码和数据可供复制。
论文链接: https://arxiv.org/pdf/2406.12529
cs.AI: CherryRec: 通过大语言模型驱动框架提高新闻推荐质量
原标题: CherryRec: Enhancing News Recommendation Quality via LLM-driven Framework
作者: Shaohuang Wang, Lun Wang, Yunhan Bu, Tianwei Huang
机构: 新疆大学
摘要: 大语言模型(LLMs)在语言理解和生成方面取得了显著进展。利用文本特征的定制LLMs已被应用于推荐系统,展示了在各种推荐场景中的改进。然而,大多数现有方法执行基于预训练知识(例如电影推荐)的未经训练的推荐,并且LLMs的自回归生成导致推理速度缓慢,使它们在实时中不够有效。为了解决这一问题,我们提出了一个使用LLMs进行新闻推荐的框架,名为\textit{CherryRec},它确保了推荐的质量同时加速了推荐过程。具体来说,我们采用了一个基于用户交互历史的知识感知新闻快速选择器来检索候选选项。然后,将历史和检索到的项目作为文本输入到一个经过精细调整的LLM,即内容感知新闻LLM评估器,旨在增强新闻推荐能力。最后,价值感知新闻评分器整合分数来计算CherryRec评分,这作为最终推荐的依据。我们通过将其与基准数据集上的最先进基线方法进行比较,验证了所提出框架的有效性。我们的实验结果一致表明,CherryRec在推荐性能和效率方面优于基线。项目资源可在以下网址访问:\url{this https URL}
论文链接: https://arxiv.org/pdf/2406.12243
其他链接: http://recommendations.To
cs.AI: GMP-AR:用于时间层次预测的粒度消息传递和自适应对账
原标题: GMP-AR: Granularity Message Passing and Adaptive Reconciliation for Temporal Hierarchy Forecasting
作者: Fan Zhou, Chen Pan, Lintao Ma, Yu Liu, James Zhang, Jun Zhou, Hongyuan Mei, Weitao Lin, Zi Zhuang, Wenxin Ning, Yunhua Hu, Siqiao Xue
机构: 蚂蚁集团 芝加哥信息技术中心
摘要: 时间序列预测在不同时间粒度上被广泛应用于现实世界的场景,例如,销售预测以天和周为单位,用于制定不同的库存计划。然而,这些任务通常是分开解决的,而没有确保一致性,这对于调整下游决策至关重要。先前的研究主要集中在确保一致性上,采用一些直接的方法,例如,从细粒度预测聚合到粗粒度预测,以及从粗粒度分配到细粒度。这些方法仅仅利用时间层次结构来保持一致性,而没有提高预测准确性。在本文中,我们提出了一种新颖的粒度消息传递机制(GMP),利用时间层次信息来提高预测性能,并利用自适应协调(AR)策略来保持一致性而不损失性能。此外,我们引入了一个优化模块,以实现基于任务的目标,同时遵守更多的现实约束。对真实世界数据集的实验表明,我们的框架(GMP-AR)在时间层次预测任务上相对于最先进的方法取得了更优越的性能。此外,我们的框架已成功应用于支付宝的实际任务中,通过与基于任务的优化模块的集成,实现了支付流量管理。
论文链接: https://arxiv.org/pdf/2406.12242
cs.AI: 通过近似抽样实现强化学习更高效的随机探索
原标题: More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling
作者: Haque Ishfaq, Yixin Tan, Yu Yang, Qingfeng Lan, Jianfeng Lu, A. Rupam Mahmood, Doina Precup, Pan Xu
机构: 麦吉尔大学 McGill University 杜克大学 Duke University 阿尔伯塔大学 University of Alberta AMII (阿尔伯塔机器智能研究所)
摘要: Thompson sampling(TS)是强化学习(RL)中最受欢迎的探索技术之一。然而,大多数具有理论保证的TS算法很难实现,并且不适用于深度强化学习。尽管新兴的基于近似抽样的探索方案很有前景,但大多数现有算法都专门针对线性马尔可夫决策过程(MDP),并且具有次优的遗憾界限,或者仅使用最基本的抽样器,如Langevin Monte Carlo。在这项工作中,我们提出了一个算法框架,将不同的近似抽样方法与最近提出的Feel-Good Thompson Sampling(FGTS)方法(Zhang, 2022; Dann et al., 2021)相结合,该方法以前被认为在一般情况下计算复杂。当应用于线性MDP时,我们的遗憾分析得出了遗憾与维度之间的最佳已知依赖关系,超过了现有的随机化算法。此外,我们为每个采样器提供了明确的采样复杂度。从经验上看,我们表明,在需要深度探索的任务中,我们提出的结合FGTS和近似抽样的算法与其他强基线相比表现显著更好。在Atari 57套件中的几个具有挑战性的游戏中,我们的算法的性能要么优于其他深度RL文献中的强基线,要么与其相当。
论文链接: https://arxiv.org/pdf/2406.12241
Github: https://github.com/panxulab/lsvi-ase
cs.AI: BadSampler: 利用灾难性遗忘的力量来污染拜占庭鲁棒的联邦学习
原标题: BadSampler: Harnessing the Power of Catastrophic Forgetting to Poison Byzantine-robust Federated Learning
作者: Yi Liu, Cong Wang, Xingliang Yuan
机构: 香港城市大学 澳大利亚墨尔本大学
摘要: 联邦学习(FL)容易受到毒化攻击的影响,其中受损的客户通过修改本地数据集或发送操纵的模型更新来操纵全局模型。有经验的防御者可以通过拜占庭鲁棒的聚合规则轻松检测和减轻恶意行为的毒化效应。然而,在不存在这种行为的情况下探索毒化攻击在拜占庭鲁棒的FL中仍然是一个未被充分探讨的问题。本文通过引入灾难性遗忘来解决毒化拜占庭鲁棒FL的挑战性问题。为了填补这一空白,我们首先正式定义泛化误差,并建立其与灾难性遗忘的联系,为开发一种名为BadSampler的干净标签数据毒化攻击铺平道路。该攻击仅利用干净标签数据(即没有被毒害的数据)来毒化拜占庭鲁棒FL,并要求对手选择性地对高损失的训练数据进行采样,以供模型训练并最大化模型的泛化误差。我们将攻击形式化为一个优化问题,并提出两种优雅的对抗采样策略,即Top- κ \kappa κ采样和元采样,以近似解决它。此外,我们的正式误差上界和时间复杂度分析证明了我们的设计可以高效地保留攻击效用。对两个真实世界数据集的广泛评估展示了我们提出的攻击的有效性和性能。
论文链接: https://arxiv.org/pdf/2406.12222
cs.AI: 离线强化学习偏好反馈的实例相关的最优次序界限
原标题: Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback
作者: Zhirui Chen, Vincent Y. F. Tan
机构: 新加坡国立大学
摘要: 我们考虑离线强化学习(RL)与偏好反馈,其中隐式奖励是未知参数的线性函数。在给定离线数据集的情况下,我们的目标是确定每个状态的最佳动作,最终目标是最小化“简单遗憾”。我们提出了一种算法,称为局部最优权重RL(RL-LOW),它产生了一个简单遗憾为 exp ( − Ω ( n / H ) ) \exp ( - \Omega(n/H) ) exp(−Ω(n/H)),其中 n n n是数据样本的数量, H H H表示一个依赖于实例的难度量,明确取决于每个动作的次优性差距。此外,我们推导了离线RL与偏好反馈的首个实例相关下界。有趣的是,我们观察到简单遗憾的下界和上界在指数上是匹配的,展示了RL-LOW的指数上的最优性。考虑到实际应用中的隐私考虑,我们还将RL-LOW扩展到 ( ε , δ ) (\varepsilon,\delta) (ε,δ)-差分隐私设置,并且令人惊讶地发现,在 n n n趋向无穷大的渐近情况下,难度参数 H H H保持不变;这突显了RL-LOW在保护观察到的奖励隐私方面的内在效率。鉴于我们专注于建立实例相关的界限,我们的工作与之前侧重于建立离线RL与偏好反馈的最坏情况遗憾的工作形成鲜明对比。
论文链接: https://arxiv.org/pdf/2406.12205
cs.AI: 时间序列建模用于心率预测:从ARIMA到Transformer
原标题: Time Series Modeling for Heart Rate Prediction: From ARIMA to Transformers
作者: Haowei Ni, Shuchen Meng, Xieming Geng, Panfeng Li, Zhuoying Li, Xupeng Chen, Xiaotong Wang, Shiyao Zhang
机构: 哥伦比亚大学 中央财经大学 重庆大学 密歇根大学 约翰霍普金斯大学 纽约大学 康奈尔大学
摘要: 心血管疾病(CVD)是全球死亡的主要原因,需要精确的预测模型来监测心率、血压和心电图等重要生命体征。传统模型,如ARIMA和Prophet,受限于需要手动参数调整以及处理嘈杂、稀疏和高度变化的医疗数据的挑战。本研究调查了包括LSTM和基于Transformer的先进深度学习模型,用于从MIT-BIH数据库预测心率时间序列。结果表明,深度学习模型,特别是PatchTST,在多个指标上明显优于传统模型,更有效地捕捉复杂的模式和依赖关系。这项研究强调了深度学习提升患者监测和CVD管理的潜力,暗示了实质性的临床益处。未来的工作应将这些发现扩展到更大、更多样化的数据集和真实世界的临床应用,以进一步验证和优化模型性能。
论文链接: https://arxiv.org/pdf/2406.12199
cs.AI: 基于 CWT 的 Mel 频谱图增强范式在语音合成中的应用
原标题: A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis
作者: Guoqiang Hu, Huaning Tan, Ruilai Li
机构: 暂无School of International Jinan University
摘要: 声学特征在提高合成语音质量方面起着重要作用。目前,梅尔频谱图是大多数声学模型中广泛采用的声学特征。然而,由于其傅里叶变换过程引起的细粒度损失,梅尔频谱图合成的语音清晰度在突变信号中受到影响。为了获得更详细的梅尔频谱图,我们提出了一种基于连续小波变换(CWT)的梅尔频谱图增强范式。该范式引入了一个额外的任务:更详细的小波频谱图,类似于后处理网络,以解码器输出的梅尔频谱图作为输入。我们选择了Tacotron2和Fastspeech2进行实验验证,以测试自回归(AR)和非自回归(NAR)语音系统,分别。实验结果表明,使用梅尔频谱图增强范式的模型合成的语音具有更高的MOS,分别比基线模型提高了0.14和0.09。这些发现为增强范式的普适性提供了一些验证,因为它们展示了该范式在不同架构中的成功。
论文链接: https://arxiv.org/pdf/2406.12164