cs.AI: 代码堆栈中的错误:LLM 是否能在大型 Python 代码堆栈中找到错误
原标题: Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks
作者: Hokyung Lee, Sumanyu Sharma, Bing Hu
机构: Hamming.ai
摘要: 最近的研究在"Needle-in-a-Haystack"(NIAH)基准测试中探讨了大语言模型(LLMs)从大型文本文档中检索上下文信息的能力。然而,随着LLMs越来越多地集成到软件开发流程中,评估它们在基于代码的环境中的表现至关重要。随着LLMs进一步发展用于程序合成,我们需要确保LLMs能理解语法并编写语法正确的代码。为了确保LLMs理解语法的步骤之一,可以评估它们发现和检测语法错误的能力。我们的基准测试"Bug In The Code Stack"(BICS)旨在评估LLMs在大型源代码中识别简单语法错误的能力。我们的研究发现了三个关键见解:(1)与文本为基础的环境相比,基于代码的环境对检索任务提出了更大挑战,(2)不同模型之间存在显著的性能差异,(3)较长的上下文长度与性能下降之间存在显著相关性,尽管不同模型之间的这种下降程度有所不同。
论文链接: https://arxiv.org/pdf/2406.15325
cs.AI: 人工智能集体能够产生最准确的差异诊断。
原标题: Human-AI collectives produce the most accurate differential diagnoses
作者: N. Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni, G. Barabucci, K. Laskowski, V. Shia, B. Harack, E. A. Chu, V. Trianni, R. H.J.M. Kurvers, S. M. Herzog
机构: 马克斯·普朗克人类发展研究所 德国 柏林
人类诊断项目 美国 加利福尼亚州 旧金山
科隆大学 德国 科隆
哈维默德学院 美国 加利福尼亚州 克莱蒙特
摘要: 人工智能系统,特别是大型语言模型(LLMs),越来越多地被用于影响个人和整个社会的重大决策,通常缺乏足够的保障来确保安全、质量和公平。然而,LLMs会产生幻觉,缺乏常识,并且存在偏见 - 这些缺点可能反映了LLMs固有的局限性,因此可能无法通过更复杂的架构、更多的数据或更多的人类反馈来纠正。因此,仅依赖LLMs做复杂的重大决策是有问题的。在这里,我们提出了一种混合集体智能系统,通过利用人类经验和LLMs处理的大量信息的互补优势来减轻这些风险。我们将我们的方法应用于开放式医学诊断,结合了医生做出的40,762个不同诊断和2,133个医学病例中五个最先进的LLMs的诊断。我们表明,医生和LLMs的混合集体在医生和医生集体、单个LLMs和LLM集合之间表现更好。这一结果适用于各种医学专业和专业经验,并且可以归因于人类和LLMs的互补贡献,导致不同类型的错误。我们的方法突显了集体人类和机器智能在改善医学诊断等复杂、开放领域的准确性方面的潜力。
论文链接: https://arxiv.org/pdf/2406.14981
cs.AI: 提取下颌骨髁突的三维轨迹从二维实时磁共振成像。
原标题: Extraction of 3D trajectories of mandibular condyles from 2D real-time MRI
作者: Karyna Isaieva (IADI), Justine Leclère (IADI), Guillaume Paillart (IADI), Guillaume Drouot (CIC-IT), Jacques Felblinger (IADI, CIC-IT), Xavier Dubernard (CHU Reims), Pierre-André Vuissoz (IADI)
机构: 洛林大学 北东部医学研究所 法国国家医学与健康研究院 尼斯大学 里姆斯大学医院
摘要: 从MRI直接计算下颌骨髁突的轨迹可以提供全面的检查,允许提取解剖和运动学细节。本研究旨在探讨从2D实时MRI中提取3D髁突轨迹的可行性,并评估其精度。二十名健康受试者在张口和闭合下颌时接受了实时MRI检查。使用基于U-Net算法的一个轴位和两个矢状位的切片进行分割。将结果掩模的质心投影到基于解剖标记的坐标系上,并通过常规投影进行时间调整。使用设计用于估计运动可重复性、头部运动和切片放置对称性的度量标准来评估计算轨迹的质量。轴位切片的分割显示出良好至优秀的质量;然而,矢状位切片的分割需要进行一些微调。对于大多数情况,运动可重复性是可接受的;然而,头部运动平均使轨迹偏移了1毫米。闭合下颌位置髁突的上下坐标的差异平均为1.7毫米。尽管精度存在一定限制,实时MRI能够提取具有足够准确度的髁突轨迹,用于评估临床相关参数,如髁突位移、轨迹特征和对称性。
论文链接: https://arxiv.org/pdf/2406.14925
cs.AI: 展示科尔莫戈洛夫-阿诺德网络在视觉任务中的有效性。
原标题: Demonstrating the Efficacy of Kolmogorov-Arnold Networks in Vision Tasks
作者: Minjong Cheon
机构: 独立研究者
摘要: 在深度学习领域中,科尔莫戈洛夫-阿诺德网络(KAN)已经成为多层投影(MLP)的潜在替代方案。然而,它在视觉任务中的适用性尚未得到广泛验证。在我们的研究中,我们通过在MNIST、CIFAR10和CIFAR100数据集上进行多次试验,使用批量大小为32,证明了KAN在视觉任务中的有效性。我们的结果显示,尽管KAN在CIFAR10和CIFAR100上优于原始的MLP-Mixer,但比最先进的ResNet-18稍逊。这些发现表明,KAN在视觉任务中具有重要的潜力,并且进一步的修改可能会提高其在未来评估中的性能。我们的贡献有三个方面:首先,我们展示了基于KAN的算法在视觉任务中的效率;其次,我们在各种视觉基准测试中进行了广泛的实证评估,比较了KAN与MLP-Mixer、CNN和Vision Transformers(ViT)的性能;第三,我们首次在视觉任务中使用了自然的KAN层,填补了以前研究中的空白。本文为未来对KAN的研究奠定了基础,突出了其作为图像分类任务可靠替代方案的潜力。
论文链接: https://arxiv.org/pdf/2406.14916
Github: https://github.com/jmj2316/KAN-in-VIsion
cs.AI: 值得信赖的增强型多视角多模态阿尔茨海默病预测与全脑成像转录组学数据
原标题: Trustworthy Enhanced Multi-view Multi-modal Alzheimer’s Disease Prediction with Brain-wide Imaging Transcriptomics Data
作者: Shan Cong, Zhoujie Fan, Hongwei Liu, Yinghan Zhang, Xin Wang, Haoran Luo, Xiaohui Yao
机构: 青岛创新与发展中心 哈尔滨工程大学 香港城市大学
摘要: 大脑转录组学提供了洞察大脑协调其功能和过程的分子机制。然而,现有的多模态预测阿尔茨海默病(AD)方法主要依赖于成像和有时是遗传数据,往往忽视了大脑转录组的基础。此外,在努力整合不同模态之间的互补信息时,大多数研究忽视了模态之间信息差异的重要性。在这里,我们提出了TMM,一种信任的多视图多模态图注意力框架,用于AD诊断,使用广泛的全脑转录组学和成像数据。首先,我们从转录组学和多模态放射组学数据构建视图特定的大脑区域共功能网络(RRIs),以整合来自生物分子和成像视角的交互信息。接下来,我们对每个RRIs网络应用图注意力(GAT)处理,生成图嵌入,并使用跨模态注意力融合转录组学衍生的嵌入和每个成像衍生的嵌入。最后,设计了一种新颖的真假和谐类概率(TFCP)策略,用于评估和自适应调整每种模态在AD诊断中的预测置信度。我们使用AHBA数据库的全脑转录组数据和ADNI数据库的三种成像模态(AV45-PET、FDG-PET和VBM-MRI)评估了TMM。结果表明,与现有技术相比,我们的方法在识别AD、EMCI和LMCI方面表现出了优越性。代码和数据可在此网址获取:https://链接。
论文链接: https://arxiv.org/pdf/2406.14977
Github: https://github.com/Yaolab-fantastic/TMM
cs.AI: 停火:一种用于打击非法枪支走私的人工智能系统
原标题: CEASEFIRE: An AI-powered system for combatting illicit firearms trafficking
作者: Ioannis Mademlis, Jorgen Cani, Marina Mancuso, Caterina Paternoster, Emmanouil Adamakis, George Margetis, Sylvie Chambon, Alain Crouzil, Loubna Lechelek, Georgia Dede, Spyridon Evangelatos, George Lalas, Franck Mignet, Pantelis Linardatos, Konstantinos Kentrotis, Henryk Gierszal, Piotr Tyczka, Sophia Karagiorgou, George Pantelis, Georgios Stavropoulos, Konstantinos Votis, Georgios Th. Papadopoulos
摘要: 现代技术已经导致非法枪支走私部分与网络犯罪部分融合,同时也使其离线方面变得更加复杂。执法人员面临着艰巨的挑战,需要高科技解决方案。本文介绍了一个由先进人工智能驱动的真实系统,以帮助他们在日常工作中更加便利。
论文链接: https://arxiv.org/pdf/2406.14949
cs.AI: 朝着具有本体的机器学习稳健训练数据集迈进:应急道路车辆检测案例研究
原标题: Towards Robust Training Datasets for Machine Learning with Ontologies: A Case Study for Emergency Road Vehicle Detection
作者: Lynn Vonderhaar, Timothy Elvira, Tyler Procko, Omar Ochoa
摘要: 许多领域依赖机器学习(ML)模型,包括安全关键领域,例如自动驾驶,本文重点讨论此类领域。虽然在某些领域中,ML的黑盒特性仅仅是一个麻烦,但在安全关键领域中,这使得ML模型难以信任。为了在安全关键领域充分利用ML模型,有必要提出一种方法来提高对模型鲁棒性和准确性的信任,而无需人类专家检查每个决策。本研究提出了一种方法,通过确保模型训练数据集的鲁棒性和完整性来增加在安全关键领域中使用的ML模型的信任度。因为ML模型体现了它们的训练内容,确保训练数据集的完整性有助于增加对ML模型训练的信任。为此,本文提出使用领域本体和图像质量特征本体来验证训练数据集的领域完整性和图像质量鲁棒性。本研究还提出了一个实验作为此方法的概念验证,其中为紧急道路车辆领域构建了本体。
论文链接: https://arxiv.org/pdf/2406.15268
cs.AI: 在密集城市环境中,通过确保连接性的深度无人机路径规划
原标题: Deep UAV Path Planning with Assured Connectivity in Dense Urban Setting
作者: Jiyong Oh, Syed M. Raza, Lusungu J. Mwasinga, Moonseong Kim, Hyunseung Choo
机构: 成均馆大学 首尔神学大学
摘要: 无人机(UAV)服务与5G连接是一个新兴领域,具有众多应用。操作员控制的无人机飞行和手动静态飞行配置是限制无人机服务广泛采用的主要限制因素。几项服务依赖于无人机与蜂窝网络的良好连接,并在预定的飞行路径中保持这种连接是具有挑战性的。本文通过提出一种深度强化学习(DRL)框架来解决这些限制,用于无人机路径规划并确保连接(DUPAC)。在无人机飞行过程中,DUPAC确定了从定义的起点到目的地的最佳路线,考虑了距离和信号质量。使用Unity框架在模拟的真实城市场景下评估了DUPAC的可行性和性能。结果证实,DUPAC实现了类似于基本方法的自主无人机飞行路径,仅增加了2%,同时在整个飞行过程中保持了平均9%更好的连接质量。
论文链接: https://arxiv.org/pdf/2406.15225
cs.AI: 探索 ChatGPT 和 Claude 在增强 ADHD 治疗中的效力:创新治疗范式
原标题: Exploring the Efficacy of Robotic Assistants with ChatGPT and Claude in Enhancing ADHD Therapy: Innovating Treatment Paradigms
作者: Santiago Berrezueta-Guzman, Mohanad Kandil, María-Luisa Martín-Ruiz, Iván Pau-de-la-Cruz, Stephan Krusche
机构: 慕尼黑工业大学 西班牙马德里理工大学
摘要: 注意力缺陷多动障碍(ADHD)是一种神经发育状况,其特征是注意力不集中、多动和冲动,这可能会显著影响个体的日常功能和生活质量。职业治疗在管理ADHD方面发挥着至关重要的作用,通过促进日常生活所需技能的发展,增强个体参与学校、家庭和社交场合的能力。最近的研究突出了整合大语言模型(LLMs)如ChatGPT和社交辅助机器人(SAR)以改善心理治疗的潜力。这种整合旨在克服现有心理健康治疗中的限制,提供量身定制的支持,并适应这一敏感群体的独特需求。然而,目前在探索这些先进技术在ADHD治疗中的联合使用方面仍存在重大研究空白,这表明了一种新型治疗方法的机会。
因此,我们将两种先进语言模型ChatGPT-4 Turbo和Claude-3 Opus整合到一个机器人助手中,以探索每个模型在机器人辅助交互中的表现如何。此外,我们已经比较了它们在模拟治疗场景中的表现,以衡量它们对临床验证的定制模型的有效性。这项研究的结果显示,ChatGPT-4 Turbo在性能和响应能力方面表现出色,适用于时间敏感的应用。另一方面,Claude-3 Opus在理解、连贯性和道德考虑方面表现出优势,优先考虑安全和引人入胜的互动。这两种模型都展示了创新和适应性,但ChatGPT-4 Turbo提供了更大的集成便利性和更广泛的语言支持。在它们之间的选择取决于ADHD治疗的具体需求。
论文链接: https://arxiv.org/pdf/2406.15198
cs.AI: GIEBench:面向大型语言模型的基于群体身份的共情的全面评估
原标题: GIEBench: Towards Holistic Evaluation of Group Indentity-based Empathy for Large Language Models
作者: Leyan Wang, Yonggang Jin, Tianhao Shen, Tianyu Zheng, Xinrun Du, Chenchen Zhang, Wenhao Huang, Jiaheng Liu, Shi Wang, Ge Zhang, Liuyu Xiang, Zhaofeng He
机构: 北京邮电大学 天津大学 M-A-P 滑铁卢大学 中国科学院计算技术研究所 601.AI
摘要: 大语言模型(LLMs)继续发展并广泛应用时,LLMs展现对不同群体身份的同理心和理解其视角的能力越来越被认为是至关重要的。大多数现有的关于LLMs同理心评估的基准主要侧重于普遍的人类情感,如悲伤和痛苦,往往忽视了个体群体身份的背景。为了弥补这一空白,我们介绍了GIEBench,一个全面的基准测试,涵盖了11个身份维度,涵盖了97个群体身份,共999个与特定群体身份相关的单选题。GIEBench旨在评估LLMs在面对诸如性别、年龄、职业和种族等特定群体身份时的同理心,强调它们从被识别群体的立场回应的能力。这支持了为不同身份用户量身定制的具有同理心的LLMs应用的持续发展。我们对23个LLMs的评估显示,虽然这些LLMs理解不同的身份立场,但它们在没有明确指示采纳这些视角的情况下,未能一致展现出对这些身份的同等同理心。这凸显了需要改进LLMs与多样价值观的对齐,以更好地适应人类身份的多层面特性。我们的数据集可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2406.14903
Github: https://github.com/GIEBench/GIEBench
cs.AI: UDA:用于实际文档分析中检索增强生成的基准套件
原标题: UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis
作者: Yulong Hui, Yao Lu, Huanchen Zhang
机构: 清华大学 国立新加坡大学
摘要: 使用检索增强生成(RAG)技术已经改进了大型语言模型(LLM)在与外部数据合作方面的表现,但在现实场景中仍存在显著挑战。在学术文献和金融问答等领域,数据通常以 HTML 或 PDF 格式的原始文本和表格形式存在,这些数据可能非常冗长且高度非结构化。本文介绍了一个基准套件,名为无结构文档分析(UDA),涉及 2,965 份真实世界文档和 29,590 个专家注释的问答对。我们重新审视了针对文档分析的流行LLM和RAG解决方案,并评估了在多个文档领域和不同查询类型之间的设计选择和答案质量。我们的评估得出了有趣的发现,并强调了数据解析和检索的重要性。我们希望我们的基准套件能为现实世界的文档分析应用提供启示。基准套件和代码可以在此 https URL 找到。
论文链接: https://arxiv.org/pdf/2406.15187
Github: https://github.com/qinchuanhui/UDA-Benchmark
cs.AI: 我不再信任你!-- 学生使用大语言模型对高等教育中讲师-学生信任的影响
原标题: I don’t trust you (anymore)! – The effect of students’ LLM use on Lecturer-Student-Trust in Higher Education
作者: Simon Kloker, Matthew Bazanya, Twaha Kateete
机构: 恩德杰大学 科学与计算学院 - 乌干达 国际同事 - 德国
摘要: 信任在讲师-学生-合作中发挥着关键作用,涵盖教学和研究方面。大语言模型(LLMs)如Open AI的ChatGPT等平台的出现,以其成本效益和高质量的结果,导致它们在大学生中迅速被采纳。然而,区分真实的学生输入和LLM生成的输出对讲师而言是一个挑战。这一困境可能会危及讲师与学生之间的信任关系,进而影响大学的下游活动,特别是协作研究项目。尽管已经尝试建立学生使用LLM的指导方针,但在高等教育中对讲师和学生都有益的明确框架仍然难以实现。本研究探讨了以下研究问题:学生使用LLMs如何影响信息和程序公正,从而影响团队信任和预期团队绩效?方法上,我们应用了基于量化构建的调查问卷,并使用结构方程建模(PLS-SEM)技术来检验这些构建之间的潜在关系。我们的研究结果基于来自Ndejje大学的23名有效受访者显示,讲师对于LLM使用的公平性并不特别关注,而更专注于学生利用的透明度,这对团队信任有显著正向影响。本研究为整合和规范教育中LLMs及其后续模型的全球讨论做出了贡献。我们建议指导方针应支持LLM的使用,同时强调在讲师-学生-合作中的透明性,以促进团队信任和绩效。本研究为塑造政策提供了宝贵的见解,以确保教育中LLMs使用的道德和透明性,从而保证协作学习环境的有效性。
论文链接: https://arxiv.org/pdf/2406.14871
cs.AI: 这实际上看起来像这样:Proto-BagNets 用于局部和全局可解释性设计
原标题: This actually looks like that: Proto-BagNets for local and global interpretability-by-design
作者: Kerol Djoumessi, Bubacarr Bah, Laura Kühlewein, Philipp Berens, Lisa Koch
机构: 图宾根大学、伦敦卫生与热带医学学院、伯尔尼大学医院
摘要: 解释性是在高风险应用中使用机器学习模型的关键要求,包括医学诊断。解释黑盒模型主要依赖事后方法,这些方法不能真实反映模型的行为。为了解决这个问题,提出了基于原型的网络,但它们的可解释性有限,因为已经证明它们提供的是粗糙、不可靠和不精确的原型部分。在这项工作中,我们介绍了Proto-BagNets,这是一种可解释性设计的基于原型的模型,它结合了局部特征模型和原型学习的优势,为准确和可解释的图像分类任务提供了有意义、连贯和相关的原型部分。我们在公开可用的视网膜OCT数据上评估了Proto-BagNet在玻璃样变性检测方面的性能。Proto-BagNet在提供忠实、准确和临床有意义的局部和全局解释的同时,表现出与最先进的可解释和不可解释模型相当的性能。代码可在此链接获取。
论文链接: https://arxiv.org/pdf/2406.15168
其他链接: http://explanations.In
cs.AI: 基于临床级组织病理诊断的基于AI的异常检测
原标题: AI-based Anomaly Detection for Clinical-Grade Histopathological Diagnostics
作者: Jonas Dippel, Niklas Prenißl, Julius Hense, Philipp Liznerski, Tobias Winterhoff, Simon Schallenberg, Marius Kloft, Oliver Buchstab, David Horst, Maximilian Alber, Lukas Ruff, Klaus-Robert Müller, Frederick Klauschen
机构: 柏林工业大学 BIFOLD – 柏林学习和数据基金会 柏林卫生与医学大学 柏林卫生与医学大学柏林卫生研究所 BIH生物医学创新学院 BIH柏林卫生医学大学初级数字临床科学家项目 RPTU Aignostics GmbH
摘要: 以前的研究已经展示了人工智能在诊断影像数据中的潜力,但临床实施仍然滞后。部分原因是因为人工智能模型需要训练大量仅对常见疾病可用的示例。然而,在临床现实中,常见的疾病很少,而大多数疾病不太频繁(长尾分布)。当前的人工智能模型忽视或误分类这些疾病。我们提出了一种深度异常检测方法,只需要来自常见疾病的训练数据,即可检测所有不常见的疾病。我们收集了两个大型的胃肠活检实际数据集,这些数据集典型地反映了这一问题。在这里,十种最常见的发现约占案例的90%,而剩下的10%包含了56种疾病实体,包括许多癌症。我们使用了来自5,423例案例的17百万张组织学图像进行训练和评估。在没有特定疾病训练的情况下,我们表现最佳的模型可可靠地检测到了广泛的罕见(“异常”)病理学病变,胃部达到了95.0%的AUROC,结肠达到了91.0%的AUROC,并在不同扫描仪和医院之间具有广泛的泛化能力。按设计,所提出的异常检测方法可以预期在胃肠活检的诊断尾部检测到任何病理学变化,包括罕见的原发性或转移性癌症。这项研究建立了基于人工智能异常检测在组织病理学中的首个有效临床应用,可以标记异常案例,促进案例优先处理,减少漏诊,并增强人工智能模型的整体安全性,从而推动人工智能在常规诊断及更广泛应用中的采用和自动化。
论文链接: https://arxiv.org/pdf/2406.14866
cs.AI: 自动化建筑空间布局规划利用物理启发的生成式设计框架
原标题: Automated architectural space layout planning using a physics-inspired generative design framework
作者: Zhipeng Li, Sichao Li, Geoff Hinchcliffe, Noam Maitless, Nick Birbilis
机构: 澳大利亚国立大学 工程与计算机科学学院 艺术与社会科学学院 德肯大学科学工程与建筑环境学院
摘要: 空间布局的确定是建筑项目方案设计阶段的主要活动之一。初始布局规划定义了内部空间的形状、尺寸和流通模式;这也可以影响建筑施工的性能和成本。当手动进行时,空间布局规划可能会变得复杂、重复且耗时。在本工作中,已开发出一种用于自动生成空间建筑布局的生成设计框架。所提出的方法集成了一种新颖的受物理启发的参数模型用于空间布局规划,以及一种进化优化元启发式方法。结果显示,这样的生成设计框架可以在方案设计阶段生成各种设计建议,适用于复杂的设计问题。
论文链接: https://arxiv.org/pdf/2406.14840
cs.AI: KnobTree:通过可解释强化学习进行智能数据库参数配置
原标题: KnobTree: Intelligent Database Parameter Configuration via Explainable Reinforcement Learning
作者: Jiahan Chen, Shuhan Qi, Yifan Li, Zeyu Dong, Mingfeng Ding, Yulin Wu, Xuan Wang
机构: 哈尔滨工业大学深圳 天津南大通用数据技术有限公司
摘要: 数据库是当代信息系统的基础,然而传统的基于规则的配置方法很难管理具有数百个可调参数的真实应用程序的复杂性。深度强化学习(DRL)结合了感知和决策,为智能数据库配置调优提供了潜在解决方案。然而,由于基于RL的方法的黑盒特性,生成的数据库调优策略仍然面临缺乏可解释性的紧迫问题。此外,大规模数据库中的冗余参数总是使策略学习变得不稳定。本文提出了KnobTree,这是一个专为数据库参数配置优化而设计的可解释框架。在这个框架中,提出了一种基于RL的不同树的可解释数据库调优算法,它构建了一个透明的基于树的模型来生成可解释的数据库调优策略。为了解决大规模参数的问题,我们还引入了一种可解释的参数重要性评估方法,通过利用Shapley值来识别对数据库性能有显著影响的参数。在MySQL和Gbase8s数据库上进行的实验验证了KnobTree模型的出色透明性和可解释性。这种良好的特性使得生成的策略可以为算法设计人员和数据库管理员提供实际指导。此外,我们的方法在吞吐量、延迟和处理时间等方面也略优于现有的基于RL的调优算法。
论文链接: https://arxiv.org/pdf/2406.15073
cs.AI: PEANO-ViT:视觉Transformer中非线性的高效近似
原标题: PEANO-ViT: Power-Efficient Approximations of Non-Linearities in Vision Transformers
作者: Mohammad Erfan Sadeghi, Arash Fayyazi, Seyedarmin Azizi, Massoud Pedram
机构: 南加州大学
摘要: 部署Vision Transformers(ViTs)在硬件平台上,特别是可编程门阵列(FPGAs),存在许多挑战,这主要是由于它们的非线性函数(尤其是层归一化、softmax和高斯误差线性单元(GELU))的大量计算和功耗要求。这些关键函数由于其复杂的数学运算和FPGAs固有的资源计数和架构限制,对有效的硬件实现构成了重大障碍。PEANO-ViT通过引入一种无除法技术,同时近似除法和平方根函数,为简化层归一化层的实现提供了一种新方法。此外,PEANO-ViT提供了一种多尺度除法策略,以消除softmax层中的除法运算,辅以基于Pade的指数函数近似。最后,PEANO-ViT引入了一种GELU函数的分段线性近似,经过精心设计,可以绕过与GELU相关的计算密集型操作。在我们的全面评估中,PEANO-ViT表现出最小的准确度下降(对于DeiT-B,<= 0.5%),同时显著提高了功率效率,分别实现了层归一化、softmax和GELU的1.91倍、1.39倍和8.01倍的改进。通过大幅减少这些非线性操作的DSP、LUT和寄存器计数,实现了这一改进。因此,PEANO-ViT使Vision Transformers能够在资源和功耗受限的FPGA平台上实现高效部署。
论文链接: https://arxiv.org/pdf/2406.14854
cs.AI: 一张图片是否胜过千言万语?深入探讨视觉语言模型的空间推理
原标题: Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models
作者: Jiayu Wang, Yifei Ming, Zhenmei Shi, Vibhav Vineet, Xin Wang, Neel Joshi
机构: 威斯康星大学麦迪逊分校 微软研究
摘要: 大语言模型(LLMs)和视觉语言模型(VLMs)已经在各种任务和领域展现出了卓越的性能。尽管如此,空间理解和推理——人类认知的基本组成部分——仍然未被充分探索。我们开发了涵盖空间推理的多个方面的新基准,如关系理解、导航和计数。我们对竞争性语言和视觉语言模型进行了全面评估。我们的研究结果揭示了一些在文献中被忽视的反直觉的见解:(1)空间推理带来了重大挑战,竞争性模型可能落后于随机猜测;(2)尽管有额外的视觉输入,VLMs通常表现不及其LLM对应物;(3)当文本和视觉信息都可用时,多模态语言模型在提供足够的文本线索时会变得不那么依赖视觉信息。此外,我们还证明了利用视觉和文本之间的冗余可以显著增强模型性能。我们希望我们的研究能够为改进空间智能的多模态模型的发展提供信息,并进一步缩小与人类智能之间的差距。
论文链接: https://arxiv.org/pdf/2406.14852
cs.AI: 公正、抗干扰和透明的分配
原标题: Fair, Manipulation-Robust, and Transparent Sortition
作者: Carmel Baharav, Bailey Flanigan
机构: 苏黎世联邦理工学院 美国卡内基梅隆大学
摘要: 抽签,即随机选择政治代表,越来越被全球各地用来选择类似公民议会这样的协商过程的参与者。受抽签的实际重要性的推动,最近对抽签算法进行了大量研究,其任务是从志愿者池中选择一个小组。这个小组必须满足强制代表关键人口子群的配额。过去的工作为实现这一任务贡献了一种算法方法,同时确保志愿者被选择的机会最大程度地平等,即通过任何凸等式目标来衡量。那么,问题是:哪种平等目标是正确的?过去的工作主要研究了最小最大值和最大最小值这两个目标,分别是最小化给予任何志愿者的最大选择机会和最大化给予任何志愿者的最小选择机会。最近的研究表明,这两个目标都存在关键弱点:最小最大值对操纵高度稳健,但是任意不公平;相反,最大最小值高度公平但是任意可操纵。
鉴于这一差距,我们提出了一个新的平等目标,即“金发女孩”,旨在通过确保没有志愿者获得太少或太多的选择机会,同时实现这些理想。我们在理论上限定了“金发女孩”实现这些理想的程度,发现在一个重要意义上,“金发女孩”在给定实例中恢复了最佳可用解决方案之一。然后,我们将我们的界限扩展到Goldilocks的输出被转换以实现第三个目标,即透明度。我们对真实数据中Goldilocks的实证分析更加令人鼓舞:我们发现这个目标在大多数真实实例中同时实现了几乎最优的最小和最大选择概率 – 这个结果甚至不保证对于任何算法都是可能的。
论文链接: https://arxiv.org/pdf/2406.15009
cs.AI: RouteFinder: 朝着车辆路径问题的基础模型
原标题: RouteFinder: Towards Foundation Models for Vehicle Routing Problems
作者: Federico Berto, Chuanbo Hua, Nayeli Gast Zepeda, André Hottung, Niels Wouda, Leon Lan, Kevin Tierney, Jinkyoo Park
机构: 韩国科学技术院 中德尼尔大学 根特大学 阿姆斯特丹自由大学 OMELET AI
摘要: 车辆路径问题(VRP)是在物流、运输和供应链管理中具有重要现实意义的优化问题。尽管在学习解决单个VRP变体方面取得了最近的进展,但缺乏一个能够有效处理各种任务的统一方法对于实际影响至关重要。本文介绍了RouteFinder,这是一个用于开发VRP基础模型的框架。我们的关键思想是,VRP的基础模型应该能够通过将每个变体视为更大VRP问题的子集,并配备不同的属性来建模变体。我们引入了一个并行化环境,可以以批处理方式同时处理任意组合的属性,并引入了一个有效的采样过程,以在每个优化步骤上训练一系列问题,从而极大地提高了收敛的稳健性。我们还引入了新颖的全局特征嵌入,将实例属性高效地投影到潜在空间,并帮助模型理解不同的VRP变体。最后,我们引入了高效的适配器层,这是一种简单而有效的技术,可以微调预训练的RouteFinder模型,以解决原始特征空间之外以前未见属性的新变体。我们通过对24个VRP变体进行广泛实验来验证我们的方法,证明了与最近的多任务学习模型相比具有竞争力的结果。我们将我们的代码公开提供在此 https URL。
论文链接: https://arxiv.org/pdf/2406.15007
Github: https://github.com/ai4co/routefinder
cs.AI: 自监督脑损伤生成,用于增强医学图像的有效数据增强。
原标题: Self-supervised Brain Lesion Generation for Effective Data Augmentation of Medical Images
作者: Jiayu Huo, Sebastien Ourselin, Rachel Sparks
机构: 清华大学 Imperial College London Shift MS
摘要: 准确的脑部病变划分对于规划神经外科治疗非常重要。基于卷积神经网络的自动脑部病变分割方法已经展现出了显著的性能。然而,神经网络的性能受到大规模、良好注释的训练数据集的缺乏限制。在本文中,我们提出了一个全面的框架,以有效地生成新的、真实的样本来训练脑部病变分割模型。我们首先以自监督的方式训练一个基于对抗自编码器的病变生成器。接下来,我们利用一种新颖的图像合成算法,Soft Poisson Blending,无缝地将合成的病变和脑部图像结合起来,获得训练样本。最后,为了有效地训练脑部病变分割模型,我们引入了一种新的原型一致性正则化方法,以对齐真实和合成特征。我们的框架通过对两个公共脑部病变分割数据集(ATLAS v2.0 和 Shift MS)进行了大量实验证实。我们的方法优于现有的脑部图像数据增强方案。例如,与传统数据增强技术下的 U-Net 相比,我们的方法将 ATLAS v2.0 数据集的 Dice 值从50.36%提高到60.23%。
论文链接: https://arxiv.org/pdf/2406.14826
cs.AI: 潜在扩散模型用于参数化和数据同化基于相位的地质模型
原标题: Latent diffusion models for parameterization and data assimilation of facies-based geomodels
作者: Guido Di Federico, Louis J. Durlofsky
机构: 斯坦福大学
摘要: 地质参数化涉及使用一小组潜在变量和从这些变量到孔隙度和渗透率等网格块属性的映射来表示地质模型。参数化对于数据同化(历史匹配)很有用,因为它在减少需要确定的变量数量的同时保持地质真实性。扩散模型是一种新的生成式深度学习程序类别,已被证明在图像生成任务中优于以往的方法,如生成对抗网络。扩散模型经过训练以“去噪”,这使它们能够从由随机噪声表征的输入字段生成新的地质实现。潜在扩散模型是本研究考虑的特定变体,通过使用低维潜在变量进行维度缩减。本研究开发的模型包括用于维度缩减的变分自动编码器和用于去噪过程的 U-net。我们的应用涉及条件2D三相(河道-堤坝-泥)系统。潜在扩散模型显示出生成的实现与地质建模软件样本在视觉上一致。评估涉及空间和流动响应统计的定量指标,并观察到扩散生成的模型与参考实现之间的一般一致性。进行稳定性测试以评估参数化方法的平滑性。然后使用潜在扩散模型进行基于集合的数据同化。考虑了两个合成的“真实”模型。在两种情况下都实现了显著的不确定性减少,通常将观测数据括在内的后验 P 10 _{10} 10-P 90 _{90} 90 预测,以及一致的后验地质模型。
论文链接: https://arxiv.org/pdf/2406.14815
cs.AI: 确保未来:可持续物联网生态系统的主动威胁猎杀
原标题: Securing the Future: Proactive Threat Hunting for Sustainable IoT Ecosystems
作者: Saeid Ghasemshirazi, Ghazaleh Shirvani
机构: 卡尔顿大学
摘要: 在物联网快速发展的背景下,连接设备的安全性已成为重要关注点。本文探讨了积极威胁狩猎作为增强物联网系统安全性和可持续性的关键策略的概念。积极威胁狩猎是一种替代传统反应式安全措施的方法,通过持续和提前分析物联网网络来发现和消除威胁,从而改善物联网设备的安全态势,显著延长物联网的运行寿命并减少环境影响。本文主张,通过将类似于通用漏洞评分系统(CVSS)的安全度量整合到消费者平台中,积极威胁狩猎能够提高用户对物联网设备安全性的意识。这有潜力影响消费者的选择,并在制造和用户社区中促进注重安全的思维模式。通过全面分析,本研究展示了积极威胁狩猎如何有助于建立更安全、可持续和用户感知的物联网生态系统。
论文链接: https://arxiv.org/pdf/2406.14804
cs.AI: 单摄像头训练的人员再识别的相机不变元学习网络
原标题: Camera-Invariant Meta-Learning Network for Single-Camera-Training Person Re-identification
作者: Jiangbo Pei, Zhuqing Jiang, Aidong Men, Haiying Wang, Haiyong Luo, Shiping Wen
机构: 清华大学 西安电子科技大学
摘要: 单摄像头训练的人员重新识别(SCT re-ID)旨在使用每个人仅出现在一个摄像头的SCT数据集来训练重新识别模型。SCT re-ID 的主要挑战是学习在没有跨摄像头同一人(CCSP)数据监督的情况下,具有摄像头不变特征表示。先前的方法通过假设最相似的人应该在另一个摄像头中找到来解决这个问题。然而,这一假设不能保证是正确的。在本文中,我们提出了一种基于摄像头不变元学习网络(CIMN)的SCT re-ID 方法。CIMN 假设摄像头不变特征表示应该对摄像头变化具有鲁棒性。为此,我们根据摄像头ID将训练数据分为元训练集和元测试集,并通过元学习策略进行跨摄像头模拟,旨在强化从元训练集学习到的表示对元测试集的鲁棒性。通过跨摄像头模拟,CIMN 可以学习摄像头不变和身份判别表示,即使没有CCSP数据。然而,这种模拟也导致了元训练集和元测试集的分离,忽略了它们之间的一些有益关系。因此,我们引入了三种损失:元三元组损失、元分类损失和元摄像头对齐损失,以利用被忽视的关系。实验结果表明,我们的方法在有或没有CCSP数据的情况下均取得了可比较的性能,并且在SCT re-ID基准测试中优于现有方法。此外,它还有效提升了模型的领域泛化能力。
论文链接: https://arxiv.org/pdf/2406.14797
cs.AI: NAVSIM:基于数据驱动的非反应式自主车辆模拟和基准测试
原标题: NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking
作者: Daniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta
机构: 图宾根大学 罗伯特·博世有限公司 南洋理工大学 多伦多大学 矢量研究所 斯坦福大学 上海人工智能实验室
摘要: 基于视觉的驾驶策略的基准测试具有挑战性。一方面,使用真实数据进行开环评估很容易,但这些结果不能反映闭环性能。另一方面,在模拟中进行闭环评估是可能的,但由于其巨大的计算需求,很难扩展。此外,今天可用的模拟器在域上存在很大差距。这导致无法从快速增长的端到端自动驾驶研究成果中得出明确结论。在本文中,我们提出了NAVSIM,它处于这些评估范例之间的中间地带,我们在这里使用大型数据集与非反应性模拟器结合,以实现大规模的现实世界基准测试。具体而言,我们通过展开测试场景的鸟瞰抽象来收集基于模拟的度量,例如进度和碰撞时间,以进行短期模拟水平。我们的模拟是非反应性的,即评估的策略和环境不会相互影响。正如我们经验证明的那样,这种解耦允许进行开环度量计算,同时与传统的位移误差相比,更好地与闭环评估保持一致。NAVSIM启用了CVPR 2024年举办的一项新竞赛,共有143支队伍提交了463份作品,带来了一些新的见解。在大量具有挑战性的场景中,我们观察到,像TransFuser这样具有中等计算要求的简单方法可以匹配最近的大规模端到端驾驶架构,例如UniAD。我们的模块化框架可能会通过新的数据集、数据策略和度量进行扩展,并将持续维护以举办未来的挑战。我们的代码可以在这个链接中找到:https://…
论文链接: https://arxiv.org/pdf/2406.15349
Github: https://github.com/autonomousvision/navsim
cs.AI: 图像导体:交互式视频合成的精准控制
原标题: Image Conductor: Precision Control for Interactive Video Synthesis
作者: Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan
机构: 北京大学 腾讯ARC实验室 南洋理工大学 清华大学 澳门大学 深圳先进技术研究院
摘要: 电影制作和动画制作通常需要复杂的技术来协调摄像机过渡和物体移动,通常涉及劳动密集型的现实世界捕捉。尽管在视频创作的生成AI方面取得了进展,但实现对交互式视频资产生成的运动的精确控制仍然具有挑战性。为此,我们提出了Image Conductor,一种从单一图像生成视频资产并实现摄像机过渡和物体移动精确控制的方法。我们提出了一个精心设计的训练策略,通过摄像机LoRA权重和物体LoRA权重分离不同的摄像机和物体运动。为了进一步解决因不良轨迹而引起的电影变化,我们在推断过程中引入了一种无需摄像机的引导技术,增强了物体运动同时消除了摄像机过渡。此外,我们开发了一个以轨迹为导向的视频运动数据策划管道用于训练。定量和定性实验证明了我们方法在从图像生成可控运动视频方面的精确性和细粒度控制,推动了交互式视频合成的实际应用。项目网页链接:https://这里是URL
论文链接: https://arxiv.org/pdf/2406.15339
Github: https://liyaowei-stu.github.io/project/ImageConductor/
cs.AI: 一个端到端、无分割、基于 KHATT 的阿拉伯手写识别模型
原标题: An End-to-End, Segmentation-Free, Arabic Handwritten Recognition Model on KHATT
作者: Sondos Aabed, Ahmad Khairaldin
机构: 巴勒斯坦Birzeit大学
摘要: 一种端到端、无分割、从头开始训练的深度学习模型被提出,利用DCNN进行特征提取,同时结合双向长短期记忆(BLSTM)进行序列识别,并在KHATT数据库上采用连接主义时间分类(CTC)损失函数。训练阶段在字符级别上取得了显著成果,测试数据集上的识别率达到了84%,在单词级别上为71%,建立了一个基于图像的序列识别框架,仅在行级别上进行操作,无需分割。还介绍了KFUPM手写阿拉伯文本(KHATT)数据库的分析和预处理。最后,实施了包括过滤、转换和行分割在内的高级图像处理技术。该工作的重要性在于其广泛的应用,包括银行业务中的数字化、文档化、归档和文本翻译等领域。此外,AHR作为一个关键工具,可使图像可搜索化,增强信息检索能力,并实现无缝编辑。这一功能显著减少了阿拉伯数据组织和处理等任务所需的时间和工作量。
论文链接: https://arxiv.org/pdf/2406.15329
cs.AI: Grants4Companies: 在奥地利公共管理部门中应用声明性方法进行推荐和推理商业补助(系统描述)
原标题: Grants4Companies: Applying Declarative Methods for Recommending and Reasoning About Business Grants in the Austrian Public Administration (System Description)
作者: Björn Lellmann, Philipp Marek, Markus Triska
机构: 奥地利财政部 奥地利联邦数据中心 GmbH
摘要: 我们描述了支持应用程序Grants4Companies的方法和技术。该应用程序使用基于逻辑的专家系统来显示适合登录企业的商业补助列表。为了评估补助的适用性,将其条件的形式化表示与从奥地利公共行政注册中获取的企业属性进行评估。用于补助条件表示的逻辑语言基于S表达式。我们进一步描述了对形式化补助条件进行推理的概念验证实现。概念验证是用Common Lisp实现的,并与在Scryer Prolog中实现的推理引擎接口。该应用程序最近已上线,并作为奥地利联邦财政部的业务服务门户的一部分提供。
论文链接: https://arxiv.org/pdf/2406.15293
cs.AI: V-RECS,一个低成本的带解释、字幕和建议的大语言模型推荐系统
原标题: V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions
作者: Luca Podo, Marco Angelini, Paola Velardi
摘要: NL2VIS(自然语言到可视化)是一个前景广阔且最近的研究领域,涉及解释自然语言查询并将其转化为准确表示基础数据的可视化。随着大数据时代的到来,NL2VIS 具有相当大的应用潜力,因为它极大地方便了非专业用户的数据探索。随着生成式人工智能在 NL2VIS 应用中的日益广泛使用,本文介绍了 V-RECS,这是第一个基于大语言模型的可视化推荐系统,增强了解释(E)、字幕(C)和进一步数据探索的建议(S)。V-RECS 的可视化叙述有助于非专业用户进行响应验证和数据探索。此外,我们提出的解决方案通过利用一种有效微调小模型的方法,缓解了使用强大的大语言模型所带来的计算、可控性和成本问题。为了生成富有洞见的可视化叙述,我们使用了 Chain-of-Thoughts(CoT),这是一种提示工程技术,帮助大语言模型识别和生成产生正确答案的逻辑步骤。由于 CoT 在小型大语言模型上表现不佳,我们采用了一种策略,即一个大型大语言模型(GPT-4)充当教师,生成基于 CoT 的指令来微调一个小模型,Llama-2-7B,它扮演学生的角色。基于对 AI 可视化的定量评估框架和一组参与者的手动评估的广泛实验表明,V-RECS 在较低成本下实现了与 GPT-4 相当的性能得分。V-RECS 的师生范式的有效性也通过未经微调的 Llama 在绝大多数测试案例中无法执行任务来证明。我们向可视化社区发布 V-RECS,以协助可视化设计师在整个可视化生成过程中。
论文链接: https://arxiv.org/pdf/2406.15259
cs.AI: MantisScore: 构建用于模拟视频生成中精细人类反馈的自动度量标准
原标题: MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
作者: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
机构: 滑铁卢大学 清华大学 Stardust.AI 多伦多大学 AI2
摘要: 最近几年,视频生成取得了巨大的进展。然而,自动生成视频质量评估指标的发展明显滞后。目前没有任何现有的指标能够可靠地评估生成的视频。主要障碍是缺乏大规模的人工标注数据集。在本文中,我们发布了VideoFeedback,这是第一个包含人工提供的对11个现有视频生成模型的37.6K个合成视频的多方面评分的大规模数据集。我们基于VideoFeedback训练了MantisScore(从Mantis初始化),以实现自动视频质量评估。实验证明,MantisScore与人类之间的Spearman相关性在VideoFeedback-test上可以达到77.1,比先前最佳指标高出约50个点。在其他保留的EvalCrafter、GenAI-Bench和VBench上的进一步结果表明,MantisScore与人类评委的相关性始终比其他指标高得多。基于这些结果,我们相信MantisScore可以作为人工评分者的良好代理,用于(1)评估不同的视频模型以跟踪进展,(2)在强化学习中模拟细粒度的人类反馈,以改进当前的视频生成模型。
论文链接: https://arxiv.org/pdf/2406.15252
cs.AI: 大语言模型(LLM)对历史学问题的响应能力评估
原标题: Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d’historiens
作者: Mathieu Chartier, Nabil Dakkoune, Guillaume Bourgeois, Stéphane Jean
机构: CRIHAM, 波尔图大学 LIAS, ISAE-ENSMA
摘要: 大语言模型(LLMs)如ChatGPT或Bard已经彻底改变了信息检索,并以其在记录时间内生成定制响应的能力而吸引了观众的注意,而不管话题是什么。在本文中,我们评估了各种LLMs在用法语产生可靠、全面和足够相关的历史事实响应方面的能力。为了实现这一目标,我们构建了一个包含多种类型、主题和难度级别的历史相关问题的测试平台。我们对十个选定的LLMs的响应进行评估,发现了在内容和形式上的许多不足之处。除了总体的准确率不足之外,我们还强调了对法语的不均匀处理,以及LLMs提供的响应中的冗长和不一致性问题。
论文链接: https://arxiv.org/pdf/2406.15173
cs.AI: 高斯飞溅与液体网络在现实世界飞行导航转移中的应用
原标题: Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
作者: Alex Quach, Makram Chahine, Alexander Amini, Ramin Hasani, Daniela Rus
机构: 麻省理工学院 MIT
摘要: 模拟器是自主机器人学习的强大工具,因为它们提供可扩展的数据生成、灵活的设计和轨迹优化。然而,将从模拟数据中学到的行为转移到现实世界中往往很困难,通常需要使用计算密集型的领域随机化方法或进一步的模型微调来缓解这一问题。我们提出了一种方法,用于改进在模拟到真实的视觉四旋翼导航任务中的泛化能力和对分布转移的鲁棒性。为此,我们首先通过将高斯光斑与四旋翼飞行动力学相结合来构建模拟器,然后使用Liquid神经网络训练鲁棒的导航策略。通过这种方式,我们获得了一种全栈模仿学习协议,结合了3D高斯光斑辐射场渲染的进展、专家演示训练数据的巧妙编程以及Liquid网络的任务理解能力。通过一系列定量飞行测试,我们展示了在单一模拟场景中学到的导航技能如何直接转移到现实世界,并且在极端分布和物理环境变化下保持性能。我们进一步展示了在仅在逼真的模拟室内飞行中策划的单一目标机动训练数据上训练的Liquid策略如何泛化到户外真实硬件平台上的多步行走。
论文链接: https://arxiv.org/pdf/2406.15149
cs.AI: 基于梯度特征融合的小波引导注意力模块用于皮肤癌分类
原标题: A Wavelet Guided Attention Module for Skin Cancer Classification with Gradient-based Feature Fusion
作者: Ayush Roy, Sujan Sarkar, Sohom Ghosal, Dmitrii Kaplun, Asya Lyanova, Ram Sarkar
机构: 贾达普尔大学 国际信息技术学院 中国矿业大学 圣彼得堡电气技术大学
摘要: 皮肤癌是一种非常危险的癌症类型,需要经验丰富的医生进行准确诊断。为了帮助医生更有效地诊断皮肤癌,计算机辅助诊断(CAD)系统可以非常有帮助。在本文中,我们提出了一种新颖的模型,该模型使用新颖的注意机制来准确定位病变的空间维度和对称性的差异,从而聚焦于基于对称性、纹理和颜色均匀性等的各种类别的差异。此外,为了考虑不同类别病变边界的变化,我们采用基于梯度的小波和软注意力辅助特征的融合来提取皮肤病变的边界信息。我们在名为 HAM10000 的多类别和高度类别不平衡的数据集上测试了我们的模型,并取得了令人满意的结果,F1 分数为 91.17%,准确率为 90.75%。代码可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2406.15128
Github: https://github.com/AyushRoy2001/WAGF-Fusion
cs.AI: 在资源约束下使用数据提炼进行语音情感识别
原标题: Speech Emotion Recognition under Resource Constraints with Data Distillation
作者: Yi Chang, Zhao Ren, Zhonghao Zhao, Thanh Tam Nguyen, Kun Qian, Tanja Schultz, Björn W. Schuller
机构: 伦敦帝国学院 GLAM语言、音频和音乐小组 德国不来梅大学认知系统实验室 中国北京理工大学医学技术学院 澳大利亚格里菲斯大学 慕尼黑工业大学健康信息学主席 (MRI)
摘要: 语音情感识别(SER)在人机交互中起着至关重要的作用。物联网(IoT)中边缘设备的出现,由于内存和计算资源的限制,构建复杂的深度学习模型面临挑战。此外,情感语音数据通常包含私人信息,因此在部署SER模型时会引发隐私泄露的担忧。为了解决这些挑战,我们提出了一个数据蒸馏框架,以促进在IoT应用中利用合成的、更小、经过蒸馏的数据集高效开发SER模型。我们的实验表明,经过蒸馏的数据集可以有效用于训练具有固定初始化的SER模型,其性能可与使用原始完整情感语音数据集开发的模型相媲美。
论文链接: https://arxiv.org/pdf/2406.15119
cs.AI: FA-Net:一种用于胸部X射线片肺炎检测的模糊注意力辅助深度神经网络
原标题: FA-Net: A Fuzzy Attention-aided Deep Neural Network for Pneumonia Detection in Chest X-Rays
作者: Ayush Roy, Anurag Bhattacharjee, Diego Oliva, Oscar Ramos-Soto, Francisco J. Alvarez-Padilla, Ram Sarkar
机构: 贾达普尔大学 印度 卡尔卡塔
Kalinga工业技术学院 印度 布巴内斯瓦尔
瓜达拉哈拉大学CUCEI 墨西哥
Jadavpur大学 印度 卡尔卡塔
摘要: 肺炎是由细菌、真菌或病毒引起的呼吸道感染。它影响许多人,特别是那些生活在污染严重、卫生条件不佳、人口过密和医疗基础设施不足的发展中国家或不发达国家的人群。肺炎可能导致胸膜积液,使肺部充满液体,导致呼吸困难。早期诊断对确保有效治疗和提高存活率至关重要。胸部X射线成像是诊断肺炎最常用的方法。然而,对胸部X射线的视觉检查可能会很困难且主观。在这项研究中,我们开发了一个计算机辅助诊断系统,用于使用胸部X射线图像自动检测肺炎。我们分别将DenseNet-121和ResNet50作为二元类(肺炎和正常)和多类(细菌性肺炎、病毒性肺炎和正常)分类任务的骨干。我们还实现了一种通道特定的空间注意机制,称为模糊通道选择性空间注意模块(FCSSAM),以突出相关通道的特定空间区域,同时通过骨干去除提取特征的无关通道。我们在一个公开可用的胸部X射线数据集上评估了所提出的方法,使用二元和多类分类设置。我们的提出方法在二元和多类分类设置上分别实现了97.15%和79.79%的准确率。我们提出方法的结果优于最先进的方法。所提出模型的代码将在此 https URL 上提供。
论文链接: https://arxiv.org/pdf/2406.15117
Github: https://github.com/AyushRoy2001/FA-Net
cs.AI: 一种双重注意力辅助的DenseNet-121用于从眼底图像中分类青光眼
原标题: A Dual Attention-aided DenseNet-121 for Classification of Glaucoma from Fundus Images
作者: Soham Chakraborty, Ayush Roy, Payel Pramanik, Daria Valenkova, Ram Sarkar
机构: 贾达普尔大学 圣彼得堡电气技术大学 LETI
摘要: 深度学习和计算机视觉方法如今在眼科领域被广泛使用。在本文中,我们提出了一种基于注意力辅助的DenseNet-121模型,用于从眼底图像中对正常眼和青光眼眼进行分类。它包括卷积块注意力模块,用于突出DenseNet-121提取的相关空间和通道特征。通道重校准模块通过利用边缘信息以及空间维度的统计特征进一步丰富了特征。在实验中,我们使用了两个标准数据集,即RIM-ONE和ACRIMA。我们的方法显示出比最先进模型更优越的结果。我们还进行了消融研究,以展示每个组件的有效性。所提出的工作代码可在此https URL找到。
论文链接: https://arxiv.org/pdf/2406.15113
Github: https://github.com/Soham2004GitHub/DADGC
cs.AI: 通过模拟出生和死亡来模拟食物和运动行为的奖励演变
原标题: Evolution of Rewards for Food and Motor Action by Simulating Birth and Death
作者: Yuji Kanagawa, Kenji Doya
机构: 冲食物和运动行为奖励的演化:模拟出生和死亡
官川雄二和土屋健司
沖绳科学技术大学,日本
摘要: 奖励系统是动物行为的基本驱动因素之一,对于生存和繁殖至关重要。尽管其重要性,奖励系统的演化问题尚未得到充分探讨。在本文中,我们尝试复制生物学上合理的奖励函数的演化,并研究环境条件如何影响演化奖励的形态。为此,我们开发了一个基于人口的分散式进化模拟框架,其中代理人维持其能量水平以延长寿命并生育更多后代。每个代理人从其父代继承其奖励函数,经过突变,并在其一生中通过强化学习学习获取奖励。我们的结果表明,对于食物获取的生物合理的正奖励和对于运动行为的负奖励可以从随机初始化的奖励中演化出来。然而,我们还发现运动行为的奖励分为两种模式:主要为正值和略微为负值。正运动行为奖励的出现令人惊讶,因为它可能使代理人过于活跃并且在觅食方面效率低下。在食物贫乏和有毒食物的环境中,对于不太重要食物的奖励的演化往往不稳定,而对于正常食物的奖励仍然稳定。这些结果展示了我们模拟环境和能量依赖的出生和死亡模型对于进一步研究奖励系统起源的有用性。
论文链接: https://arxiv.org/pdf/2406.15016
cs.AI: 介绍了青光眼中生物力学与功能关系:从眼内压力诱导的神经组织应变改善了视野损失的预测
原标题: Introducing the Biomechanics-Function Relationship in Glaucoma: Improved Visual Field Loss Predictions from intraocular pressure-induced Neural Tissue Strains
作者: Thanadet Chuangsuwanich, Monisha E. Nongpiur, Fabian A. Braeu, Tin A. Tun, Alexandre Thiery, Shamira Perera, Ching Lin Ho, Martin Buist, George Barbastathis, Tin Aung, Michaël J.A. Girard
机构: 新加坡国立大学杨路林医学院 新加坡
新加坡眼科研究所 新加坡国立眼科中心 Singapo
摘要: 目标:(1)评估神经组织结构和生物力学是否能预测青光眼的功能损失;(2)评估生物力学在进行此类预测中的重要性。设计、设置和参与者:我们招募了238名青光眼患者。对每位受试者的一只眼睛,我们使用光学相干断层扫描(OCT)成像了视神经头(ONH),条件分别为:(1)主视线和(2)主视线下急性眼内压升高。主要结果:我们利用视神经头(ONH)组织的自动分割和数字体积相关(DVC)分析来计算眼内压(IOP)诱导的神经组织应变。我们采用鲁棒的几何深度学习方法,称为Point-Net,来从ONH结构和生物力学信息中预测完整的Humphrey 24-2模式标准偏差(PSD)图。对于每个PSD图中的每个点,我们预测它是否没有缺陷或PSD值低于5%。我们使用5倍交叉验证和F1分数来评估预测性能。我们比较了模型在包含IOP诱导应变和不包含时的性能,以评估生物力学对预测准确性的影响。结果:整合生物力学(IOP诱导的神经组织应变)和结构(组织形态和神经组织厚度)信息产生了一个显著更好的预测模型(F1分数:0.76±0.02),相对于仅依赖结构信息的模型,后者的F1分数显著较低为0.71±0.02(p < 0.05)。结论:我们的研究表明,整合生物力学数据可以显著提高视野损失预测的准确性。这突显了生物力学与功能关系在青光眼中的重要性,并暗示生物力学可能作为青光眼发展和进展的关键指标。
论文链接: https://arxiv.org/pdf/2406.14988