文章目录~
- 1.FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model
- 2.How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks?
- 3.COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation
- 4.ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models
- 5.Open-vocabulary Temporal Action Localization using VLMs
- 6.LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation
- 7.Text-to-Image Generation Via Energy-Based CLIP
- 8.AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding
- 9.VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition
- 10.Fluent and Accurate Image Captioning with a Self-Trained Reward Model
- 11.CogVLM2: Visual Language Models for Image and Video Understanding
- 12.Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning
- 13.Text-Enhanced Zero-Shot Action Recognition: A training-free approach
- 14.Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models
- 15.MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms
- 16.Evaluating the Energy Consumption of Machine Learning: Systematic Literature Review and Experiments
- 17.Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning
- 18.HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling
- 19.SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding
1.FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model
标题:FADE:使用大型视觉语言模型的少镜头/零镜头异常检测引擎
author:Yuanwei Li, Elizaveta Ivanova, Martins Bruveris
publish:13 pages, 2 figures, Accepted for BMVC 2024
date Time:2024-08-31
paper pdf:http://arxiv.org/pdf/2409.00556v1
摘要:
自动图像异常检测对于制造业的质量检测非常重要。通常的无监督异常检测方法是利用正常样本数据集为每个对象类别训练一个模型。然而,更现实的问题是零/少镜头异常检测,在这种情况下,只有零个或几个正常样本可用。这就给特定对象模型的训练带来了挑战。最近,大型基础视觉语言模型在各种下游任务中显示出强大的零镜头性能。虽然这些模型学习了视觉和语言之间的复杂关系,但它们并不是专门为异常检测任务设计的。在本文中,我们提出了 “少镜头/零镜头异常检测引擎”(FADE),该引擎利用视觉语言 CLIP 模型,并针对工业异常检测的目的对其进行了调整。具体来说,我们改进了语言引导的异常分割:1)通过调整 CLIP 来提取与语言更匹配的多尺度图像补丁嵌入;2)通过自动生成与工业异常检测相关的文本提示集合。3) 我们使用来自查询和参考图像的额外视觉引导来进一步改进零镜头和少镜头异常检测。在 MVTec-AD(和 VisA)数据集上,FADE 在异常分割方面的表现优于其他最先进的方法,零镜头像素-AUROC 为 89.6%(91.5%),单正常镜头像素-AUROC 为 95.4%(97.5%)。代码见 https://github.com/BMVC-FADE/BMVC-FADE。
2.How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks?
标题:文本提示的不同可解释性如何影响医学视觉语言零点任务?
author:Sicheng Wang, Che Liu, Rossella Arcucci
date Time:2024-08-31
paper pdf:http://arxiv.org/pdf/2409.00543v1
摘要:
医学视觉语言预训练(MedVLP)的最新进展通过利用大规模医学图像-文本对预训练,极大地增强了图像分类等零镜头医学视觉任务。然而,这些任务的性能可能会受到描述类别的文本提示差异的严重影响,这就要求 MedVLP 模型对不同的提示风格具有鲁棒性。然而,这种敏感性仍未得到充分探索。在这项工作中,我们首次系统地评估了三种广泛使用的 MedVLP 方法对 15 种不同疾病的各种提示的敏感性。为此,我们设计了六种独特的提示风格,以反映真实的临床场景,随后根据可解释性对其进行排序。我们的研究结果表明,所有接受评估的 MedVLP 模型在不同提示风格下的表现都不稳定,这表明它们缺乏鲁棒性。此外,模型的性能随着提示可解释性的增加而变化,这揭示了理解复杂医学概念的困难。这项研究强调了进一步开发 MedVLP 方法的必要性,以增强其对不同零点提示的稳健性。
3.COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation
标题:COSMo:关于开放集多目标领域适应性的 CLIP 演讲
author:Munish Monga, Sachin Kumar Giroh, Ankit Jha, Mainak Singha, Biplab Banerjee, Jocelyn Chanussot
publish:Accepted in BMVC 2024
date Time:2024-08-31
paper pdf:http://arxiv.org/pdf/2409.00397v1
摘要:
多目标域适应(MTDA)需要从单一源域学习域不变信息,并将其应用于多个未标记的目标域。然而,现有的 MTDA 方法主要侧重于解决视觉特征中的领域偏移问题,往往忽略了语义特征,难以处理未知类别,这就是所谓的开放集(Open-Set,OS)MTDA。虽然像 CLIP 这样的大规模视觉语言基础模型显示出了前景,但它们在 MTDA 方面的潜力在很大程度上仍未得到开发。本文介绍了 COSMo,这是一种通过源领域引导的提示学习来解决提示空间中的 MTDA 问题的新方法。通过利用特定领域的偏差网络以及针对已知和未知类别的单独提示,COSMo 可以有效地适应不同领域和类别的变化。据我们所知,COSMo 是第一种解决开放集多目标 DA(OSMTDA)问题的方法,它更真实地反映了真实世界的场景,同时解决了开放集和多目标 DA 的难题。COSMo 在三个具有挑战性的数据集上平均提高了 5.1 美元:与其他适用于 OSMTDA 环境的相关 DA 方法相比,COSMo 在 Mini-DomainNet 、Office-31 和 Office-Home 三个具有挑战性的数据集上平均提高了 5.1 美元。代码见:https://github.com/munish30monga/COSMo
4.ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models
标题:ContextVLM:利用视觉语言模型实现自动驾驶中的零镜头和少镜头语境理解
author:Shounak Sural, Naren, Ragunathan Rajkumar
publish:Accepted at the 27th IEEE International Conference on Intelligent
Transportation Systems (ITSC) 2024
date Time:2024-08-30
paper pdf:http://arxiv.org/pdf/2409.00301v1
摘要:
近年来,旨在提高交通系统安全性的自动驾驶汽车(AV)技术的开发明显增多。虽然在现实世界中已经在一定程度上部署了自动驾驶汽车,但全面部署要求自动驾驶汽车能够在大雨、大雪、低照明、施工区和隧道内 GPS 信号丢失等挑战中稳健导航。为了能够应对这些特定挑战,自动驾驶汽车必须可靠地识别其运行环境的物理属性。在本文中,我们将情境识别定义为准确识别环境属性以便自动驾驶汽车适当处理的任务。具体来说,我们定义了 24 种环境背景,涵盖了自动驾驶汽车必须了解的各种天气、照明、交通和道路状况。出于识别环境背景的需要,我们创建了一个名为 DrivingContexts 的背景识别数据集,其中包含 160 多万个与自动驾驶汽车相关的背景查询对。由于传统的有监督计算机视觉方法不能很好地扩展到各种情境,我们提出了一个名为 ContextVLM 的框架,该框架使用视觉语言模型,采用零镜头和少镜头方法检测情境。在我们的数据集上,ContextVLM 能够可靠地检测出相关的驾驶语境,准确率超过 95%,同时可在 AV 上的 4GB Nvidia GeForce GTX 1050 Ti GPU 上实时运行,每次查询的延迟时间为 10.5 毫秒。
5.Open-vocabulary Temporal Action Localization using VLMs
标题:使用 VLM 进行开放词汇时态动作定位
author:Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
publish:7 pages, 5 figures, 4 tables. Last updated on September 3rd, 2024
date Time:2024-08-30
paper pdf:http://arxiv.org/pdf/2408.17422v2
摘要:
视频动作定位的目的是从长视频中找出特定动作的时间。虽然现有的基于学习的方法取得了成功,但这些方法需要对视频进行注释,而注释工作需要耗费大量人力物力。本文提出了一种基于新兴现成视觉语言模型(VLM)的免学习、开放式词汇方法。所面临的挑战是,VLM 既不是为处理长视频而设计的,也不是为查找动作而量身定制的。我们通过扩展迭代视觉提示技术来克服这些问题。具体来说,我们将视频帧采样到带有帧索引标签的串联图像中,让 VLM 猜测最接近动作开始/结束的帧。通过缩小采样时间窗口来迭代这一过程,从而找到动作开始和结束的特定帧。我们展示了这种采样技术产生的合理结果,说明了 VLM 在理解视频方面的实用扩展。示例代码见 https://microsoft.github.io/VLM-Video-Action-Localization/。
6.LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation
标题:LSMS:用于医学图像参考分割的语言引导规模感知 MedSegmentor
author:Shuyi Ouyang, Jinyang Zhang, Xiangye Lin, Xilai Wang, Qingqing Chen, Yen-Wei Chen, Lanfen Lin
publish:14 pages, 5 figures
date Time:2024-08-30
paper pdf:http://arxiv.org/pdf/2408.17347v2
摘要:
人们发现,传统的医学图像分割方法不足以帮助医生识别特定病变,从而进行诊断和治疗。鉴于文本作为一种教学格式的实用性,我们引入了一项名为医学图像参照分割(MIRS)的新任务,该任务要求根据给定的语言表达分割图像中的特定病变。由于医学图像中的物体尺度各不相同,MIRS 需要强大的视觉语言建模和全面的多尺度交互,以便在语言指导下进行精确定位和分割。然而,现有的医学图像分割方法无法满足这些要求,导致分割精度不足。为此,我们提出了一种名为 “语言引导的尺度感知医学分割器”(LSMS)的方法,其中包含两个极具吸引力的设计:(1)一个尺度感知视觉语言注意模块,利用不同的卷积核获取丰富的视觉知识,并与语言特征紧密交互,从而增强病灶定位能力;(2)一个全尺度解码器,对不同尺度的多模态特征进行全局建模,捕捉尺度间的互补信息,从而准确勾勒出病灶边界。针对 MIRS 缺乏合适数据集的问题,我们构建了一个视觉语言医学数据集,名为参考肝脏病变分割(RefHL-Seg)。该数据集包括来自 231 个病例的 2,283 张腹部 CT 切片,以及相应的文本注释和图像中各种肝脏病变的分割掩膜。我们在各种数据集上验证了 LSMS 在 MIRS 和传统医学图像分割任务中的性能。我们的 LSMS 在所有数据集上都表现优异,而且计算成本更低。代码和数据集即将发布。
7.Text-to-Image Generation Via Energy-Based CLIP
标题:通过基于能量的 CLIP 生成文本到图像
author:Roy Ganz, Michael Elad
date Time:2024-08-30
paper pdf:http://arxiv.org/pdf/2408.17046v1
摘要:
联合能量模型(JEM)虽然在研究中备受关注,但尚未成功应用于真实世界的高分辨率数据集。我们提出了 EB-CLIP,这是一种利用 CLIP 将联合能量模型扩展到多模态视觉语言领域的新方法,同时整合了生成目标和判别目标。在生成目标方面,我们引入了基于 CLIP 空间余弦相似性的图像-文本联合能量函数,训练 CLIP 为真实的图像-字幕对分配低能量,反之则分配高能量。对于判别目标,我们采用了对比对抗损失,将对抗训练目标扩展到多模态领域。EB-CLIP 不仅能根据文本生成逼真的图像,还能在合成性基准测试中取得具有竞争力的结果,以更少的参数超越了其他领先方法。此外,我们通过增强基于 CLIP 的生成框架,并将无条件扩散模型转换为基于文本的模型,证明了 EB-CLIP 的卓越引导能力。最后,我们证明 EB-CLIP 可以作为文本到图像生成任务中比 CLIP 更稳健的评估指标。
8.AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding
标题:AdaptVision:用于多场景理解的 MLLM 中的动态输入缩放
author:Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li
date Time:2024-08-30
paper pdf:http://arxiv.org/pdf/2408.16986v1
摘要:
在过去几年中,多模态大型语言模型(MLLM)的发展引起了研究人员的广泛兴趣,并产生了许多创新技术来提高 MLLM 的理解能力。本文介绍的 AdaptVision 是一种多模态大型语言模型,专门用于动态处理不同分辨率的输入图像。我们假设,该模型所需的视觉标记数取决于输入图像的分辨率和内容。一般来说,信息密度较低的自然图像在分辨率降低的情况下,模型可以使用较少的视觉标记进行有效解读。相比之下,包含文本内容的图像,如文本内容丰富的文档,由于信息密度较高,需要更多的视觉标记来准确解读文本。基于这一认识,我们设计了一个动态图像分割模块,可根据图像的大小和长宽比调整视觉标记的数量。这种方法可减轻将图像大小调整为统一分辨率时产生的失真效应,并动态优化输入 LLM 的视觉标记。我们的模型能够处理分辨率高达 1008×1008 美元的图像。在各种数据集上进行的广泛实验表明,我们的方法在处理自然场景和文本相关场景中的视觉语言任务时都取得了令人印象深刻的性能。源代码和数据集现已在 \url{https://github.com/harrytea/AdaptVision} 上公开。
9.VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition
标题:VLM-KD:从 VLM 中提炼知识,用于长尾视觉识别
author:Zaiwei Zhang, Gregory P. Meyer, Zhichao Lu, Ashish Shrivastava, Avinash Ravichandran, Eric M. Wolff
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16930v1
摘要:
对于视觉识别而言,知识提炼通常涉及将知识从一个庞大的、训练有素的教师模型转移到一个较小的学生模型。在本文中,我们介绍了一种从现成的视觉语言模型(VLM)中提炼知识的有效方法,证明除了传统的纯视觉教师模型外,这种方法还能提供新颖的监督。我们的主要技术贡献在于开发了一个框架,该框架可生成新颖的文本监督,并将自由格式文本提炼到视觉编码器中。我们在各种基准数据集上展示了我们的方法(称为 VLM-KD)的有效性,表明它超越了几种最先进的长尾视觉分类器。据我们所知,这项工作是首次利用知识蒸馏和现成的 VLM 生成的文本监督,并将其应用于香草随机初始化视觉编码器。
10.Fluent and Accurate Image Captioning with a Self-Trained Reward Model
标题:利用自我训练的奖励模型流畅、准确地为图像添加字幕
author:Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
publish:ICPR 2024
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16827v1
摘要:
使用 CIDEr 指标等手工制作的奖励对图像字幕模型进行微调,一直是在序列级别提高字幕质量的经典策略。然而,众所周知,这种方法会限制描述性和语义的丰富性,往往会使模型趋向于地面实况句子的风格,从而失去细节和特异性。相反,最近尝试使用 CLIP 等图像-文本模型作为奖励,却导致了语法错误和重复的标题。在本文中,我们提出了 “自我字幕”(Self-Cap)这一字幕制作方法,该方法依赖于一个基于自我生成的否定句的可学习奖励模型,该模型可根据字幕与图像的一致性对字幕进行判别。具体来说,我们的判别器是一个经过微调的图像-文本对比模型,经过训练可提高字幕的正确性,同时避免在使用基于 CLIP 的奖励进行训练时通常会出现的畸变。为此,我们的判别器直接纳入了来自冻结字幕机的负样本,这不仅显著提高了生成字幕的质量和丰富度,而且与使用 CIDEr 分数作为唯一优化指标相比,还减少了微调时间。实验结果证明了我们的训练策略在标准和零镜头图像字幕数据集上的有效性。
11.CogVLM2: Visual Language Models for Image and Video Understanding
标题:CogVLM2:图像和视频理解视觉语言模型
author:Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16500v1
摘要:
从 VisualGLM 和 CogVLM 开始,我们不断探索视觉语言模型,以追求增强的视觉语言融合、高效的高分辨率架构以及更广泛的模式和应用。在此,我们提出了 CogVLM2 系列,这是用于图像和视频理解的新一代视觉语言模型,包括 CogVLM2、CogVLM2-Video 和 GLM-4V。作为图像理解模型,CogVLM2 继承了视觉专家架构,并在预训练和后训练阶段改进了训练配方,支持高达 1344 美元/次 1344 美元像素的输入分辨率。作为一个视频理解模型,CogVLM2-Video 整合了带有时间戳的多帧输入,并提出了自动时基数据构建。值得注意的是,CogVLM2 系列在 MMBench、MM-Vet、TextVQA、MVBench 和 VCGBench 等基准测试中取得了一流的成绩。所有模型都开源于 https://github.com/THUDM/CogVLM2 和 https://github.com/THUDM/GLM-4,为该领域的发展做出了贡献。
12.Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning
标题:通过测试时间提示调整使视觉语言模型适应公开课
author:Zhengqing Gao, Xiang Ao, Xu-Yao Zhang, Cheng-Lin Liu
publish:PRCV 2024
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16486v1
摘要:
将预先训练好的模型适用于开放类别是机器学习中一个具有挑战性的问题。视觉语言模型充分挖掘了文本模态的知识,表现出强大的零点识别性能,自然适用于各种开放集问题。最近,一些研究集中于根据下游任务对这些模型进行微调。即时调整方法通过在少量数据上学习上下文向量,取得了巨大的改进。然而,通过在包含新类别的测试数据的开放集适应设置下进行评估,我们发现存在这样一种困境,即学习的提示语比手工创建的提示语具有更差的泛化能力。在本文中,我们考虑将两者的优势结合起来,提出了一种测试时间提示调整方法,该方法利用最大概念匹配(MCM)得分作为动态权重,在测试过程中为每张图像生成输入条件提示。通过在 11 个不同的数据集上进行广泛的实验,我们表明,考虑到基础类和新类,我们提出的方法平均优于所有比较方法。代码见 https://github.com/gaozhengqing/TTPT
13.Text-Enhanced Zero-Shot Action Recognition: A training-free approach
标题:文本增强型零镜头动作识别:无需训练的方法
author:Massimo Bosetti, Shibingfeng Zhang, Bendetta Liberatori, Giacomo Zara, Elisa Ricci, Paolo Rota
publish:accepted to ICPR 2024
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16412v1
摘要:
视觉语言模型(VLM)利用视觉和文本表征的联合学习,在各种视觉任务中表现出了卓越的性能。虽然这些模型在零镜头图像任务中表现出色,但由于动作的动态性和时间性,它们在零镜头视频动作识别(ZSVAR)中的应用仍然充满挑战。现有的零镜头视频动作识别(ZSVAR)方法通常需要在特定的数据集上进行大量的训练,这可能是资源密集型的,而且可能会引入领域偏差。在这项工作中,我们提出了文本增强动作识别(TEAR),这是一种简单的 ZS-VAR 方法,无需训练,也不需要训练数据或大量计算资源。从视觉和语言文献的最新研究成果中汲取灵感,我们利用动作描述符进行分解,并利用上下文信息来增强零镜头动作识别。通过在 UCF101、HMDB51 和 Kinetics-600 数据集上的实验,我们展示了我们提出的方法在应对 ZS-VAR 挑战方面的有效性和适用性。
14.Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models
标题:在多模态大语言模型兴起的时代,重新思考图像检索中的稀疏词性表示法
author:Kengo Nakata, Daisuke Miyashita, Youyang Ng, Yasuto Hoshi, Jun Deguchi
publish:Accepted to ECCV 2024 Workshops: 2nd Workshop on Traditional Computer
Vision in the Age of Deep Learning (TradiCV)
date Time:2024-08-29
paper pdf:http://arxiv.org/pdf/2408.16296v1
摘要:
在本文中,我们重新思考了用于图像检索的稀疏词汇表示法。通过利用支持视觉提示的多模态大语言模型(M-LLM),我们可以提取图像特征并将其转换为文本数据,从而使我们能够在图像检索任务中利用自然语言处理中采用的高效稀疏检索算法。为了帮助 LLM 提取图像特征,我们采用了数据增强技术来扩展关键字,并利用图像和文本数据之间的相关性指标来分析其影响。在基于关键字的图像检索场景中(关键字可作为搜索查询),我们在 MS-COCO、PASCAL VOC 和 NUS-WIDE 数据集上实证展示了与传统的基于视觉语言模型的方法相比,我们的图像检索方法具有更高的精确度和召回率。我们还证明,通过在搜索查询中反复加入关键词,可以提高检索性能。
15.MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms
标题:MambaPlace:利用注意力曼巴机制进行文本到点云跨模态地点识别
author:Tianyi Shang, Zhenyu Li, Wenhao Pei, Pengjie Xu, ZhaoJun Deng, Fanchen Kong
publish:8 pages
date Time:2024-08-28
paper pdf:http://arxiv.org/pdf/2408.15740v1
摘要:
视觉语言地点识别(VLVPR)通过结合图像中的自然语言描述来提高机器人定位性能。通过利用语言信息,VLVPR 引导机器人进行地点匹配,克服了仅依赖视觉的限制。多模态融合的本质在于挖掘不同模态之间的互补信息。然而,一般的融合方法依赖于传统的神经架构,并不能很好地捕捉跨模态交互的动态,尤其是在模态内和模态间存在复杂关联的情况下。为此,本文提出了一种新颖的从粗到细、从头到尾的跨模态地点识别框架,称为 MambaPlace。在粗定位阶段,文本描述和三维点云分别由预训练的 T5 编码器和实例编码器进行编码。然后使用文本关注 Mamba(TAM)和点云 Mamba(PCM)对它们进行数据增强和对齐处理。在随后的精细定位阶段,文本描述和三维点云的特征将通过级联交叉注意力 Mamba(CCAM)进行交叉模态融合和进一步增强。最后,我们根据融合后的文本点云特征来预测位置偏移,从而实现最精确的定位。广泛的实验表明,与最先进的方法相比,MambaPlace 在 KITTI360Pose 数据集上实现了更高的定位精度。
16.Evaluating the Energy Consumption of Machine Learning: Systematic Literature Review and Experiments
标题:评估机器学习的能耗:系统文献综述与实验
author:Charlotte Rodriguez, Laura Degioanni, Laetitia Kameni, Richard Vidal, Giovanni Neglia
publish:52 pages,
date Time:2024-08-27
paper pdf:http://arxiv.org/pdf/2408.15128v1
摘要:
监控、了解和优化机器学习(ML)的能源消耗是评估 ML 能源使用情况的必要原因。然而,目前还没有一种通用工具可以回答所有用例的这一问题,甚至在如何评估特定用例的能耗方面也可能存在分歧。工具和方法基于不同的方法,每种方法都有自己的优点和缺点,需要对它们进行规划和解释,以便为特定情况选择最合适的方法。我们通过两种方法来应对这一挑战。首先,我们对所有可以评估 ML(训练和推理)能耗的工具和方法进行了系统的文献综述,无论这些工具和方法最初是为机器学习设计的还是为通用软件设计的。其次,我们制定并使用了一个实验方案,对这些工具和方法中的一部分进行比较。我们对一系列不同性质(视觉、语言)和计算复杂度的机器学习任务进行了定性和定量比较。系统性的文献综述为了解用于评估人工智能能耗的一系列工具和方法提供了全面指导,这些工具和方法适用于从基本能源监控到能耗优化的各种用例。我们还提供了两个开源资源库供进一步探索。第一个资源库包含可用于复制这项工作或扩展当前评论的工具。第二个资源库包含实验协议,允许用户使用新的 ML 计算任务和额外的能源评估工具来增强该协议。
17.Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning
标题:化学特性预测的跨模式学习:大型语言模型与图谱机器学习的结合
author:Sakhinana Sagar Srinivas, Venkataramana Runkana
publish:Paper Accepted at Workshop on Robustness of Few-shot and Zero-shot
Learning in Foundation Models at NeurIPS 2023
date Time:2024-08-27
paper pdf:http://arxiv.org/pdf/2408.14964v1
摘要:
在化学领域,我们的目标是创造出具有所需特性的新型分子,为材料设计和药物筛选等应用提供准确的特性预测。然而,现有的图深度学习方法面临着限制其表达能力的局限性。为了解决这个问题,我们探索将大型语言模型(LLM)中的大量分子领域知识与图神经网络(GNN)的互补优势进行整合,以提高性质预测任务的性能。我们引入了一个多模态融合(MMF)框架,它能协同利用 GNN 的分析能力和 LLM 的语言生成和预测能力,从而提高分子特性预测的准确性和鲁棒性。我们的框架将 GNN 在图结构数据建模方面的有效性与 LLM 的零点学习和少点学习能力相结合,在降低过拟合风险的同时改进了预测。此外,我们的方法还有效地解决了分布偏移这一现实世界应用中的常见难题,并展示了跨模式表征学习的功效,在属性预测任务的基准数据集上超越了最先进的基线。
18.HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling
标题:HPT++:多粒度知识生成和改进结构建模的分层提示视觉语言模型
author:Yubin Wang, Xinyang Jiang, De Cheng, Wenli Sun, Dongsheng Li, Cairong Zhao
publish:19 pages, 7 figures, 7 tables. arXiv admin note: substantial text
overlap with arXiv:2312.06323
date Time:2024-08-27
paper pdf:http://arxiv.org/pdf/2408.14812v1
摘要:
提示学习已成为视觉语言基础模型(VLM)(如 CLIP)适应下游任务的普遍策略。随着大型语言模型(LLM)的出现,最近的研究探索了使用类别相关描述来提高提示效果的潜力。然而,传统的描述缺乏必要的明确结构化信息,无法体现实体或属性等关键要素与特定类别之间的相互联系。由于现有的提示调整方法很少考虑结构化知识的管理,因此本文主张利用 LLM 为每个描述构建一个图,以优先处理此类结构化知识。因此,我们提出了一种名为 “分层提示调整”(Hierarchical Prompt Tuning,HPT)的新方法,可同时对结构化知识和传统语言知识进行建模。具体来说,我们引入了一个关系引导的关注模块,以捕捉实体和属性之间的成对关联,从而实现低层次的提示学习。此外,通过将高层次和全局层次的提示纳入整体语义建模,所提出的分层结构形成了跨层次的相互联系,并使模型能够处理更复杂和长期的关系。最后,通过加强多粒度知识生成、重新设计关系驱动的注意力再权重模块以及在分层文本编码器中加入一致的约束条件,我们提出了 HPT++,它进一步提高了 HPT 的性能。我们的实验在广泛的评估环境中进行,包括从基础到新泛化、跨数据集评估和领域泛化。广泛的结果和消融研究证明了我们方法的有效性,我们的方法始终优于现有的 SOTA 方法。
19.SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding
标题:SynthDoc:用于可视化文档理解的双语文档合成
author:Chuanghao Ding, Xuejing Liu, Wei Tang, Juan Li, Xiaoliang Wang, Rui Zhao, Cam-Tu Nguyen, Fei Tan
date Time:2024-08-27
paper pdf:http://arxiv.org/pdf/2408.14764v1
摘要:
本文介绍了 SynthDoc,这是一种新颖的合成文档生成管道,旨在通过生成包括文本、图像、表格和图表在内的高质量、多样化数据集来增强可视化文档理解(VDU)。SynthDoc 利用公开可用的语料库和先进的渲染工具,创建了一个全面、多用途的数据集,从而解决了数据采集的难题和现有数据集的局限性。我们使用 Donut 模型进行的实验表明,使用 SynthDoc 数据训练的模型在预训练阅读任务中表现出色,并在下游任务中保持稳健性,尽管存在语言不一致的问题。由 5000 个图像-文本对组成的基准数据集的发布不仅展示了管道的能力,还为 VDU 社区提供了宝贵的资源,以推动文档图像识别的研究和开发。这项工作为数据稀缺问题提供了可扩展的解决方案,并验证了端到端模型在解析复杂的真实世界文档时的有效性,从而为该领域做出了重大贡献。