我自己的原文哦~ https://blog.51cto.com/whaosoft/12707697
#Time Travelling Pixels (TTP)
一种名为“时空旅行”(TTP)的新方法,该方法将SAM基础模型的通用知识整合到变化检测任务中。该方法有效地解决了在通用知识转移中的领域偏移问题,以及大模型在表达多时相图像同质性和异质性特征时的挑战。基于大模型的遥感图像变化检测
“Time Travelling Pixels: Bitemporal Features Integration with Foundation Model for Remote Sensing Image Change Detection”(时空旅行:基于大模型双时相特征融合的遥感图像变化检测)
Paper: https://arxiv.org/abs/2312.16202
Code: https://github.com/KyanChen/TTP
变化检测是遥感领域的一个重要研究领域,对于观察和分析地表变化起着关键作用。尽管基于深度学习的方法在该领域取得了显著的成果,但在时空复杂的遥感场景中执行高精度的变化检测仍然是一个重大挑战。最近流行的基础模型,凭借其强大的通用能力和泛化能力,为该问题提供了潜在的解决方案。然而,如何弥补不同数据域和任务域之间的鸿沟仍然是一个挑战。在本文中,作者介绍了一种名为“时空旅行”(TTP)的新方法,该方法将SAM基础模型的通用知识整合到变化检测任务中。该方法有效地解决了在通用知识转移中的领域偏移问题,以及大模型在表达多时相图像同质性和异质性特征时的挑战。在LEVIR-CD上取得的SOTA结果证明了TTP的有效性。
随着对地观测技术的发展,遥感图像变化检测已经成为该领域研究的前沿和热点。其主要目标是分析多时相遥感产品中感兴趣的变化,这些变化通常表现为像素级的二元分类(变化/未变化)。遥感地面的动态属性不仅受自然因素的影响,也受人类活动的影响。精确感知这些变化对于土地覆盖的定量分析具有极其重要的意义,可以作为描绘宏观经济趋势、人类活动和气候变化的有力工具。
高分辨率遥感图像已经成为复杂变化检测的有力工具。然而,在复杂场景中执行稳健的变化检测仍然是一个艰巨的挑战。变化检测聚焦“非语义变化”中的“有效变化”,即,由大气条件、遥感器、配准等引起的非语义变化,以及与下游应用无关的语义变化都应该被忽略。这对开展精准的变化检测任务提出了相当大的挑战。深度学习技术在变化检测领域取得了显著的进步。例如,基于CNN的算法可以通过其强大的特征提取能力揭示变化区域的稳健特征,从而在各种复杂场景中取得了令人印象深刻的性能。最近,基于Transformer的方法进一步加速了这个领域的发展,Transformer可以捕捉整个图像中的长距离依赖关系,赋予模型全局感受野,为需要高级语义知识的任务(如变化检测)开辟了新的途径。尽管这些方法取得了显著的成功,但它们在复杂和不断变化的时空环境中的适应性仍然距离实际应用有相当大的距离。此外,随着模型规模的扩大,变化检测有限的标注数据也显著限制了这些模型的潜力。虽然自监督表示学习和模拟数据生成等取得了一些进展,但它们仍然无法完全覆盖由时空变化引起的遥感图像场景的多样性。也无法推动大参数模型在不同场景中的性能。
基础模型强大的通用性和适应性已经得到了证明。这些模型在大量数据上进行训练,从而获得了通用的知识和表示。视觉领域的基础模型,如CLIP和SAM,已经被研究人员广泛研究和利用。这些模型是大量通用知识的存储库,可以进行跨领域的转移和共享,能够大大减少特定任务标注数据的需求。然而,当前的视觉基础模型主要是为自然图像设计的,这些模型用于遥感图像变化检测任务时会产生领域差异。此外,大多数视觉基础模型擅长理解单个图像,在提取多个图像同质性和异质性特征的方面表现不佳,特别是当图像中发生显著变化时,而这种能力对于变化检测来说是至关重要的。
本文将视觉基础模型的通用知识融入到变化检测任务中。该方法克服了在知识转移过程中遇到的领域偏移问题,以及表达多时相图像的同质性和异质性特征的挑战。文中引入了一种名为“时空旅行”(TTP)的方法,该方法将时相信息无缝地集成到像素语义特征空间中。具体来说,TTP利用了SAM模型的通用分割知识,并将引入低秩微调参数到SAM主干中来缓解空间语义的领域偏移。此外,TTP提出了一个时间旅行激活门,允许时相特征渗透到像素语义空间,从而赋予基础模型理解双时相图像之间的同质性和异质性特征的能力。最后,文中设计了一个轻量高效的多层级变化预测头来解码密集的高级变化语义特征。该方法为开展准确高效的遥感图像变化检测铺平了道路。
1)作者通过将基础模型的通用潜在知识转移到变化检测任务,解决了注释数据不足的问题。在文章中,通过引入时间旅行像素(TTP)来弥补知识转移过程中的时空领域差距。
2)具体来说,作者引入了低秩微调以缓解空间语义的领域偏移,提出了一个时间旅行激活门以增强基础模型识别图像间相关性的能力,并设计了一个轻量高效的多层级预测头来解码基础模型中封装的密集语义信息。
3)作者在LEVIR-CD数据集上将提出的方法与各种先进的方法进行了比较。结果表明,该方法达到了最先进的性能,突显了其有效性和进一步应用的潜力。
方法
Overview
为了减轻变化检测的注释需求,本文利用了从基础模型转移过来的通用知识。作者利用SAM的通用分割能力来构建一个变化检测网络,即TTP。TTP主要由三个部分组成:基于低秩微调的基础模型主干;插入双时相图像特征间的时间旅行激活门;以及一个高效的多层级解码头。其结构如图1所示。
Efficient Fine-tuning of Foundation Model
SAM的主干由Transformer编码器组成,可以分为base版、large版和huge版,分别对应12层、24层和32层。为了提高计算效率,主干中的大部分Transformer层使用局部注意力,只有四层使用全局注意力。在本文中利用预训练的视觉主干,保持其参数处于冻结状态,以加速适应下游任务。为了弥补自然图像和遥感图像领域之间的差距,在多头注意力层中引入了低秩可训练参数,如下式所示,
Time-traveling Activation Gate
当前的视觉基础模型擅长理解单个图像的内容,在提取图像间的特征时表现不佳。然而,在变化检测中,专注于双时相图像中的“有效差异”而忽略“无关差异”是至关重要的。为了解决这个问题,文中引入了时间旅行激活门,它促进了时相特征流入像素特征的语义空间。这使基础模型能够理解双时相图像中的变化,并关注“有效变化”。为了提高效率,只在主干中的全局注意力层后加入激活门,按照下面的公式来整合双时相信息,
Multi-level Decoding Head
遥感图像的场景多样,地物的尺度存在显著变化。然而,基于ViT的视觉编码器通常只生成单一尺度的特征图。尽管这些图包含了高级的全局语义信息,但如果没有多层级的解码头,它们的性能优势可能难以显现。为了解决这个问题,文中设计了一个轻量高效的多层级变化预测头。该头通过转置卷积上采样和最大池化下采样来构建多级特征。然后使用一个轻量级的MLP映射层来输出最终的变化概率图,
实验
作者在LEVIR-CD上进行了实验。为了评估性能,采用广泛认可交并比(IoU)、F1分数、精确度和召回率,以及总体准确度(OA)。
作者将提出的TTP与一系列最先进的变化检测方法进行了比较,包括FC-Siam-Di、DTCDSCN、STANet、SNUNet、BIT、ChangeFormer、ddpm-CD、WNet 和CSTSUNet。比较结果如表1所示,提出的TTP达到了最高的性能(92.1/85.6 F1/IoU),显著超过了当前的先进方法,如WNet(90.7/82.9)和CSTSUNet(90.7/83.0)。这表明了从基础模型转移通用知识可以增强变化检测,同时也验证了提出的转移方法的有效性。
如表1所示,当移除时间旅行门(ttg)和多级解码头(ml)时,性能会有所下降。此外,从基础模型中移除低秩微调参数会导致性能大幅下降。这些观察结果强调了本文提出的方法可以有效地弥补领域差距并增强时空理解。它们同时也验证了每个组件在变化检测任务中的有效性。
结论
本文通过将基础模型的通用知识融入变化检测任务,缓解了复杂时空遥感场景下模型难泛化的挑战。具体来说,作者引入了低秩微调来弥补自然图像和遥感图像之间的空间语义鸿沟,缓解了基础模型的局限性;提出了一个时间旅行激活门,使基础模型具有时相建模的能力。此外设计了一个多层级变化预测头来解码密集特征。在LEVIR-CD数据集上的实验结果表明了提出方法的有效性,该方法能在单卡4090上进行训练。
#腾讯优图实验室~论文4
AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。
AAAI 是美国人工智能协会主办的年会,同时也是人工智能领域中历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一。
今年,腾讯优图实验室共有27篇论文入选,内容涵盖表格结构识别、异常图像生成、医学图像分割等多个研究方向,展示了腾讯优图在人工智能领域的技术能力和学术成果。
以下为腾讯优图实验室入选论文概览:
01 抓取你所需:通过灵活组件重新思考复杂场景的表格结构识别
Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation
Hao Liu*, Xin Li*, Mingming Gong, Bing Liu, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Xing Sun
最近,表格结构识别任务,旨在将表格结构识别为机器可读格式,已经在社区中引起了越来越多的关注。尽管近来的研究取得了令人印象深刻的成功,但大多数基于单一表格组件的方法在受到不仅复杂的内部结构,还有外部捕获失真的干扰的不规则表格案例上表现不佳。在本文中,我们将其定义为复杂场景的表格结构识别问题,现有方法的性能退化归因于它们对组件的使用效率低下和冗余的后处理。为了缓解这个问题,我们将视角从表格组件提取转向有效利用多个组件。具体来说,我们提出了一种名为GrabTab的开创性方法,配备了新提出的组件审议器。得益于其渐进式审议机制,我们的GrabTab可以灵活地适应大多数复杂的表格,选择合理的组件,但不涉及复杂的后处理。在公开基准上的定量实验结果表明,我们的方法显著优于最先进的技术,尤其是在更具挑战性的场景下。
论文链接:
https://arxiv.org/abs/2303.09174
02 基于扩散的多类异常检测框架
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection
Haoyang He, Jiangning Zhang, Hongxu Chen, Xuhai Chen, Zhishan Li, Xu Chen, Yabiao Wang, Chengjie Wang, Lei Xie
基于重构的方法在异常检测中取得了显著的成果。近期流行的扩散模型的卓越图像重构能力激发了研究人员利用它们来增强异常图像的重构的研究努力。然而,这些方法可能面临与保持图像类别和像素级结构完整性在更实际的多类设置中的挑战。为了解决上述问题,我们提出了一个基于扩散的异常检测(DiAD)框架,用于多类别异常检测,该框架包括一个像素空间的自编码器,一个与稳定扩散的去噪网络相连的潜在空间的语义引导(SG)网络,以及一个特征空间的预训练特征提取器。首先,SG网络被提出用于重构异常区域,同时保留原始图像的语义信息。其次,我们引入了空间感知特征融合(SFF)块,以在处理大量重构区域时最大化重构精度。第三,输入和重构的图像由预训练的特征提取器处理,以根据在不同尺度上提取的特征生成异常图。在MVTec-AD和VisA数据集上的实验证明了我们的方法的有效性,它超越了最先进的方法,例如,在多类别MVTec-AD数据集上分别达到了96.8/52.6和97.2/99.0(AUROC/AP)的定位和检测效果。
论文链接:
https://lewandofskee.github.io/projects/diad/
https://arxiv.org/abs/2312.06607
03 基于扩散模型的少样本异常图像生成
AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model
Teng Hu, Jiangning Zhang, Ran Yi, Yuzhen Du, Xu Chen, Liang Liu, Yabiao Wang, Chengjie Wang
异常检查在工业制造中起着重要的作用。现有的异常检查方法由于异常数据不足而在性能上受到限制。尽管已经提出了异常生成方法来增加异常数据,但它们要么生成真实性差,要么生成的异常和掩模之间的对齐不准确。为了解决上述问题,我们提出了AnomalyDiffusion,这是一种新颖的基于扩散的少样本异常生成模型,它利用从大规模数据集中学习到的潜在扩散模型的强先验信息,以增强在少样本训练数据下的生成真实性。首先,我们提出了空间异常嵌入,它由一个可学习的异常嵌入和一个从异常掩模编码的空间嵌入组成,将异常信息解耦为异常外观和位置信息。此外,为了提高生成的异常和异常掩模之间的对齐,我们引入了一种新颖的自适应注意力重新加权机制。基于生成的异常图像和正常样本之间的差异,它动态地引导模型更多地关注生成的异常不太明显的区域,从而使得能够生成准确匹配的异常图像-掩模对。大量的实验表明,我们的模型在生成真实性和多样性方面显著优于最先进的方法,并有效地提高了下游异常检查任务的性能。
论文链接:
https://sjtuplayer.github.io/anomalydiffusion-page/
https://arxiv.org/abs/2312.05767
04 自监督似然估计与能量引导在城市场景异常分割中的应用
Self-supervised Likelihood Estimation with Energy Guidance for Anomaly Segmentation in Urban Scenes
Yuanpeng Tu, Yuxi Li, Boshen Zhang, Liang Liu, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao
稳健的自动驾驶需要代理准确识别城市场景中的意外区域。为此,一些关键问题仍然悬而未决:如何设计合适的度量来衡量异常,以及如何正确生成异常数据的训练样本?以前的工作通常依赖于分类任务的不确定性估计和样本合成,这忽略了上下文信息,有时还需要具有细粒度注释的辅助数据集。相反,在本文中,我们利用分割任务的强上下文依赖性,设计了一个能量引导的自监督框架,用于异常分割,通过最大化自生成的异常像素的似然来优化异常头。为此,我们设计了两个异常似然估计器,一个是简单的任务无关的二元估计器,另一个将异常似然描述为任务导向能量模型的残差。基于所提出的估计器,我们进一步将我们的框架与似然引导的掩码细化过程结合,以提取有信息的异常像素进行模型训练。我们在具有挑战性的Fishyscapes和Road Anomaly基准上进行了广泛的实验,结果表明,即使没有任何辅助数据或合成模型,我们的方法仍然可以与其他SOTA方案实现竞争性能。
论文链接:
https://arxiv.org/abs/2302.06815
05 重新思考多模态异常检测的反向蒸馏
Rethinking Reverse Distillation for Multi-Modal Anomaly Detection
Zhihao Gu, Jiangning Zhang, Liang Liu, Xu Chen, Jinlong Peng, Zhenye Gan, Yabiao Wang, Annan Shu, Guannan Jiang, Lizhuang Ma
近年来,利用彩色图像进行工业场景的异常检测已取得了显著的进展,但仅依靠RGB图像无法识别出所有的异常。作为补充,引入额外的模态,如深度和表面法线图,可以帮助检测这些异常。为此,我们提出了一种新颖的多模态反向蒸馏(MMRD)范式,该范式包括一个冻结的多模态教师编码器用于生成蒸馏目标,以及一个可学习的学生解码器,目标是从教师那里恢复多模态表示。具体来说,教师通过暹罗架构从不同的模态中提取互补的视觉特征,然后无参数地融合这些来自多个级别的信息作为蒸馏的目标。对于学生,它从正常训练数据的教师表示中学习模态相关的先验,并在它们之间进行交互,形成多模态表示以进行目标重构。大量的实验表明,我们的MMRD在MVTec-3D AD和Eyecandies基准上的异常检测和定位方面都超过了最近的最先进的方法。代码将在接受后提供。
06 面向主动域适应分割的密度感知core-set算法
Density Matters: Improved Core-set for Active Domain Adaptive Segmentation
Shizhan Liu*, Zhengkai Jiang*, Yuxi Li, Jinlong Peng, Yabiao Wang, Weiyao Lin
主动域适应已经成为在语义分割中平衡昂贵的标注成本和模型性能的解决方法。然而,现有的工作通常忽视了选定样本与其在特征空间中的局部上下文之间的关联,这导致了对标注预算的低效使用。在这项工作中,我们重新审视了经典core-set方法的理论界限,并确定模型性能与选定样本周围的局部样本分布密切相关。为了有效地估计局部样本的密度,我们引入了一个带有动态掩蔽卷积的局部密度估计器,并开发了一个密度感知贪婪算法来优化界限。大量的实验证明了我们方法的优越性。此外,即使只有很少的标签,我们的方案也能达到与完全监督情况下相当的结果。
论文链接:
https://arxiv.org/pdf/2312.09595.pdf
07 图像匹配和目标检测协作框架
MatchDet: A Collaborative Framework for Image Matching and Object Detection
Jinxiang Lai*, Wenlong Wu*, Bin-Bin Gao, Jun Liu, Jiawei Zhan, Congchong Nie, Yi Zeng, Chengjie Wang
图像匹配和目标检测是两个基础且具有挑战性的任务,而许多相关应用将它们视为两个独立的任务(任务独立)。本文提出了一种名为MatchDet的协作框架(任务协作),可实现图像匹配和目标检测两个任务间的协作。为了实现这两个任务的协作学习,我们提出了三个新模块,包括用于检测器的空间注意力模块(WSAM),用于匹配器的权重注意力模块(WAM)和框过滤器。具体而言,WSAM突出显示目标图像的前景区域,以使后续的检测器受益;WAM增强了图像对的前景区域之间的相关性,以确保高质量的匹配;而框过滤器则减轻了错误匹配的影响。我们在Warp-COCO和miniScanNet这两个新基准数据集上进行评估。实验结果表明,我们的方法是有效的,并取得了有竞争力的性能提升。
论文链接:
https://arxiv.org/pdf/2312.10983.pdf
08 细粒度区域感知图像和谐化算法
FRIH: Fine-grained Region-aware Image Harmonization
Jinlong Peng, Zekun Luo, Liang Liu, Boshen Zhang
图像和谐化旨在为复合图像生成更真实的前景和背景外观。所有现有的方法都对整个前景执行相同的和谐化过程。然而,嵌入的前景通常包含不同的外观模式。现有的解决方案忽略了每个颜色块的差异,并丢失了一些特定的细节。因此,我们提出了一种新颖的全局-局部两阶段框架,用于细粒度区域感知图像和谐化(FRIH)。在第一阶段,整个输入前景掩码用于进行全局粗粒度的和谐化。在第二阶段,我们自适应地将输入前景掩码聚类为几个子掩码。每个子掩码和粗调整后的图像分别连接,并输入到一个轻量级级联模块中,以改进全局融合结果。此外,我们还设计了一个融合预测模块,综合利用不同程度的融合结果生成最终结果。我们的FRIH在iHarmony4数据集上通过轻量级的模型取得了有竞争性的性能。
论文链接:
https://arxiv.org/pdf/2205.06448.pdf
09 视觉幻觉提升多模态语音识别效果
Visual Hallucination Elevates Speech Recognition
Fang Zhang (USTC), Yongxin Zhu(USTC), Xiangxiang Wang, Huang Chen, Xing Sun, Linli Xu(USTC)
由于噪声对传统音频语音识别的影响,我们提出了一种结合音频和视觉信号的方法。然而,实际应用中并不总是能获取到配对的视频,这产生了视觉缺失模态的问题。为解决这一问题,我们提出了一种基于离散特征的视觉生成模型,该模型在训练中利用音频和视觉的语义对应关系,并在推理中生成视觉幻觉以代替真实视频。我们的方法在两个公开数据集上的实验表明,相比当前最先进的音频单独基线,我们的方法在词错误率上实现了显著的53%的相对降低,同时在不使用视频输入的音频-视觉设置下保持了相当的结果。
10 学习任务感知的语言-图像表征用于类增量目标检测
Learning Task-Aware Language-Image Representation for Class-Incremental Object Detection
Hongquan Zhang*, Bin-Bin Gao*, Yi Zeng, Xudong Tian (ECNU), Xin Tan (ECNU), Zhizhong Zhang (ECNU), Yanyun Qu (XMU), Jun Liu, Yuan Xie (ECNU)
类增量物体检测要求目标检测器能够持续适应新任务的同时不能忘记已学习的旧任务,在实际应用中是迫切需要的能力,其主要挑战在于检测器对已学习的旧任务的灾难性遗忘。许多基于蒸馏和回放的方法已被提出来缓解这个问题。然而,它们通常在纯视觉架构上进行学习,忽视了文本线索的强大表征能力,这在某种程度上限制了它们的性能。在本文中,我们提出了任务感知的语言-图像表征来缓解灾难性遗忘,为基于语言-图像的类增量目标检测引入了新的范式。首先,我们展示了语言-图像检测器在缓解灾难性遗忘方面的显著优势。其次,我们提出了一种学习任务感知的语言-图像表征方法,克服了直接利用语言-图像检测器进行类增量目标检测的缺点。具体来说,通过在训练阶段采用特征隔离方式学习不同任务的语言-图像表征,而在推理阶段使用由任务特定语言-图像表征来对齐预测得分。提出的方法使的语言-图像检测器可以更实用于类增量目标检测任务。在COCO 2017和Pascal VOC 2007上的大量实验证明在各种类增量目标检测的设置下,提出的方法都能达到当前最好的结果。
11 弱半监督医学图像分割
Combinatorial CNN-Transformer Learning with Manifold Constraints for Semi-Supervised Medical Image Segmentation
Huimin Huang, Yawen Huang, Shiao Xie, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen, Yuexiang Li, Yefeng Zheng
半监督学习(Semi-supervised Learning,SSL)作为主导方法之一,旨在利用未标记的数据来解决监督学习中的标注困境,这在医学图像分割领域引起了广泛关注。大多数现有的方法通过卷积神经网络(CNN)使用单一网络,并通过对输入或模型应用小的扰动来强制保持预测的一致性。然而,这种学习范式的缺点在于:(1)基于CNN的模型对全局学习施加了严重的限制;(2)丰富和多样的类级分布被抑制。在本文中,我们提出了一种新的CNN-Transformer学习框架,用于半监督医学图像分割的流形空间。首先,在学生内部级别,我们提出了一种新颖的类别一致性损失,以促进目标特征表示的判别性和紧凑性学习。然后,在学生之间的级别上,我们使用基于原型的最优传输方法对齐CNN和Transformer特征。大量实验表明,我们的方法在三个公共医学图像分割基准测试中优于先前的最先进方法。
12 使用模态特异编码器和多模态锚点的个性化联邦学习用于脑肿瘤分割
Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation
Qian Dai (厦门大学), Dong Wei, Hong Liu , Jinghan Sun, Liansheng Wang (厦门大学), Yefeng Zheng
现有的医学图像分析联邦学习(FL)方法大多只考虑了模态内异质性,限制了其在多模态成像应用中的适用性。实际中,有些FL参与者只拥有完整成像模态的子集,这给在所有参与者数据上有效训练全局模型带来了跨模态异质性的挑战。此外,在这种情况下,每个参与者都希望从FL中获得适合其本地数据特性的个性化模型。在这项工作中,我们提出了一种新的FL框架,其中包括联邦模态特定编码器和多模态锚点(FedMEMA),以同时解决这两个问题。首先,FedMEMA为每种模态使用独立的编码器来解决跨模态异质性问题。同时,虽然编码器是由参与者共享的,但解码器是个性化的,以满足个体需求。具体而言,具有完整模态数据的服务器使用融合解码器来融合所有模态特异的编码器的表示,并通过反向传播来优化编码器之间的模态关系。同时,从融合的多模态表示中提取多个锚点,并将其与编码器参数一起分发给客户端。另一方面,具有不完整模态的客户端通过缩放点积交叉注意力机制将其缺失模态的表示校准到全局完整模态锚点,弥补了由于缺失模态而导致的信息损失,同时调整了本地模态的表示。FedMEMA在BraTS 2020多模态脑肿瘤分割基准数据集上进行验证。结果表明,它在多模态和个性化FL方面优于各种最新方法,并且其新颖设计是有效的。
13 使用语义锚点进行约束的表征学习
Beyond Prototypes: Semantic Anchor Regularization for Better Representation Learning
Yanqi Ge*, Qiang Nie*, Ye Huang, Yong Liu, Feng Zheng, Chengjie Wang, Wen Li, Lixin Duan
表示学习的最终目标之一是在类内实现紧凑性,并在类间实现良好的可分性。针对这一目标,已经提出了许多基于度量和原型的杰出方法遵循期望最大化范式。然而,它们不可避免地会引入偏差到学习过程中,特别是在长尾分布的训练数据中。在本文中,我们揭示了类原型不一定需要从训练特征中派生,并提出了一种新的视角,使用预定义的类锚点作为特征中心来单向引导特征学习。然而,预定义的锚点可能与像素特征存在较大的语义距离,这使得它们无法直接应用。为了解决这个问题并生成与特征学习无关的特征中心,我们提出了一种简单而有效的语义锚点正则化(SAR)。SAR通过在训练过程中使用分类器感知的辅助交叉熵损失来确保语义空间中语义锚点的类间可分性,并与特征学习解耦。通过将学习到的特征拉向这些语义锚点,可以获得几个优势:1)类内紧凑性和自然的类间可分性,2)可以避免特征学习引入的偏差或错误,3)对长尾问题具有鲁棒性。所提出的SAR可以以即插即用的方式应用于现有模型中。大量实验证明,SAR在语义分割等视觉任务中的性能甚至优于复杂的原型方法。
14 无监督持续异常检测
Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt
Jiaqi Liu*, Kai Wu*, Qiang Nie, Ying Chen, Bin-Bin Gao, Yong Liu,Jinbao Wang, Chengjie Wang, Feng Zheng
在工业制造中,具有增量训练的无监督异常检测(UAD)至关重要,因为无法获得足够的标记数据来应对不可预测的缺陷。然而,当前的持续学习(CL)方法主要依赖于监督注释,而在UAD中的应用受限于缺乏监督。目前的UAD方法会按顺序为不同的类别训练单独的模型,导致灾难性遗忘和沉重的计算负担。为了解决这个问题,我们引入了一种名为UCAD的新型无监督持续异常检测框架,通过对比学习的提示赋予UAD持续学习能力。在提出的UCAD中,我们设计了一个持续提示模块(CPM),利用简洁的键-提示-知识存储库来引导任务无关的“异常”模型预测,使用任务特定的“正常”知识。此外,我们设计了基于结构的对比学习(SCL),并结合分割任意模型(SAM)来改进提示学习和异常分割结果。具体而言,通过将SAM的掩码视为结构,我们将同一掩码内的特征拉近,并将其他特征推开,以获得通用的特征表示。我们进行了全面的实验,并在无监督持续异常检测和分割方面设定了基准,证明我们的方法在异常检测方面明显优于其他方法,即使使用了回放训练。
15 SoftCLIP: 更柔和的跨模态对齐使CLIP更强大
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger
Yuting Gao*, Jinfeng Liu*, Zihan Xu*, Tong Wu, Enwei Zhang, Wei Liu, Jie Yang, Ke Li, Xing Sun
在过去的两年里,视觉-语言预训练在多个下游任务中取得了显著的成功。然而,获取高质量的图像-文本对,仍然是一项具有挑战性的任务,且常用数据集中存在噪声。为解决这个问题,我们提出了一种名为SoftCLIP的新方法,通过引入细粒度模态内自相似性生成软化目标,放宽了严格的一对一约束。软标签可以使两对图文对之间存在一些局部相似性,并在两种模态之间建立多对多的关系。此外,由于在软化标签中,正样本仍然占有主导地位,我们将正负样本进行了解耦,以进一步提升跨模态学习中的负样本关系对齐。大量的实验证明了SoftCLIP的有效性,特别是在ImageNet零样本分类任务中,使用CC3M/CC12M作为预训练数据集,SoftCLIP相比于CLIP基线,带来了6.8%/7.2%的top-1准确率提升。
论文链接:
https://arxiv.org/pdf/2303.17561.pdf
16 COOPER:面向复杂对话目标的专业代理协调方法
COOPER: Coordinating Specialized Agents towards a Complex Dialogue Goal
Yi Cheng (The Hong Kong Polytechnic University), Wenge Liu (Baidu), JianWang (The Hong Kong Polytechnic University), Chak Tou Leong (The Hong Kong Polytechnic University),Yi Ouyang, Wenjie Li (The Hong Kong Polytechnic University), Xian Wu, Yefeng Zheng
近年来,人们对探索具有更复杂目标的对话越来越感兴趣,例如谈判、说服和情绪支持,这些都超越了传统的服务型对话系统。除了需要更复杂的策略性推理和沟通技巧外,这些任务的一个重大挑战在于,它们的目标实现难以以可量化的方式客观衡量,这使得现有的研究难以直接优化对话过程以实现这些目标。在我们的工作中,我们强调复杂对话目标的多面性,并认为通过全面考虑并共同推动其不同方面,更有可能实现这些目标。为此,我们提出了一个新的对话框架,COOPER,它协调多个专门的代理,每个代理分别致力于特定的对话目标方面,以接近复杂的目标。通过这种分而治之的方式,我们使复杂的对话目标更易于接近,并通过各个代理的协作引发更大的智能。在说服和情绪支持对话的实验中,我们的方法对比基线能达到更好的性能。
17 基于域幻化更新的多域人脸活体检测
Domain-Hallucinated Updating for Multi-Domain Face Anti-spoofing
Chengyang Hu (Shanghai Jiao Tong University), Ke-Yue Zhang, Taiping Yao, Shice Liu, Shouhong Ding, Xin Tan (East China Normal University), Lizhuang Ma (Shanghai Jiao Tong University)
多域人脸活体检测 (MD-FAS) 旨在仅使用新域数据更新新域的模型,同时确保不会忘记从旧域获得的知识。现有方法利用模型的特征来表示旧域知识或将不同的域映射到单独的特征空间中以防止遗忘。然而,由于域差距的存在,新数据的特征不如之前数据的准确。此外,如果没有先前数据提供监督,分离的特征空间可能会在新域上更新时被破坏,从而导致灾难性遗忘。受到缺乏旧域数据所带来的挑战的启发,我们从一个新的角度解决了这个问题,即幻化出旧域数据来更新 FAS 模型。为此,我们提出了一种新颖的域幻化更新(DHU)框架来促进数据的幻化。具体地,域信息浏览器学习旧域的代表性域信息。然后,域信息幻化模块将新域数据幻化成伪旧域数据。此外,提出了幻化特征联合学习模块,通过双级别不对称地对齐真实样本的新域数据和伪旧域数据,以学习更通用的特征,从而促进所有域的结果。我们的实验结果和可视化结果表明,所提出的方法在有效性方面优于最先进的竞争对手。
18 基于预训练在线对比学习的保险欺诈检测方法
Pre-trained Online Contrastive Learning for Insurance Fraud Detection
Rui Zhang (Tongji University, Shanghai AI Lab), Dawei Cheng (Tongji University, Shanghai AI Lab), Jie Yang (Tongji University), Yi Ouyang, Xian Wu, Yefeng Zheng, Changjun Jiang (Tongji University, Shanghai AI Lab)
医疗保险反欺诈是医疗行业领域的一个重要研究问题。现有的欺诈检测模型主要关注离线学习场景。然而,欺诈模式不断演变,使得基于过去数据训练的模型难以检测新出现的欺诈模式,这给医疗欺诈检测带来了严重的挑战。此外,当前的增量学习模型主要用于解决灾难性遗忘问题,但在欺诈检测中的表现往往不尽如人意。为了解决这一挑战,本文提出了一种创新的在线学习方法,用于医疗保险欺诈检测。该方法将对比学习预训练与在线更新策略相结合。在预训练阶段,我们利用对比学习预训练在历史数据上进行无监督学习,实现深度特征学习并获得丰富的风险表示。在在线学习阶段,我们采用时间记忆感知突触在线更新策略,使模型能够根据不断涌现的新数据进行增量学习和优化。这确保了模型及时适应欺诈模式,减少了对过去知识的遗忘。我们的模型在真实世界的保险欺诈数据集上进行了大量的实验和评估。结果表明,与现有的基线方法相比,我们的模型在准确性方面具有显著优势,同时还表现出较低的运行时间和空间消耗。
19 VMT-Adapter: 面向多任务密集场景理解的高效参数迁移学习
VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding
Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan
近期,大规模预训练模型在多种视觉下游任务中取得了显著提升,然而对预训练模型进行全量参数微调提升了模型的计算和存储成本。在自然语言处理领域的启发下,参数高效微调方法(PETL)在视觉任务中得到成功的应用,但现有技术主要聚焦于单任务的适配,如何更好地将参数高效微调方法应用于视觉多任务学习中仍是一个挑战。本文提出了一种“once-for-all”的视觉多任务适配方法(VMT-Adapter),具有极高的训练和推理效率,在任务数上具有O(1)的时间复杂度,这使得VMT-Adapter可以利用极少的参数处理几乎任意数量的任务。VMT-Adapter不仅通过参数共享实现了跨任务信息交互,同时还为每个任务单独设置了知识提取模块来保留任务的特定知识。本文在包含4个密集场景理解任务的数据集上验证了方法的有效性:VMT-Adapter仅利用预训练模型1%的参数量,便可以取得3.96%的显著提升。
20 MmAP: 面向跨域多任务学习的多模态对齐提示
MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-Task Learning
Yi Xin, Junlong Du, Qiang Wang, Ke Yan, Shouhong Ding
多任务学习(MTL)旨在同时训练多个相关任务,并提高各个子任务的效果。面向多任务学习的网络结构通常会为每一个任务设置独立的解码器(decoder)结构,因此,解码网络的计算复杂度会随着任务数量的增加而线性增加。为了解决这个问题,本文将图文预训练模型CLIP引入跨域多任务学习中,利用提示学习实现了一种“decoder-free”的多任务学习框架。本文认为,尽管针对CLIP的提示学习已经在多个视觉任务中表现出优越的性能,但是现有方法仅对CLIP的单一模态(文本或视觉)进行微调,破坏了CLIP的模态对齐。因此,本文首先提出了一种针对CLIP的多模态对齐提示(MmAP),以实现对文本和视觉模态的同时调整,保持CLIP的模态对齐特性。在MmAP基础上,本文设计了一种新颖的多任务提示学习框架。一方面,我们利用梯度驱动的任务分组方法,实现高相似性任务之间互补性的最大化;另一方面,我们为每个任务分配特定的MmAP,以保留任务的特有信息。在两个大型多任务学习数据集上,相比于全量参数微调,本文提出的方法在仅利用约0.09%的可训练参数的情况下,实现了显著的性能提升。
21 PCE-Palm:基于手掌折痕能量的两阶段拟真掌纹生成
PCE-Palm: Palm Crease Energy based Two-stage Realistic Pseudo-palmprint Generation
Jianlong Jin(HUT/Tencent), Lei Shen, Ruixin Zhang, Jingyun Zhang, Ge Jin, Chenglong Zhao, Shouhong Ding, Yang Zhao(HUT), Wei Jia(HUT)
*本文由腾讯优图实验室、腾讯微信支付33号实验室、合肥工业大学共同完成
大规模数据的缺乏严重阻碍了掌纹识别的发展。近期方法提出基于贝塞尔曲线生成大规模拟真掌纹来解决这个问题。然而,贝塞尔曲线和真实掌纹之间的显着差异限制了它们的有效性。在本文中,我们将贝塞尔曲线到真实掌纹的差异分为折痕差异和纹理差异,通过分拆降低生成难度。具体来说,我们引入了一种新的手掌折痕能量(PCE)域作为从贝塞尔曲线到真实掌纹的桥梁,并提出了一个两阶段生成模型。第一阶段从贝塞尔曲线生成 PCE 图像(拟真折痕),第二阶段以 PCE 图像作为输入输出真实的掌纹(拟真纹理)。此外,我们还设计了一个轻量级的即插即用线路特征增强块,以方便域转移并提高识别性能。大量的实验结果表明,我们提出的方法超越了最先进的方法。在极少的数据设置下(如 40 个 ID,仅占总训练集的 2.5%),在TAR@FAR=1e-6条件下,我们的方法相对RPG-Palm 提升 29%,相对100%训练集的 ArcFace 提升6%。
22 HDMixer:基于可扩展Patch与层级依赖的多元时间序列预测
HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting
Qihe Huang(USTC/Tencent), Lei Shen, Ruixin Zhang, Jiahuan Cheng, Shouhong Ding, Zhengyang Zhou (USTC) , Yang Wang (USTC)
*本文由腾讯优图实验室、中国科学技术大学共同完成
多元时间序列(MTS)预测已广泛应用于各种场景。最近,一些方法采用patch来增强局部语义并提高模型性能。然而,长度固定的patch很容易丢失时间边界信息,例如完整的峰值和周期。此外,现有方法主要侧重于对patch之间的长期依赖性进行建模,而很少关注其他维度(例如patch内的短期依赖性以及跨变量patch之间的复杂交互)。为了解决这些挑战,我们提出了一种纯基于 MLP 的 HDMixer,旨在通过有效地建模分层交互来获取具有更丰富语义信息的patch。具体来说,我们设计了一个针对 MTS 的长度可扩展patch(LEP),它丰富了patch的边界信息并减轻了系列中的语义不连贯。随后,我们设计了一个基于纯 MLP 的分层依赖关系展示器(HDE)。该展示器可以有效地模拟patch内的短期依赖关系、patch之间的长期依赖关系以及patch之间的复杂交互。对 9 个真实世界数据集的广泛实验证明了我们方法的优越性。
23 弱监督开放词汇目标检测
Weakly Supervised Open-Vocabulary Object Detection
Jianghang Lin ( Xiamen University ),Yunhang Shen ( Tencent ),Bingquan Wang ( Xiamen University ),Shaohui Lin ( East China Normal University ) ,Ke Li ( Tencent ),Liujuan Cao ( Xiamen University )
尽管弱监督目标检测(WSOD)是避免使用实例级别标注的有前途的方法,但其能力仅限于单个训练数据集中的封闭集类别。在本文中,我们提出了一种新颖的弱监督开放词汇目标检测框架,即WSOVOD,将传统的WSOD扩展为检测新概念,并利用只有图像级别注释的不同数据集。为了实现这一目标,我们探索了三种关键策略,包括数据集级别的特征适应,图像级别的显著目标定位,以及区域级别的视觉语言对齐。首先,我们进行数据感知特征提取,以产生输入条件的系数,该系数被利用到数据集属性原型中以识别数据集偏差并帮助实现跨数据集泛化。其次,我们提出了一个定制的位置导向的弱监督候选区域网络,以利用来自类别无关的分割任何模型的语义布局来区分目标边界。最后,我们引入了一种候选区域概念同步的多实例网络,即目标挖掘和与视觉语义对齐的细化,以发现与概念文本嵌入匹配的目标。在Pascal VOC和MS COCO上的大量实验表明,所提出的WSOVOD在封闭集目标定位和检测任务中都比之前的WSOD方法更好,并取得了新的最先进水平结果。同时,WSOVOD实现了弱监督下的跨数据集和开放词汇学习,并且取得了与全监督开放词汇目标检测(FSOVOD)相当甚至更好的效果。
论文链接:
https://arxiv.org/abs/2312.12437
24 SPD-DDPM:对称正定空间中的去噪扩散概率模型
SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space
Yunchen Li ( East China Normal University ),Zhou Yu ( School of Statistics, East China Normal University ),Gaoqi He ( East China Normal University ) ,Yunhang Shen ( Tencent ),Ke Li ( Tencent ) ,Xing Sun ( Tencent ),Shaohui Lin ( East China Normal University )
对称正定(SPD)矩阵在统计和机器学习领域(如fMRI分析和交通预测)中已经显示出重要的价值和应用。之前的SPD矩阵工作主要集中在判别模型上,其中预测是对E(X|y)的直接进行,其中y是一个向量,X是一个SPD矩阵。然而,这些方法在大规模数据处理中具有挑战性,因为它们需要访问和处理整个数据。在本文中,受到去噪扩散概率模型(DDPM)的启发,我们通过在SPD空间中引入高斯分布来估计E(X|y),从而提出了一种新的生成模型,称为SPD-DDPM。此外,我们的模型能够在不需要给定的情况下无条件且灵活地估计p(X)。一方面,该模型有条件地学习p(X|y),并利用样本均值获得E(X|y)作为预测。另一方面,该模型无条件地学习数据概率分布p(X)并生成符合该分布的样本。此外,我们还提出了一种新的SPD网络,它比之前的网络更深,并且允许包含条件因素。在玩具数据和真实出租车数据上的实验结果表明,我们的模型有效地拟合了无条件以及有条件的数据分布,并且提供了准确的预测。
论文链接:
https://arxiv.org/abs/2312.08200
25 通过知识蒸馏和增量学习进行半监督的盲图像质量评估
Semi-Supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning
Wensheng Pan ( Xiamen University ),Timin Gao ( Xiamen University ) ,Yan Zhang ( Xiamen University ),Xiawu Zheng ( Peng Cheng Laboratory ),Yunhang Shen ( Tencent ) ,Ke Li ( Tencent ) ,Runze Hu ( Beijing Institute of Technology ),Yutao Liu ( Ocean University of China ) ,Pingyang Dai ( Xiamen University )
盲图像质量评估(BIQA)旨在复制人类对图像失真的评估。因此,它对标注数据的需求很大,而在实践中远远不够。一些研究人员利用无监督方法来避免这个问题,但很难模拟人类主观系统。为此,我们提出了一个统一的半监督增量学习框架来解决上述问题。具体来说,当训练数据不足时,需要半监督学习来推断大量无标签数据。同时,多次半监督学习很容易导致灾难性遗忘问题,因此需要增量学习。更具体地说,我们采用知识蒸馏为无标签数据提供伪标签,以保留分析能力,从而实现半监督学习。同时,我们利用增量学习在多次半监督学习中选择代表性示例来修正先前数据,从而确保我们的模型不会退化。实验结果表明,所提出的算法在多个基准数据集上实现了最先进的性能。在经过TID2013数据集的训练后,所提出的方法可以直接转移到另一个数据集,与监督方法的忽略性能下降(-0.013)相比,同时优于无监督方法。总的来说,我们的方法表明了它在解决实际生产过程挑战方面的潜力。
26 基于去相关特征查询的域泛化医学图像分割方法
Learning Generalized Medical Image Segmentation from Decoupled Feature Queries
Qi Bi ( Tencent/Wuhan University ),Jingjun Yi ( Tencent/Wuhan University ),Hao Zheng ( Tencent ),Wei Ji ( University of Alberta ),Yawen Huang ( Tencent ),Yuexiang Li ( Guangxi Medical University ),Yefeng Zheng ( Tencent )
域泛化医学图像分割场景指模型在多个源域上训练,并在未见过的目标域上测试其泛化能力。由于收集自不同医院的图像可能使用不同的成像设备和扫描参数,不同中心的数据分布会有显著区别。理想的高泛化性特征在同一通道内对跨域图像具有相似的模式响应。然而,在应对显著的分布差异时,网络倾向于通过多个通道来捕获各源域图像上的同一模式,并允许同一通道中在跨域图像上表现出不同的激活模式。对此,我们提出以最小化跨域医学图像之间的通道相关性来消除特征冗余并最大化每个通道的表达能力。首先,我们提出了一种新的白化变换,更加高效地完成通道间的解耦。由于特征去相关并不能保证来自不同域的医学图像在同一通道内具有相似的激活模式,我们进一步基于自注意机制引入一种隐藏的约束。我们将解耦的深层特征作为查询,去相关的浅层特征作为键和值。解耦的深层特征与浅层特征之间的内在依赖要求跨域表达具有一致性,提升了模型的域泛化分割能力。
27 通过输入-输出协同蒸馏的联邦学习
Federated Learning via Input-Output Collaborative Distillation
Xuan Gong ( Harvard Medical School ) ,Shanglin Li ( Beihang University ) ,Yuxiang Bao ( Beihang University ) ,Barry Yao ( Virginia Tech ) ,Yawen Huang ( Tencent ) ,Ziyan Wu ( United Imaging Intelligence ) ,Baochang Zhang ( Beihang University ) ,Yefeng Zheng ( Tencent ) ,David Doermann ( University at Buffalo )
联邦学习(FL)是一种机器学习范式,其中分布式的本地节点协同训练一个中心模型,而无需共享各自持有的私有数据。现有的FL方法要么迭代共享本地模型参数,要么部署共同蒸馏。然而,前者极易导致私有数据泄露,后者的设计依赖于任务相关真实数据的前提条件。相反,我们提出了一个基于本地到中心协同蒸馏的无数据FL框架,直接利用输入和输出空间。我们的设计消除了递归本地参数交换或辅助任务相关数据传递知识的任何需求,从而直接将隐私控制权交给本地用户。特别是,为了应对本地之间固有的数据异质性,我们的技术学会在每个本地模型产生一致而独特结果的输入上进行蒸馏,以代表每个专业知识。我们通过在图像分类、分割和重建任务上的大量实验,证明了我们提出的FL框架在自然和医学图像的各种真实世界异质联邦学习设置下,实现了最先进的隐私-效用权衡。
#大模型の微调经验和认知
这里将分享作者在大模型微调过程中的经验和认知。
关于continue
1.pre-train大模型的知识来自于pt阶段,如果你想引入一些新的知识,那CPT是一个不错的选择。
2.但你首先要确保你有足够大量的数据集,至少有几B的token;
3.否则几十条数据的情况我更推荐模型编辑更建议全量微调。
4.不确定lora是不是一个好的选择,后面会展开讲。
5.通常CPT开始的阶段会出现一段时间的loss上升,随后慢慢收敛,所以学习率是一个很重要的参数,这很容易理解:如果lr过大,那loss值收敛会更困难,旧能力损失的会更大;如果lr过小,那可能难以学到新知识。
6.当你数据集比较小(例如100B以下?),那建议使用较小的学习率。例如可以使用pre-train阶段最大学习率的10%。通常7B模型pre-train阶段的学习率大概是3e-4,所以我们可以选择3e-5。
7.记得根据你的batch size做相应缩放。通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
8.warmup_ratio也很重要。通常LLM训练的warmup_ratio是epoch * 1%左右。例如pre-train阶段一般只训一个epoch,则ratio是0.01;
9.SFT通常3个epoch,ratio对应为0.03但是如果做CPT,建议warmup_ratio调大一点。如果你的数据集很大,有几百b,那warmup其实不影响最重的模型效果。但通常我们的数据集不会有那么大,所以更小的ratio可以让模型“过渡”得更平滑。
10.我甚至试过3个epoch的训练(SFT),第一个epoch全部用来warmup,结果是work的。这里参考了Qwen-7b的技术报告。
11.所以学习率和warmup_ratio是两个相辅相成的概念,二者通常是成正比的关系。或者说如果你正在用一个较大的学习率,那你或许可以同时尝试增加warmup来防止模型“烂掉”。
12.这几点不只适用于CPT,对一些特殊情况下的SFT阶段同样适用。
13.这里吐槽一下Trainer,到现在都不支持最小lr参数。
关于SFT
1.请勿迷信3个epoch的训练,实测1个epoch就能对话。当然,更多的epoch确实会让模型的评测效果更佳。
2.但如果你资源严重受限,跑一轮也能用~尤其当你从一个SFT模型启动(如chatGLM)时,尝试小点的epoch,防止灾难性遗忘。
3.如果数据量比较小,如只有1k,可以尝试更多的epoch。无他,人为过拟合而已。
关于continue
1.pre-train+SFT首先提出一个问题,假设你想做一个领域模型,并且你的领域模型和通用chatBot的输出内容、格式都区别很大;此外你还期望要通过CPT来注入一定的知识,那可用的技术路线有哪些呢?
- 从pre-train模型开始SFT训练,先做CPT,SFT数据使用你的领域数据
❌会得到一个只能解领域问题的模型,丢失掉通用对话能力,如果完全不考虑通用对话能力可以,否则不推荐 - 从pre-train模型开始SFT训练,先做CPT,SFT数据选用通用SFT数据+领域SFT数据
⭕ 如果你的领域数据和通用能力很接近,如医疗问答,那这是一个非常不错的技术路线,推荐 - 对于2,如果你的新任务和通用任务差别很大,甚至输出格式都完全不一样甚至冲突
❌虽然可行,但直觉上一些通用SFT数据的answer会对你的任务目标造成一定程度的负向影响 - 从pre-train模型开始SFT训练,先做CPT,再做通用SFT,再做领域SFT
❌这会导致你的任务目标(最后阶段)和你的知识注入阶段(CPT阶段)中间存在一个阶段的gap,可能不是最佳路线 - 从sft模型开始训练,先做CPT,再做领域SFT
❌与4同理,任务目标(最后阶段)和通用对话能力阶段隔了一个阶段,仿佛也不够优雅
2.思来想去,好像所有现有常见的技术路线都不太work~所以可能要试一些非常规的方法。
3.一个很有意思的问题是,过去我们都被GPT论文的三个阶段束缚,老老实实串行跑三个阶段:PT->SFT>RLHF
4.但是越来越多人尝试SFT+DPO混合训练,看上去也是work的。
5.同理,我相信很多国内大模型的大厂,或多或少可能都在PT模型里偷偷掺了一些SFT数据,这会让模型的性能有一定程度的提升。
6.很久以前也有人在SFT阶段掺杂一些PT数据,来防止灾难性遗忘。
7.此外,不管是SFT还是PT,任务目标其实都一样,都是基于teacher forcing的自回归任务,next token predict而已,唯一的不同只是数据格式不一样。
8.那么我们可不可以认为,其实这不同阶段的区别其实没有那么大?是不是可以CPT+SFT混合训练,不再区分阶段。
9.例如我们可以在CPT阶段加入大量SFT对话数据(同样mask掉question),这个SFT数据甚至可以是海量的、未经清洗的、低质量的数据,仅训练1个epoch即可;接下来我们使用通用SFT数据(少而精的)+领域SFT数据,混合训练1个epoch;最后1个epoch我们只用领域数据做微调。
10.可以根据数据集大小、重要程度,修改各阶段epoch轮次,或在某个阶段内扩大某数据集的倍数。
11.至此,CPT数据共训练1个epoch,通用SFT数据2个,领域数据2个。
12.个人使用这种技术路线,感觉还是比较work的。由于CPT成本太大,未设置更多的消融实验。那除此以外是否有其他技术路线呢?答案或许是Lora?
关于Lora
1.个人对lora使用得不多,之前仅仅是了解原理+会用,没有深入探索过一些参数。最近尝试理解一下。
2.lora真的没省多少GPU也没省多少训练时长,所以我真的不太爱用它。(包大人备注:其实是很省显存的,但不太省训练时长)
3.lora更像是一个能力插件,可以帮助模型学到一些新的输出格式/领域话题,但对新知识或新能力的注入可能不太擅长。
4.对于能力注入,当前的认知是:pre-train > full SFT > lora。
5.所以用lora来进行pretrain可能不是一个最优解,还是更推荐用全参数。
6.但是对于领域任务,lora好像天然适合?
7.第2、3点没有经过实验论证,近期会跑个实验,有结论会做补充。
8.lora_rank是一个很重要的参数,它影响旁路矩阵的大小。
9.如果你的数据量比较小,那推荐用比较小的rank就可以了,我记得原论文里8和32区别不大(懒得翻论文了,全凭记忆,如果有错误请指正)
10.如果你数据量较大,那建议用更大的rank,来得到一个更大的旁路矩阵,它显然可以记住更多的东西。
11.与此同时,除了q_proj,v_proj,强烈建议再试一下把所有的线性层都上lora,如k_proj, up_proj, down_proj这些。
12.此外lora_alpha也很重要,它通常和lora_rank是正比关系,表示一个缩放系数。alpha越大,表示新建的旁路矩阵影响力越大、新数据学得越“猛”;alpha越小,表示原始模型参数对结果的影响力越大。
13.很多人喜欢设置alpha是rank的2倍,其实可以二者1: 1跑个baseline看看效果。
网友补充:
1、SFT和pretrain的任务在有些大模型例如ChatGLM是不一样的,对于把pretrain放到SFT来保持所谓的防止遗忘并没有感觉到明显差异。
2、对于小数据集,设置一个好的prefix,在很多epoch(大于100)的情况仍然保持不错的提升。
3、lora对显存的节约是很明显的,只是很多代码类似zero的思想并不契合lora(把模型切分放到最后,认为是最不占用显存的,然而lora相反)。
4、lora的效果和全量在我做的实验下是有明显差距的(例如在某些指标上经常>4%绝对值的差距),和论文中的理想情况不同,并且lora比较吃分层学习率,程度和crf比较接近了
5、lora的秩的值设置在1-16上还是存在不小的区别,从16到128上经常只是一些收敛上的差异,例如128可能n个epoch收敛到x,16可能要2n,但并不绝对,而且r大时间久,一般16-32是比较推荐的
6、DPO和RLHF根据个人理解,对chosen-rejected数据的质量需求是不同的,选择RLHF仍然是更好的选择,对于显存不够的部分人来说,可以例如lora,将actor和ref共用一个,critic和reward共用一个,把显存从4x降低为2x。宁可这样也尽量把显存尽可能用来提高critic模型的参数量
网友:暂时先写这么多,可能过俩月再看又是一篇漏洞百出的想法,
但总是要在摸索中前进吧~
#InfoBatch
研究者从数据迭代这个角度切入进行了研究。对此,作者提出了InfoBatch框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(rescaling)来维持剪枝后的梯度更新(Gradient Update)期望,以此在性能无损的情况下提高训练效率,加快训练速度。无损数据集动态剪枝加速
本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作,覆盖分类、分割、检测、图片生成、LLM指令微调等任务。作为一个即插即用且与架构无关的框架,在实际应用中,InfoBatch 可以无损地节省 40% 的总开销(时间和计算)。
随着深度学习的网络参数量和数据集规模增长,算力需求日益增加,如何节省训练成本正在成为逐渐凸显的需求。现有的数据集压缩方法大多开销较高,且难以在达到无损的情况下获得可观的节省率;加权抽样的相关方法则对于模型和数据集的特点较为敏感且依赖于重复抽样假设,在实际应用中难以和已完成调参的学习率调整策略结合。两种从数据角度出发的方法在实践中很难真正帮助节省计算。
在本篇工作中,研究者从数据迭代这个角度切入进行了研究。长久以来,数据集的迭代方式大都采用随机迭代。对此,作者提出了InfoBatch框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(rescaling)来维持剪枝后的梯度更新(Gradient Update)期望,以此在性能无损的情况下提高训练效率,加快训练速度。
InfoBatch在不同任务上的表现
仅需三行代码即可使用
在CIFAR10/100(ResNet,分类)、ImageNet-1K(ResNet/ViT,分类)和ADE20K(UperNet,语义分割)上,InfoBatch无损节省了40%的总开销(时间和计算);在检测任务上(YOLOv8),InfoBatch无损节省了30%;
对于MAE预训练(ViT)和FFHQ图片生成(Latent Diffusion), InfoBatch分别节省了24.8%和27%的开销。
在LLaMA的指令微调上, InfoBatch成功在静态压缩方法DQ[1]的基础上额外节省了20%开销,总开销为原始的1.6%,并且和LoRA兼容。
论文题目:InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
论文链接:https://arxiv.org/abs/2303.04947
代码链接:https://github.com/henryqin1997/InfoBatch
一、动机
在过去的十年里,深度学习取得了长足的进步。与之相应的是大部分最先进的深度学习工作大都使用了超大规模的数据集,这对于很多资源有限的研究者来说是难以负担的。为了降低训练开销,研究者们进行了一系列不同研究。
一个比较直接的方法是降低数据集规模。数据集蒸馏(Dataset Distillation)[2]和核心集合选择(Coreset Selection)[1]分别从原有的数据集中合成/选择一个更小但更有信息量的新数据集(子集)。然而,虽然样本数量减少了,这两种方法本身却引入了不可忽略的额外开销。此外,这两种方法达到无损性能比较困难。另外的工作有加权抽样(weighted sampling)[3],可以通过改变样本采样率来提高训练收敛速度,相应的缺点是加速比对模型和数据集敏感,难以直接和学习率调整策略结合。
近期,一些工作试图通过减少迭代来加速训练。其中一类方法和核心集合选择类似,通过给样本打分并排序来选取更有信息量的样本,其余样本不参加训练,作者称之为数据静态剪枝;另一类方法在此基础上,于训练过程中动态打分并周期性选取子集,作者称之为数据动态剪枝。相比于静态方法,动态方法的单次额外开销更小,而且同计算量性能更好,但是现有方法依旧难以达到无损性能。
为了应对以上方法的缺点,作者提出了InfoBatch训练框架。InfoBatch的主要改进如图1所示,它在数据迭代过程中动态剪枝,通过Soft Pruning(概率剪枝)和Gradient Rescaling(梯度重缩放)维护了总更新量的期望值不变,以此达到了无损加速的目的。为了防止剩余训练轮次不足时的残余偏差,InfoBatch在最后的少部分轮次中使用原始数据集随机采样训练。作者在分类,语义分割,目标检测,Diffusion图片生成,LLaMA指令微调等任务上验证了方法的无损加速。
二、方法
2.1 总览
现有的静态/动态数据剪枝方法,会通过某种方式给样本打分,然后对样本得分排序,选取“对训练更有帮助”的样本进行训练。这种选择通常是确定性的,和目标的剪枝百分比直接挂钩。与之相对应的问题是,直接剪枝导致了梯度期望值方向偏差以及总更新量的减少。
为了解决梯度更新的期望偏差,如图2所示,InfoBatch前向传播中维护了每个样本的分值,并以均值为阈值,对一定比例的低分样本进行了动态剪枝。为了维护梯度更新期望,剩余的低分样本的梯度被相应放大。通过这种方式,InfoBatch训练结果和原始数据训练结果的性能差距相比于之前方法得到了改善。为了进一步减少残余的梯度期望值偏差,InfoBatch在最后几个轮次中使用全数据训练。
2.2 无偏剪枝和重缩放(Unbiased Prune and Rescale)
2.3 退火(Annealing)
虽然理论上的期望更新基本一致,上述的期望值实际包含时刻 t 的多次取值。在训练中,如果一个样本在中间的某个轮次被剪枝,后续依旧大概率被训练到;而在剩余更新轮次不足时,这个概率会大幅下降,导致残余的梯度期望偏差。因此,在最后的几个训练轮次中(通常是12.5%~17.5%左右),InfoBatch采用完整的原始数据进行训练。
三、实验
3.1 实验设置
作者在多个数据集上验证了InfoBatch的有效性,包括(分类)CIFAR-10/100,ImageNet-1K,(分割)ADE20K,(图片生成)FFHQ,(指令微调)Alpaca。训练的模型包括(分类)ResNet18,ResNet-50,ViT-Base(MAE), Swin-Tiny,(分割)UperNet,(图片生成)Latent Diffusion, (指令微调)LLaMA-7B。
3.2 实验结果
这里展示主要结果,更多结果请参考论文。
另外,根据作者最新更新,InfoBatch在检测任务上也取得了无损加速30%的效果,代码将会在github更新。
四、总结与展望
在这项工作中,作者提出了InfoBatch框架,能够在广泛的任务上可观地节省训练开销并加速。其核心的思想是根据样本拟合情况动态调整采样剪枝策略,并利用重缩放维持更新量的一致。作者在文中进一步探讨了该策略的适用范围和进一步的优化,期待此类工作以后能取代传统数据迭代方式,助力大模型时代训练加速。
#RoboFlamingo
还在苦苦寻找开源的机器人大模型?试试RoboFlamingo!框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?
对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM,从而适用于语言交互的机器人操作任务。
OpenFlamingo 在机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。随着 RT-X 数据集开放,采用开源数据预训练 RoboFlamingo 并 finetune 到不同机器人平台,将有希望成为一个简单有效的机器人大模型 pipeline。论文还测试了各种不同 policy head、不同训练范式和不同 Flamingo 结构的 VLM 在 Robotics 任务上微调的表现,得到了一些有意思的结论。
- 项目主页:https://roboflamingo.github.io
- 代码地址:https://github.com/RoboFlamingo/RoboFlamingo
- 论文地址:https://arxiv.org/abs/2311.01378
研究背景
基于语言的机器人操作是具身智能领域的一个重要应用,它涉及到多模态数据的理解和处理,包括视觉、语言和控制等。近年来,视觉语言基础模型(VLMs)已经在多个领域取得了显著的进展,包括图像描述、视觉问答和图像生成等。然而,将这些模型应用于机器人操作仍然存在一些挑战,例如如何将视觉和语言信息结合起来,如何处理机器人操作的时序性等。
为了解决这些问题,ByteDance Research 的机器人研究团队利用现有的开源 VLM,OpenFlamingo,设计了一套新的视觉语言操作框架,RoboFlamingo。其中 VLM 可以进行单步视觉语言理解,而额外的 policy head 模组被用来处理历史信息。只需要简单的微调方法就能让 RoboFlamingo 适应于基于语言的机器人操作任务。
RoboFlamingo 在基于语言的机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能(多任务学习的 task sequence 成功率为 66%,平均任务完成数量为 4.09,基线方法为 38%,平均任务完成数量为 3.06;zero-shot 任务的成功率为 24%,平均任务完成数量为 2.48,基线方法为 1%,平均任务完成数量是 0.67),并且能够通过开环控制实现实时响应,可以灵活部署在较低性能的平台上。这些结果表明,RoboFlamingo 是一种有效的机器人操作方法,可以为未来的机器人应用提供有用的参考。
方法
本工作利用已有的基于图像 - 文本对的视觉语言基础模型,通过训练端到端的方式生成机器人每一步的 relative action。模型的主要模块包含了 vision encoder,feature fusion decoder 和 policy head 三个模块。Vision encoder 模块先将当前视觉观测输入到 ViT 中,并通过 resampler 对 ViT 输出的 token 进行 down sample。Feature fusion decoder 将 text token 作为输入,并在每个 layer 中先将 vision encoder 的 output 作为 query 进行 cross attention,之后进行 self attention 以完成视觉与语言特征的融合。最后,对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中,policy head 根据 feature fusion decoder 输出的当前和历史 token 序列直接输出当前的 7 DoF relative action,包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。
在训练过程中,RoboFlamingo 利用预训练的 ViT、LLM 和 Cross Attention 参数,并只微调 resampler、cross attention 和 policy head 的参数。
实验结果
数据集:
CALVIN(Composing Actions from Language and Vision)是一个开源的模拟基准测试,用于学习基于语言的 long-horizon 操作任务。与现有的视觉 - 语言任务数据集相比,CALVIN 的任务在序列长度、动作空间和语言上都更为复杂,并支持灵活地指定传感器输入。CALVIN 分为 ABCD 四个 split,每个 split 对应了不同的 context 和 layout。
定量分析:
RoboFlamingo 在各设置和指标上的性能均为最佳,说明了其具有很强的模仿能力、视觉泛化能力以及语言泛化能力。Full 和 Lang 表示模型是否使用未配对的视觉数据进行训练(即没有语言配对的视觉数据);Freeze-emb 指的是冻结融合解码器的嵌入层;Enriched 表示使用 GPT-4 增强的指令。
消融实验:
不同的 policy head:
实验考察了四种不同的策略头部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根据当前观测预测历史,其性能最差,MLP w hist 将历史观测在 vision encoder 端进行融合后预测 action,性能有所提升;GPT 和 LSTM 在 policy head 处分别显式、隐式地维护历史信息,其表现最好,说明了通过 policy head 进行历史信息融合的有效性。
视觉-语言预训练的影响:
预训练对于 RoboFlamingo 的性能提升起到了关键作用。实验显示,通过预先在大型视觉-语言数据集上进行训练,RoboFlamingo 在机器人任务中表现得更好。
模型大小与性能:
虽然通常更大的模型会带来更好的性能,但实验结果表明,即使是较小的模型,也能在某些任务上与大型模型媲美。
指令微调的影响:
指令微调是一个强大的技巧,实验结果表明,它可以进一步提高模型的性能。
定性结果
相较于基线方法,RoboFlamingo 不但完整执行了 5 个连续的子任务,且对于基线页执行成功的前两个子任务,RoboFlamingo 所用的步数也明显更少。
总结
本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展。
#语义分割经典网络及轻量化模型
本文从两方面着手考虑,一方面是基于语义分割经典网络的介绍,向大家展示语义分割方向上的,经典的网络模型。另一方面,从计算的性能入手,向大家介绍语义分割方向的轻量化模型。
基于图像的语义分割又被理解为密集的像素预测,即将每个像素进行分类,这不仅仅对于算法是一个考验,而且对于硬件的计算性能也有很高的要求。因此,本文从两方面着手考虑,一方面是基于语义分割经典网络的介绍,向大家展示语义分割方向上的,经典的网络模型。另一方面,从计算的性能入手,向大家介绍一下语义分割方向的轻量化模型。在文章的最后,本文给出了一些语义分割方向上值得关注的博主还有网站。由于作者文笔有限,文章中难免会有错误出现,还望各位读者及时指正,共同学习进步。
#经典语义分割模型
全卷积神经网络(FCN)
FCN神经网络作为深度学习中,语义分割网络的经典之作,是必须要理解和掌握的一个网络结构,它借鉴了传统的分类网络结构,而又区别于传统的分类网络,将传统分类网络的全连接层转化为卷积层。然后通过反卷积(deconvolution)进行上采样,逐步恢复图像的细节信息并扩大特征图的尺寸。在恢复图像的细节信息过程中,FCN一方面通过可以学习的反卷积来实现,另一方面,采用了跳跃连接(skip-connection)的方式,将下采样过程中得到的特征信息与上采样过程中对应的特征图相融合。
虽然从目前的研究来看,FCN存在着诸如语义信息丢失,缺乏对于像素之间关联性的研究,但是FCN引入了编码-解码的结构,为深度学习在语义分割方向上的应用打开了一扇大门,也为后续的研究做出了许多借鉴之处。
FCN-8s在VOC-2012上的准确率如下图所示:
论文地址:https://arxiv.org/abs/1411.4038
代码实现地址:https://github.com/MarvinTeichmann/tensorflow-fcn[Tensorflow]
SegNet
SegNet采用了FCN的编码-解码的架构,但是与FCN不同的是,SegNet没有使用跳跃连接结构,并且在上采样的过程中,不是使用反卷积,而是使用了unpooling的操作。
SegNet相较于FCN有了两点的改进。第一,由于unpooling不需要进行学习,所以相比于FCN,SegNet的参数数量明显下降,从而降低了计算量。第二,由于SegNet在解码器中使用那些存储的索引来对相应特征图进行去池化操作。从而保证了高频信息的完整性,但是对于较低分辨率的特征图进行unpooling时,同样会忽略像素近邻之间的信息。
SegNet在CamVid数据集上的测试结果如下图所示:
论文地址:https://arxiv.org/abs/1511.00561
代码实现地址:https://github.com/tkuanlun350/Tensorflow-SegNet[Tensorflow]
Deeplab系列
deeplab系列是由Google团队设计的一系列的语义分割网络模型。是一个不断进化改进的过程,通过阅读deeplab系列的论文,理解作者一步步的改进思路,无论对于文章的理解,还是设计我们自己的网络结构,都有很大的帮助。deeplabv1的设计亮点在于,采用了空洞卷积和CRF的处理。利用空洞卷积在不增加参数的情况下扩大了感受野的范围。而CRF的后期处理可以更好的提升语义分割的准确率。deeplabv2在v1的基础之上增加了ASPP(空洞空间金字塔池化)模块。如下图所示:
通过不同尺度的空洞率来提取不同尺寸的特征,更好的融合不同的特征,达到更好的分割效果。deeplabv3的创新点有两个,一个是改进了ASPP模块,第二个是参考了HDC的设计思想,也就是横纵两种结构。对于改进的ASPP模块,如下图所示。
对比于v2的ASPP模块,可以发现V3的ASPP模块增加了一个1x1的卷积和全局池化层。对于ASPP模块的构建,作者采用了“纵向”的设计方式,如下图所示:
与”纵向“向对应的是”横向“的设计,如下图所示:
作者将conv4的结构连续复制了3次,后面的每一个block块都有一个基础的空洞率,而在每一个block块里面,作者又参考了HDC的思想,将卷积层的空洞率设计为[1,2,1]的形式。这里的[1,2,1]设计模式是作者经过试验得到的最好设计结构。deeplabv3+的设计相较于v3有两点改进,第一点是解码的方式,第二点是采用改进后的xception网络作为backbone。下图是deeplabv3+原文中对于v3和v3+以及编码-解码结构的模型对比。
deeplabv3+文章中使用了两种backbone,分别是Resnet101和改进后的xception网络。通过文章中的实验对比,以改进后的xception作为backbone效果要优于Resnet101。
deeplab的官方也发布过一个ppt,讲述的是deeplab v1,v2和v3的主要区别,大家可以从ppt中获取到更多的信息。下载链接:http://web.eng.tau.ac.il/deep_learn/wp-content/uploads/2017/12/Rethinking-Atrous-Convolution-for-Semantic-Image-Segmentation-1.pdf。
deeplabv1论文地址:https://arxiv.org/abs/1412.7062
deeplabv2论文地址:https://arxiv.org/abs/1606.00915
deeplabv3论文地址:https://arxiv.org/abs/1706.05587
deeplabv3+论文地址:https://arxiv.org/abs/1802.02611
deeplabv3 代码实现地址:https://github.com/rishizek/tensorflow-deeplab-v3[Tensorflow]
deeplabv3+ 代码实现地址:https://github.com/rishizek/tensorflow-deeplab-v3-plus[Tensorflow]
RefineNet
RefineNet提出了一种多路径的提炼网络,通过使用远距离的残差连接,尽可能多的利用下采样过程中的信息。从而得到高分辨率的预测图。文章通过细心的设计RefineNet模块,通过链式残差池化(CRP)来融合上下文信息,将粗糙的深层特征和细节特征进行融合。实现了端到端的训练。文章针对于目前语义分割存在的问题进行改进。目前的分割算法采用降采样使得很多的细节信息丢失,这样得到的结果较为粗糙。而针对于这种情况,文章的Introduction部分介绍了目前的主要改进方式。
- 利用反卷积来进行上采样,产生高分辨率的特征图。但是反卷积不能恢复低层的特征,因为这部分信息在下采样的过程中已经丢失,已经不可能找回(这里我想添加一点自己的理解,例如32倍的下采样,那么理论上小于32x32像素的目标将会丢失,而丢失的目标无论怎样反卷积都不会被找回,因为下采样的特征图中没有包含该目标的任何信息)。
- 利用空洞卷积。利用空洞卷积来产生较高分辨率的特征图,这样的操作不会带来额外的参数,但是由于特征图的分辨率增加,会造成巨大的计算和存储资源的消耗,因此deeplab输出的尺寸只能是输入尺寸的1/8甚至更小。而且,由于空洞卷积只是对于特征图的粗略采样,还是会存在潜在的重要细节信息的丢失。
- 利用中间层的信息。例如FCN网络的跳跃连接。但是还是缺少较强的空间信息。文章作者认为各层的信息对于分割都是有用的。高层特征有助于类别识别,低层特征有助于生成精细的边界。如何有效的利用各个层的信息非常的重要。
作者围绕如何有效的利用各个层的信息,设计了RefineNet网络结构,如下图所示:
该网络将不同分辨率的特征图进行融合,通过上图左侧的ResNet101预训练模型,产生四个分辨率的特征图,然后将四个特征图分别通过对应的RefineNet block模块进行进行融合。由上图也可以看出,除了RefineNet-4模块外,其余的RefineNet block都是有两个输入,用于不同尺寸特征图的提炼融合。RefineNet block的细节图如下所示。
主要的组成部分包括Residual convolution unit(RCU,残差卷积单元), Multi-resolution fusion(MRF,多分辨率融合),Chained residual pooling(CRP,链式残差池化)和最后的Output convolutions(输出卷积 )。其中各个部分的作用为:
- RCU:该部分用来作为一个自适应卷积集,主要是微调ResNet的权重。
- MRF:从名字可以看出,该部分是将所有的输入特征图的分辨率调整为最大特征图的分辨率尺寸。
- CRP:通过链式残差池化部分,可以有效的捕捉上下文信息。
- 输出卷积:在最终的输出之前,再加一个RCU。
RefineNet再VOC2012数据集上的测试结果如下图所示:
论文地址:https://arxiv.org/abs/1611.06612
代码实现地址:https://github.com/eragonruan/refinenet-image-segmentation[Tensorflow]
PSPNet
PSPnet全称为Pyramid Scene Parsing Network ,它采用的金字塔池化模块,来融合图像的上下文信息,注重像素之间的关联性。如何理解像素之间的关联性和图像中的上下文信息呢?比如我们看到了一个物体,由于拍摄角度,光线等问题,很难从物体本身来分别它究竟是条船还是一辆小汽车。但是我们知道船在水里,而车在路上,因此,结合物体所处的周围环境信息,就能很好的分辨这个物体是什么了。PSPnet利用预训练模型提取特征后,将采用金字塔池化模块提取图像的上下文信息,并将上下文信息与提取的特征进行堆叠后,经过上采样得到最终的输出。而特征堆叠的过程其实就是讲目标的细节特征和全局特征融合的过程,这里的细节特征指的是浅层特征,也就是浅层网络所提取到的特征,而全局特征指的是深层的特征,也就是常常说的上下文特征。对应的就是深层网络提取的特征。
PSPNet在VOC2012上的测试结果如下图所示:
论文地址:https://arxiv.org/abs/1612.01105
代码实现地址:https://github.com/hellochick/PSPNet-tensorflow[Tensorflow]
#轻量化模型
以上介绍的是近些年来的深度学习领域中语义分割方向比较经典的文章,上述的文章注重的是分割准确率的提升,但是在计算速度上并不是很出色。下面为大家介绍的是语义分割领域的轻量化模型。轻量化模型在注重计算的速度的同时,也保证了分割的准确率。
ENet
ENet是基于SegNet改进的实时分割的轻量化模型,相比于SegNet,ENet的计算速度提升了18倍,计算量减少了75倍,参数量减少了79倍。并且在CityScapes和CamVid的数据集上,ENet的效果都要好于SegNet。ENet作为轻量化模型,设计的初衷就是如何最大限度的减少计算量,提升计算速度。ENet的网络架构如下图所示。
其中initial block 和bottleneck分别如下所示。
从提升网络的计算速度来看,文章主要有以下几点改进。
- 在Initial Block中,文章将pooling操作和卷积操作并行,然后堆叠到一起,这将Initial Block的inference时间加速了10倍。
- ENet的前两个block大大的降低了输入图像的尺寸,而且只用了很少的特征图。而作者这样做的原因是考虑到视觉信息在空间上是高度冗余的,可以压缩成更有效的表示方式。
- ENet网络将nxn的卷积核拆分为nx1和1xn的卷积核,从而有效的减少了参数量和计算量。
从提升网络的准确率来看,文章主要有以下的几点改进。
- ENet去除了初始几层的大部分的Relu激活函数,实验发现可以提高网络的准确性。
- 在下采样的过程中,ResNet的block会采用stride为2的1x1卷积,这会造成75%的输入信息丢失,ENet采用处理方法是将卷积核改为2x2大小,使得卷积核能覆盖整个输入,从而有效的改善了信息的流动和准确率。
- 文章使用了空洞卷积,实验证明在Cityscapes数据集上Iou有了4%左右的提升。
- ENet在卷积层后面使用Spatial Dropout,可以获得比stochastic depth和L2 weight decay更好的效果。
论文地址:https://arxiv.org/abs/1606.02147
代码地址:https://github.com/kwotsin/TensorFlow-ENet[Tensorflow]
ICNet
ICNet是针对于高分辨率图片的实时分割模型,网络设计的目标是能够快速分割,同时保证一个合适的准确率。ICNet采用了多尺度的图像输入,首先让低分辨率的图像经过一个Heavy CNN,得到较为粗糙的预测特征图,然后提出了级联特征融合单元和级联标签指导的策略,来引入中、高分辨率的特征图,逐步提高精度。整个网络的结构如下图所示。
该网络结构十分有趣,值得学习,对于较低分辨率的输入图像,ICNet采用Heavy CNN来提取网络的特征,这里的Heavy CNN可以看作是计算量较大的编码器。而针对于中、高分辨率的输入图像而言,ICNet采用的网络层数以此减少,这样,虽然较低分辨率的输入图像经过了最深层的网络结构,但是由于其分辨率较小,因此计算量也受到了限制。而较高分辨率的输入图像,则是采用较浅的网络结构,计算量同样得到降低。这样,就利用了低分辨率图片的高效处理和高分辨率图片的高推断质量。而这也恰恰是ICNet和其他cascade structures网络结构不同的地方,虽然也有其他的网络从单一尺度或者多尺度的输入融合不同层的特征,但是其他的网络都是采取的是所有的输入经过相同的网络,这就会造成计算量的加大,从而使得计算的速度大大降低。
上图中的CFF(cascade feature fusion unit) 就是级联特征融合单元。如下图所示。
CFF模块用来融合不同分辨率的输入,与反卷积相比,CFF使用二线性插值上采样+空洞卷积的组合只需要更小的卷积核来获取相同大小的感受野,而且空洞卷积可以整合相邻像素的特征信息,而直接上采样使得每个元素变得相对孤立,缺少了像素与周围像素之间的关联。
ICNet在Cityscapes数据集上的表现如下图所示。
论文地址:https://arxiv.org/abs/1704.08545
代码实现地址:https://github.com/hellochick/ICNet-tensorflow[Tensorflow]
CGNet
CGNet网络的核心架构是文章提出的CG模块,也就是上下文指导模块。CG模块能够学习局部特征和周围环境上下文的联合特征,并通过引入全局上下文特征进一步改善联合特征。文中指出CG模块的四个优势,分别是:
- CG模块能够学习局部特征和周围环境上下文的联合特征。
- CG模块利用全局上下文来提高联合特征。其中,全局上下文用来逐通道的对于特征图的权重进行调整,以此来突出有用的部分,而压制没有用的部分(这里可以通过阅读SENet的文章,来进一步的理解)。
- CG模块被用在了CGnet的所有阶段,因此CGNet可以从语义层(深层网络)或者空间层(浅层网络)来获取上下文信息,区别于PSPNet、DFN等网络,这些网络这是在编码之后获取上下文特征。
- CGNet只应用了三个下采样,因此能够更好的保留空间信息。
CGNet的网络结构如下图所示。
CGNet的网络架构遵循了“深而浅”的原则,整个网络只有51层。并且CG模块采用的是逐通道卷积(channel-wise convolutions)的方式。从而降低了计算的成本。
CG模块的结构如下图所示。
CG模块主要包含四个部分,如下所示。
CG模块还采用了残差学习来学习高复杂度的特征并在训练期间改善梯度反向传播。文中提出了两种方式,分别为局部残差学习 (LRL) 和全局残差学习 (GRL)。LRL将输入和联合特征提取器进行连接,GRL则是将输入和全局特征提取器进行连接。从直观上来说,GRL比LRL更能促进网络中的信息传递,而文章后面的实验也证明,GRL更能提升分割精度。
总结
以上总结是基于深度学习中语义分割领域的经典算法和轻量化模型。随着技术的发展和硬件条件的不断进步,基于像素级别的分割才是图像分类的主流方向。从FCN至今的短短几年,语义分割技术已经取得了很大的发展,越来越多的新颖的技术不断的被提出。小编总结了最近几年的文章,总结了一下未来的语义分割发展方向,仅供大家参考。
- 引入自注意模型。自注意力模型最早的应用是在自然语言处理方面。后来慢慢引入到计算机视觉领域,例如在图像识别领域,注意力模型可以让深度学习模型更加关注某一些局部的关键信息。在CGNet中,同样也引入了注意力模型,来调整特征图的权重,从而更加有效的区分和利用各个特征。
- 无监督/弱监督的语义分割。由于语义分割是基于像素级别的分类,而传统的有监督的语义分割需要大量的训练数据集,这就需要花费大量的人力物力去制作标签数据集,而且由于针对的场景不同,采集到的数据集也不一样,这就会造成大量的繁重的数据集标签制作。因此,基于弱监督的语义分割也自然成为了研究的热门趋势。近年来,基于弱监督的语义分割文章也越来越多。
- 轻量化网络。在现有的计算条件下,虽然准确率已经能够达到很好的表现,但是在计算速度上却不尽如人意,语义分割技术的落地实现,需要提高分割模型的计算速度。一方面,可以采用模型压缩、模型加速的方式来解决。另一方面,也可以从模型本身入手,设计轻量化模型,在尽可能不损失准确率的情况下,提高模型的计算速度。
#小红书の全新框架
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。
在 AAAI 2024 上,小红书搜索算法团队提出了一个创新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本,即那些在推理过程中未能得出正确答案的数据,虽常被视为无用,实则蕴含着宝贵的信息。验证负样本对大模型蒸馏的价值
论文提出并验证了负样本在大模型蒸馏过程中的价值,构建一个模型专业化框架:除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。通过一系列广泛的实验,我们展示了负向数据在 LLM 知识蒸馏中的关键作用。
背景
如今,在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。然而,思维链已被证明是千亿级参数模型才具有的涌现能力。这些模型的繁重计算需求和高推理成本,阻碍了它们在资源受限场景中的应用。因此,我们研究的目标是使小模型能够进行复杂的算术推理,以便在实际应用中进行大规模部署。
知识蒸馏提供了一种有效的方法,可以将 LLMs 的特定能力迁移到更小的模型中。这个过程也被称为模型专业化(model specialization),它强制小模型专注于某些能力。先前的研究利用 LLMs 的上下文学习(ICL)来生成数学问题的推理路径,将其作为训练数据,有助于小模型获得复杂推理能力。然而,这些研究只使用了生成的具有正确答案的推理路径(即正样本)作为训练样本,忽略了在错误答案(即负样本)的推理步骤中有价值的知识。
如图所示,表 1 展示了一个有趣的现象:分别在正、负样本数据上训练的模型,在 MATH 测试集上的准确答案重叠非常小。尽管负样本训练的模型准确性较低,但它能够解决一些正样本模型无法正确回答的问题,这证实了负样本中包含着宝贵的知识。此外,负样本中的错误链路能够帮助模型避免犯类似错误。另一个我们应该利用负样本的原因是 OpenAI 基于 token 的定价策略。即使是 GPT-4,在 MATH 数据集上的准确性也低于 50%,这意味着如果仅利用正样本知识,大量的 token 会被浪费。因此,我们提出:相比于直接丢弃负样本,更好的方式是从中提取和利用有价值的知识,以增强小模型的专业化。
模型专业化过程一般可以概括为三个步骤:
1)思维链蒸馏(Chain-of-Thought Distillation),使用 LLMs 生成的推理链训练小模型。
2)自我增强(Self-Enhancement),进行自蒸馏或数据自扩充,以进一步优化模型。
3)自洽性(Self-Consistency)被广泛用作一种有效的解码策略,以提高推理任务中的模型性能。
在这项工作中,我们提出了一种新的模型专业化框架,该框架可以全方位利用负样本,促进从 LLMs 提取复杂推理能力。
- 我们首先设计了负向协助训练(NAT)方法,其中 dual-LoRA 结构被设计用于从正向、负向两方面获取知识。作为一个辅助模块,负向 LoRA 的知识可以通过校正注意力机制,动态地整合到正向 LoRA 的训练过程中。
- 对于自我增强,我们设计了负向校准增强(NCE),它将负向输出作为基线,以加强关键正向推理链路的蒸馏。
- 除了训练阶段,我们还在推理过程中利用负向信息。传统的自洽性方法将相等或基于概率的权重分配给所有候选输出,导致投票出一些不可靠的答案。为了缓解该问题,提出了动态自洽性(ASC)方法,在投票前进行排序,其中排序模型在正负样本上进行训练的。
方法
我们提出的框架以 LLaMA 为基础模型,主要包含三个部分,如图所示:
- 步骤 1 :对负向 LoRA 进行训练,通过合并单元帮助学习正样本的推理知识;
- 步骤 2 :利用负向 LoRA 作为基线来校准自我增强的过程;
- 步骤 3 :在正样本和负样本上训练排名模型,在推理过程中根据其得分,自适应地对候选推理链路进行加权。
2.1 负向协助训练(NAT)
一个两阶段的负向协助训练(NAT)范式,分为负向知识吸收与动态集成单元两部分:
2.1.1 负向知识吸收
2.1.2 动态集成单元
一种纠正注意力机制来实现这一目标,如下所示:
2.2 负向校准增强(NCE)
为了进一步增强模型的推理能力,我们提出了负校准增强(NCE),它使用负知识来帮助自我增强过程。我们首先使用 NAT 为中的每个问题生成对作为扩充样本,并将它们补充到训练数据集中。对于自蒸馏部分,我们注意到一些样本可能包含更关键的推理步骤,对提升模型的推理能力至关重要。我们的主要目标是确定这些关键的推理步骤,并在自蒸馏过程中加强对它们的学习。
2.3 动态自洽性(ASC)
2.3.1 排序模型训练
理想情况下,我们希望排序模型为得出正确答案的推理链路分配更高的权重,反之亦然。因此,我们用以下方式构造训练样本:
2.3.2 加权策略
我们将投票策略修改为以下公式,以实现自适应地重新加权候选推理链路的目标:
从知识迁移的角度来看,ASC 实现了对来自 LLMs 的知识(正向和负向)的进一步利用,以帮助小模型获得更好的性能。
实验
本研究专注于具有挑战性的数学推理数据集 MATH,该数据集共有 12500 个问题,涉及七个不同的科目。此外,我们还引入了以下四个数据集来评估所提出的框架对分布外(OOD)数据的泛化能力:GSM8K、ASDiv、MultiArith和SVAMP。
对于教师模型,我们使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API来生成推理链。对于学生模型,我们选择 LLaMA-7b。
在我们的研究中有两种主要类型的基线:一种为大语言模型(LLMs),另一种则基于 LLaMA-7b。对于 LLMs,我们将其与两种流行的模型进行比较:GPT3 和 PaLM。对于 LLaMA-7b,我们首先提供我们的方法与三种设置进行比较:Few-shot、Fine-tune(在原始训练样本上)、CoT KD(思维链蒸馏)。在从负向角度学习方面,还将包括四种基线方法:MIX(直接用正向和负向数据的混合物训练 LLaMA)、CL(对比学习)、NT(负训练)和 UL(非似然损失)。
3.1 NAT 实验结果
所有的方法都使用了贪婪搜索(即温度 = 0),NAT 的实验结果如图所示,表明所提出的 NAT 方法在所有基线上都提高了任务准确性。
从 GPT3 和 PaLM 的低值可以看出,MATH 是一个非常困难的数学数据集,但 NAT 仍然能够在参数极少的情况下表现突出。与在原始数据上进行微调相比,NAT 在两种不同的 CoT 来源下实现了约 75.75% 的提升。与 CoT KD 在正样本上的比较,NAT 也显著提高了准确性,展示了负样本的价值。
对于利用负向信息基线,MIX 的低性能表明直接训练负样本会使模型效果很差。其他方法也大多不如 NAT,这表明在复杂推理任务中仅在负方向上使用负样本是不够的。
3.2 NCE 实验结果
如图所示,与知识蒸馏(KD)相比,NCE 实现了平均 10%(0.66) 的进步,这证明了利用负样本提供的校准信息进行蒸馏的有效性。与 NAT 相比,尽管 NCE 减少了一些参数,但它依然有 6.5% 的进步,实现压缩模型并提高性能的目的。
3.3 ASC 实验结果
为了评估 ASC,我们将其与基础 SC 和 加权(WS)SC 进行比较,使用采样温度 T = 1 生成了 16 个样本。如图所示,结果表明,ASC 从不同样本聚合答案,是一种更有前景的策略。
3.4 泛化性实验结果
除了 MATH 数据集,我们评估了框架在其他数学推理任务上的泛化能力,实验结果如下。
结语
本项工作探讨了利用负样本从大语言模型中提炼复杂推理能力,迁移到专业化小模型的有效性。小红书搜索算法团队提出了一个全新的框架,由三个序列化步骤组成,并在模型专业化的整个过程中充分利用负向信息。负向协助训练(NAT)可以从两个角度提供更全面地利用负向信息的方法。负向校准增强(NCE)能够校准自蒸馏过程,使其更有针对性地掌握关键知识。基于两种观点训练的排序模型可以为答案聚合分配更适当的权重,以实现动态自洽性(ASC)。大量实验表明,我们的框架可以通过生成的负样本来提高提炼推理能力的有效性。
论文地址:https://arxiv.org/abs/2312.12832
#RT-X~~
具身智能,首先就是要共用 AI。全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步
过去一年,生成式人工智能发展的核心关键词,就是「大」。
人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。
那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家机器人呢?能清理桌子、叠衣服、做早餐的机器人在哪里?
一个重要的原因是机器人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻松获取,而机器人的训练数据通常是由研究人员在实验室里根据具体的任务一个一个地创建的。这个过程往往漫长而又乏味。
如果没有大量数据的支撑,机器人将无法脱离实验室,无法独立执行做早餐等任务。令人惊艳的机器人研究成果,往往也只是某一个实验室研发出来的某一款机器人在执行某几项任务,对于其他实验室的机器人研究,可参考性有限。
特斯拉机器人 Optimus 在远程操控下叠衣服。
如果有一个汇集了许多机器人经验的「课本」,新机器人可以从中一次性学习,让机器人共享训练数据。这种做法是否能突破手动让机器人执行新任务带来的时间与精力限制?
为了得到问题的答案,由谷歌 Deepmind 发起,来自北美、欧洲、亚洲的 34 个机器人实验室共同启动了 RT-X 项目。RT-X 项目的目标是汇集数据、资源和代码,让通用机器人走进现实。该项目的主要参与者加州大学伯克利分校的 Sergey Levine 教授和 Google DeepMind 的资深科学家 Karol Hausman 联合撰写了「THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用机器人大脑的全球合作项目)」一文,总结了 RT-X 项目取得的进展。
RT-X 项目至今都做了哪些努力,让我们一起来看看。
造通用机器人,要从哪方面下手?
人类拥有强大的学习能力。我们的大脑在经过一点练习后,就可以指挥四肢行动,比如拿起工具、骑自行车或上车这种动作。换句话说,也就是我们的躯体发生了一些变化,但大脑能够理解。RT-X 的目标是让机器人也拥有这种「思维方式」:使单个深度神经网络能够控制许多不同类型的机器人。这种能力称为「交叉体现」。
然而「交叉体现」的问题在于,经过机器人数据训练的深度神经网络能否「驾驭」各种各样的机器人。一旦这些外观、物理特性和能力截然不同的机器人能被单个神经网络「大一统」,那么将释放出大型数据集对机器人学习的潜力。
RT-X 项目发布的 Open X-Embodiment 数据集规模庞大,目前它含有 22 种机器人的近 100 万次试验数据,其中包括市场上常用的机器臂。像拾取和放置物体、组装以及电缆布线这种专项任务的数据也都包含在其中,共有约 500 种不同的操作和数千种与其他物体的互动数据。Open X-Embodiment 是目前最大的真实机器人动作开源数据集。
一个惊喜的发现是,大模型从大型数据集学习的思路也适用于机器人领域。使用相对简单的机器学习方法,利用与当前 LLM(如 ChatGPT)相同的模型,研究者能够根据 Open X-Embodiment 数据集训练普遍的机器人控制算法。就像一个人可以通过大脑学习开车或骑自行车一样,在 Open X-Embodiment 数据集上训练的模型可以简单地通过机器人自带的摄像头识别模型所控制的机器人类型。例如摄像头识别出的是 UR10 工业臂,模型将发送适合 UR10 的命令。如果识别出的是低成本的 WidowX hobbyiest 机械臂,模型也会相应地调整指令。
谷歌基于 Open X-Embodiment 数据集训练出来了 RT-X 模型。为了测试「机器人大模型」的能力,参与 RT-X 项目的五个实验室分别对其进行了测试。他们将 RT-X 的训练结果与各自独立开发的最佳控制系统进行了比较。每个实验室的测试项目都涉及其机器人原本的研究任务,如拾取和移动物体、开门和通过夹子布线等。值得注意的是,统一的「大模型」超越了各个实验室的最佳方法,使机器人完成任务的平均成功率提高了约 50%。
更惊人的发现是,如下列动图所示,RT-X 模型可以运用其他机器人的经验来提高不同环境中正在被训练的机器人的鲁棒性。
在同一个实验室中,即使机器人在执行相同的任务,环境稍微不同,它也有可能无法成功完成同一动作。怪不得马斯克要强调在换了衣服、盒子和桌子和之后,特斯拉 Optimus 在未来肯定能学会叠衣服呢。
因此,能够借鉴其他机器人在其他情况下的经验有助 RT-X 模型控制的机器人应对变化和特殊情况。
搭建可以自主推理的机器人
受到以上成果的鼓舞,谷歌 DeepMind 的研究团队继续研究了如何如何将这些数据整合到一个具有更加深入的推理能力的系统中。仅从机器人数据中很难学习到复杂的语义推理。如「在罐子和橘子之间移动苹果」这个复杂任务,需要机器人理解图像中物体之间的语义关系、基本常识还有其他与物理能力不直接相关的符号知识等等。
为了解决复杂语义推理的问题,研究人员决定加入另一个庞大的数据源:全网的图像和文本数据。他们使用了一个现有的大型视觉语言模型,该模型已经精通许多需要理解自然语言和图像之间联系的任务。它是一个类似 ChatGPT 或 Bard 这样公开可用的模型。这个模型可以根据图片输入做出回答,能够解决视觉问答、字幕以及其他开放式视觉理解任务之类的问题。
研究团队发现,经过训练,生成式 AI 模型也能输出机器人动作以响应机器人命令(如「把香蕉放在盘子上」),机器人继而根据命令执行动作。基于这些发现,谷歌 DeepMind 研究团队将这种方法应用到 Open X-Embodiment 数据集中。
为了评估从互联网获取的智能和来自全世界的机器人数据的结合情况,谷歌 DeepMind 用他们的移动机械臂对 RT-X 模型进行了测试。研究人员对它进行了最严格的通用化基准测试。这要求机器人掌握识别物体、成功操纵物体、根据复杂的文本命令、整合文本和图像信息、进行逻辑推理等能力。这种能力正是人类成为通才的原因之一。
研究人员进行了两组评估。他们使用了一个不涉及谷歌的机器人、不包括多机器人数据的模型作为基准。事实上,由于 Open X-Embodiment 数据集中有超过 10 万次演示来自谷歌 DeepMind 的机器人,数据集中其他机器人数据是否起效,这个问题的答案仍然未知。因此,他们又尝试了基于 Open X-Embodiment 整体数据的评估。
对谷歌机器臂而言,「将苹果移到易拉罐和橘子之间」是最难的评估任务之一。这是一项涉及空间关系推理的任务。在「将一个物体放在写着解为 2+3 的纸上」这项任务中,它还需要解数学题。这些挑战旨在测试 RT-X 模型赋予机器臂的推理以及得出结论的能力。
在这种情况下,机器臂推理能力(例如推理出 「之间 」和 「上面 」的含义)来自于视觉语言模型训练中的全网数据,而将推理输出应用于机器人行为的能力(即使机器臂向正确方向移动的命令)来自 RT-X 对机器人数据的训练。下面的视频展示了一个评估实例,研究团队要求机器人执行一项未包含在训练数据中的任务。
即使没有经过专门训练,谷歌的机器臂也能够遵循指令「在罐子和橘子之间移动苹果」。这种能力是由 RT-X 实现的,这是迈向通用机器人大脑的第一步。
虽然这些任务对人类来说可能不值一提,但对通用机器人来说却是一大难题。如果没有具体的机器人演示数据清楚地说明「之间」、「附近」和「上面」是什么意思,即使共享了机器人的训练数据,基于此的系统也无法弄清楚这些命令的含义。
通过整合视觉语言模型中的全网知识,RT-X 的完整系统为机器人研究解决了很多问题。研究团队发现共享机器人数据的加入使谷歌机器人的泛化能力提高了三倍。这表明,Open X-Embodiment 数据集不仅有助于机器人获得各种物理技能,还有助于更好地让与物理动作与视觉语言模型中的语义和符号知识联系起来。这些联系使得机器人具备了一定的常识。有朝一日,机器人能够基于这些方法理解「给我拿早餐」这种复杂和微妙的命令,并为你端上一份热乎乎的早饭。
RT-X 项目的下一步
RT-X 项目展示了机器人社区凝心聚力之后取得的巨大进展。得益于跨地区、跨机构的努力,谷歌 DeepMind 汇集了多样化的机器人数据集,进行了全面的多机器人评估。此前,这对于任何单一机构都是不可能做到的事。RT-X 的发起者希望能有更多的研究人员入这项合作,分享他们的数据。他们还将开发工具、模型和基础设施来支持具身智能研究。
就像大型语言模型已经掌握了广泛的基于语言的任务一样,RT-X 项目目前的进展已经提供了一种大型具身机器人模型改变机器人领域的可能性。在未来,谷歌 DeepMind 将会使用相同的基础模型作为许多现实中的机器人做任务的基础。也许有一天,只通过微调,甚至只向预训练的基础模型输入提示,机器人就能获得新技能。你可以像使用 ChatGPT 一样,无需告诉机器人如何使用裱花袋或要写什么字体,机器人就能在一个蛋糕上做「生日快乐」的裱花。
随着越来越多的实验室参与 RT-X 项目,谷歌 DeepMind 希望进一步推进单个神经网络控制多台机器人的可能。未来他们可能将添加生成的各种模拟数据,加入更多种类的机器人(例如有不同数量的手臂或手指的机器人),引入不同的传感器套件(如深度相机和触觉传感器),结合操纵和运动行为等。
也许在未来,通用化的机器人大脑可以驱动任何机器人,全球所有机器人都可以从共享的数据中受益。
参考链接:
https://twitter.com/dotey/status/1746414853311377455