2022 全球 AI 模型周报

Zilliz Planet

于 2022-08-12 15:19:22 发布

阅读量982

点赞数

分类专栏： Towhee 文章标签：人工智能计算机视觉深度学习机器学习 transformer

本文链接：https://blog.csdn.net/weixin_44839084/article/details/126304856

版权

Towhee 专栏收录该内容

48 篇文章 29 订阅

订阅专栏

本周介绍了 5 个计算机视觉领域的深度学习模型：动作识别框架新范式 STRM，智能计数重复动作新基准 TransRAC，高效且可拓展的注意力机制 MaxViT，新型图像检索网络 CVNet，文本与视觉专家联手视频检索 Collaborative Experts

如果你觉得我们分享的内容还不错，请不要吝啬给我们一些免费的鼓励：点赞、喜欢、或者分享给你的小伙伴。

https://github.com/towhee-io/towhee/tree/main/towhee/models

CVPR 2022 动作识别框架新范式 STRM，用最小的样本获得最高的精度

出品人：Towhee 技术团队顾梦佳

各大高校与 AI 机构在 2022 年 4月联合提出了一种新颖的小样本动作识别框架 STRM（Spatio-temporal Relation Model）¹，增强特定类别特征的可辨别性，同时学习更高阶的时间表征。消融实验表明，STRM 在各种通用动作识别视频数据集（Kinetics、SSv2、HMDB51、UCF101）上均能取得优异的表现。尤其在最具有挑战性的 SSv2 基准测试中，STRM 在视频动作分类任务上的性能超越当下的SoTA模型，精度能够提升 3.5% 。

Architecture of STRM

STRM 的核心是一个用于增加时空特征的模块，利用 local patch-level 和 global frame-level 两个子模块帮助理解时间和空间层面的上下文。局部补丁级别模块（local patch-level）能够有效的捕捉动作的外观特征。全局帧级模块（global frame-level）则对更广泛的时间上下文进行编码，从而获取在时间上相关的物体的特征。最终，STRM 获得了更加丰富的时空表征，能够更好地学习与匹配查询目标和动作之间的关系。此外，STRM 又在在局部补丁级别特征上引入一个针对查询的分类器，进一步在框架的各个阶段都突出了特定类别的特征。

相关资料：

模型代码：https://github.com/Anirudh257/strm
论文：Spatio-temporal Relation Modeling for Few-shot Action Recognition

CVPR 2022 Oral: TransRAC 智能计数重复动作，有望成为业界新基准

出品人：Towhee 技术团队顾梦佳

TransRAC² 提出新的具有细粒度注释的动作周期计数数据集（RepCount），更具挑战性，有可能成为重复动作计数的新基准。TransRAC 在自身提出的新数据集和所有其他数据集上，都优于最先进的方法。并且在不进行微调的情况下，TransRAC 也能够在未知的数据集上获得了更好的性能。

TransRAC Architecture

论文提出了一种基于 Transformer 的多尺度时序相关度编码网络（TransRAC），该网络不仅可以处理高频和低频动作，还可以处理长视频和短视频。该方法允许模型自动选择其适应的尺度来计算相关度矩阵，以进行最终计数预测。由于该模型数据集中对行动周期进行了细粒度注释，作者还提出了一种基于回归密度图的方法来预测动作周期，这不仅产生了更好的性能，而且可以提供更好的模型的可解释性。

相关资料：

模型用例：towhee.models.transrac
论文：TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting
更多资料：TransRAC: 基于Transformer的多尺度时域自相关的重复动作计数

ECCV 2022: MaxViT 以线性复杂度扩展到高分辨率图像

出品人：Towhee 技术团队徐锦玲、顾梦佳

Transformers 近年来在计算机视觉领域引起了广泛关注，然而自注意力机制在图像大小方面缺乏可扩展性，限制了它们在视觉 backbones 中的广泛采用。MaxViT³ 的出现解决了这一问题，使得视觉 Transformer 高效且可扩展。在图像分类任务中，没有额外数据的情况下，MaxViT 在 ImageNet-1K 上达到了 86.5% 的top-1 准确率；通过 ImageNet-21K 预训练，MaxViT 能达到 88.7% 的 top-1 准确率。对于下游任务，MaxViT 作为 backbone 在目标检测及其他任务上都表现良好。

MaxViT 模型结构

MaxViT 的核心是 multi-axis attention，它由两个方面组成：阻塞的局部注意力（blocked local ）和扩张的全局注意力（dilated global）。其允许在任意输入分辨率上以线性复杂度进行全局、局部空间交互。相关资料：

模型用例：towhee.models.max_vit
论文：https://arxiv.org/abs/2204.01697

CVPR 2022 Oral：新型图像检索网络 CVNet

出品人：Towhee 技术团队徐锦玲、顾梦佳

对于图像检索任务，目前的方法主要采用通过 global descriptor 匹配的全局检索和局部特征匹配后的几何验证。全局检索在整个数据库中快速执行粗略检索，几何验证通过仅对潜在候选者执行精确评估，从而对粗略检索的结果进行重排序。CVNet⁴ 提出一种的新型图像检索 re-ranking 网络，更关注重排序阶段。该模型采用课程学习模式，使用负样本挖掘和 Hide-and-Seek 策略处理困难样本，在 POxford、RParis、GLDv2 数据集上都达到 SOTA 水平。

CVNet模型框架

CVNet 分为 CVNet-Global 模块和 CVNet- Rerank 模块：CVNet-Global 模块单独训练，采用对比损失和分类损失学习出 Global 特征；在这个 Global 特征的基础上，CVNet- Rerank 模块通过堆叠 4D 卷积层，让模型学习图像之间的几何匹配模式，通过构建特征金字塔和跨尺度特征交互可以在一次推理中获得多尺度匹配（之前通过多次推理得到多尺度的特征）。

相关资料：

模型用例：towhee.models.cvnet
论文：https://arxiv.org/abs/2204.01458

牛津大学提出 Collaborative Experts ，使用自然语言搜索视频

出品人：Towhee 技术团队张晨、顾梦佳

互联网上视频的快速增长使得使用自然语言查询视频内容成为一项重大挑战。人类产生的对视频数据集 "野生"的查询在具体程度上有很大的不同，有些查询描述了具体的细节，如著名人物的名字，来自语音的内容，或屏幕上的文字。Collaborative Experts⁵ 的目标是将视频中的多模式、极高维度的信息浓缩到一个单一的、紧凑的视频表示中，用于使用自由形式的文本查询的视频检索任务，其中的具体程度是没有限制的。

Collaborative Experts模型架构

Collaborative Experts 利用预先训练好的语义嵌入形式的现有知识，其中包括 “一般” 特征，如运动、外观和视觉内容的场景特征。模型实验中还探索了使用来自 ASR 和 OCR 的更“具体”的线索，这些线索对视频来说是断断续续的，并发现这些信号在有效地用于检索方面仍然具有挑战性。Collaborative Experts 汇总来自这些不同的预训练专家模型的信息，并在五个检索基准上进行经验评估。

相关资料：