自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors

人类活动识别(human activity recognition,HAR)算法的主要流派是基于RGB摄像头开发的,通常受到照明、快速运动、隐私保护和大能耗的影响。与此同时,受生物启发的事件摄像头(event cameras)因其独特的特性而引起了极大的兴趣,如高动态范围、密集的时间但稀疏的空间分辨率、低延迟、低功耗等。由于这是一种新兴的传感器,甚至还没有针对HAR的现实大规模数据集。考虑到其巨大的实际价值,在本文中,我们提出了一个大规模基准数据集,称为HARDVS。

2024-04-23 16:07:13 719

原创 MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot Action Recognition

当前最先进的少样本动作识别方法是通过对学习到的视觉特征进行帧级匹配来实现的。然而,它们通常存在两个局限性:1)由于缺乏强制长时间感知的引导,局部帧之间的匹配过程往往不准确;II)显性运动学习通常被忽略,导致部分信息丢失。为了解决这些问题,我们开发了一种运动增强长-短对比学习(MoLo)方法,该方法包含两个关键组件,包括一个长-短对比目标和一个运动自动解码器。具体来说,长-短对比的目标是通过最大化它们与属于同一类视频的全局标记的一致性,赋予局部帧特征长形式的时间感知。

2024-04-18 22:03:38 782 2

原创 HyRSM++: Hybrid relation guided temporal set matching for few-shot action recognition

少样本动作识别是一个具有挑战性但又实用的问题,旨在学习一个模型,仅需少量已标记的样本,可以轻松适应识别新的动作类别。然而,现有的尝试仍然存在两个缺点:(i) 学习个体特征而不考虑整个任务可能导致表示能力受限,以及(ii) 现有的对齐策略对噪声和不对齐的实例敏感。为了解决这两个限制,我们提出了一种新颖的 "混合关系引导的时间集匹配 (HyRSM++)" 方法来进行少样本动作识别。HyRSM++ 的核心思想是整合任务中的所有视频,学习判别性表示,并采用强大的匹配技术。

2024-04-16 17:03:00 227

原创 Learning Discriminative Representations for Skeleton Based Action Recognition

最近,人们开始设计基于GCN的模型来从骨架中提取特征,以执行人类动作识别任务,因为骨架表示比其他模态(如RGB帧)更高效、更健壮。然而,当使用骨架数据时,一些重要的线索(如相关项目)也被丢弃了。这导致一些模糊的动作很难被区分,并且往往被错误分类。为了缓解这个问题,我们提出了一个辅助特征精炼头(FR Head),它由空间-时间解耦和对比特征精炼组成,以获得骨架的判别性表示。模糊样本在特征空间中被动态发现和校准。

2024-04-01 22:04:42 679

原创 SVFormer: Semi-supervised Video Transformer for Action Recognition

半监督动作识别是一项具有挑战性但至关重要的任务,因为视频标注的成本较高。现有方法主要使用卷积神经网络,然而当前革命性的视觉Transformer模型尚未得到充分探索。本文研究了在半监督学习设置下使用Transformer模型进行动作识别的应用。为此,我们引入了SVFormer采用了稳定的伪标签框架(即EMATeacher)来处理未标记的视频样本。虽然各种数据增强方法已被证明对半监督图像分类有效,但它们通常对视频识别产生有限的效果。因此,我们。

2024-03-28 11:12:07 352 1

原创 Transferring Vision-Language Models for Visual Recognition: A Classifier Perspective

从预训练的深度模型向下游任务传递知识,特别是在有限标记样本的情况下,是计算机视觉研究中的一个基本问题。最近,大规模、任务无关的视觉-语言预训练模型的出现,这些模型是通过数十亿个样本学习得到的,为这个问题带来了新的启示。在本研究中,我们探讨了如何有效地将对齐的视觉和文本知识转移到下游视觉识别任务中。我们首先重新审视了线性分类器在传统的迁移学习框架中的作用,然后提出了一种新的范式,在这种范式中,分类器的参数是从文本编码器的语义目标初始化的,并在优化过程中保持不变。

2024-03-22 11:51:36 993 1

原创 YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action

为时空动作检测任务设计一个实时框架仍然是一个挑战,本文提出了一种新的实时动作检测框架YOWOv2。在这个新框架中,YOWOv2利用了3D骨干和2D骨干来进行准确的动作检测,设计了多级检测通道来检测不同规模的动作实例。

2024-03-06 20:36:47 602 1

原创 Cross-Modal Learning with 3D Deformable Attention for Action Recognition

在基于视觉的动作识别中,一个重要的挑战是将具有两个或多个异构模态的时空特征嵌入到单个特征中。在这项研究中,我们提出了一种新的三维变形变压器,用于动作识别,具有自适应时空感受野和跨模态学习方案。三维可变形变压器由三维可变形性、局部节点跨步和时间跨步注意力三个注意力模块组成。

2024-03-05 13:59:16 984

原创 E2E-LOAD: End-to-End Long-form Online Action Detection

最近,基于特征的在线动作检测(OAD)方法越来越受到关注。然而,这些方法受到固定主干设计的限制,无法充分利用可训练主干的潜在优势。本文介绍了一种改进这些方法的端到端学习网络,并结合了提高有效性和效率的骨干网设计。我们提出的模型为所有帧使用共享的初始空间模型,并保持扩展的序列缓存,从而实现低成本的推理。我们提倡一种不对称的时空模型以适应长形式和短形式的建模。此外,我们提出了一种创新和高效的推理机制,加速了广泛的时空探索。通过全面的消融研究和实验,验证了该方法的性能和效率。

2024-03-02 20:39:55 903

原创 A Dense-Sparse Complementary Network for Human Action Recognition

基于rgb的人体动作识别在复杂环境和多变场景下的弱点可以通过骨架模式得到弥补。因此,融合RGB和骨架模式的动作识别方法受到越来越多的关注。然而,由于采样、建模和融合策略的优化不够,现有方法的识别性能仍然不理想,甚至计算成本也很高。在本文中,我们提出了一种密集-稀疏互补网络(DSCNet),旨在以较低的计算成本利用RGB模式和骨架模式的互补信息来提升动作识别的性能。具体而言,我们。

2024-02-29 16:06:02 445

原创 Transformer-based fall detection in videos

跌倒对老年人构成重大威胁,因为它们对老年人的身心健康造成严重后果,在最坏的情况下甚至会导致死亡。尽管如此,通过适当的技术解决方案可以减轻跌倒的影响。跌倒检测是识别跌倒的任务,即在视频中检测一个人何时跌倒。这种算法可以在轻量级设备中实现,然后可以满足用户的需求,例如提醒紧急服务或护理人员。在这些系统的核心,一个能够迅速识别跌倒的模型对于缩短救援到来的时间至关重要。在本文中,我们提出了一种基于Transformer的跌倒检测解决方案,即用于计算机视觉任务中最先进的神经网络。

2024-02-28 15:30:39 884 1

原创 Actor-identified Spatiotemporal Action Detection —Detecting Who Is Doing What in Videos⋆

现存的问题:深度学习在视频动作识别(Action Recognition, AR)中的成功促使研究人员逐步将相关任务从粗粒度级别提升到细粒度级别。与传统AR仅预测整个视频的动作标签相比,时间动作检测(TAD)被用于估计视频中每个动作的开始和结束时间。在此基础上,本文进一步研究了在视频中对动作进行空间和时间定位的时空动作检测方法。然而,谁来执行这个动作,在SAD(时空动作检测)中通常被忽略了,而识别行为者也可能很重要。

2024-01-27 13:55:21 785

原创 VMamba: Visual State Space Model

视觉表示学习是计算机视觉中最基础的研究课题之一,自深度学习时代开始以来,视觉表示学习取得了重大突破。卷积神经网络(Convolution Neural Networks, CNNs)[38,19,22,29,42]和视觉变形器(Vision transformer, ViTs)[10,28,45,56]这两类主要的深度基础模型已被广泛应用于各种视觉任务中。虽然两者在计算表达性视觉表示方面都取得了显著的成功,但ViTs通常比CNNs表现出更好的性能,这可以归因于注意力机制促进的全局感受野和动态权重。

2024-01-24 16:03:21 1581

原创 Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

神经网络在各种计算机视觉任务中得到了迅速发展,如图像分类、检测和分割。虽然它们令人印象深刻的性能已经为许多应用提供了动力,但一个巨大的趋势是追求具有低延迟和高吞吐量的快速神经网络,以获得良好的用户体验、即时响应、安全原因等。怎样才能快?研究人员和从业人员宁愿设计具有成本效益的快速神经网络,而不是要求更昂贵的计算设备,降低计算复杂度,主要是衡量浮点运算(FLOPs)的数量。

2024-01-22 17:00:03 431

原创 Semantic segmentation-based system for fall detection and post-fall posture classification

根据世界卫生组织(世卫组织)的数据,全球老年人口正在大幅增长(《老龄化与健康》,2021年)。由于健康状况不佳,每年有30 - 40%的老年人跌倒(Organization et al., 2008)。此外,跌倒是老年人发生致命事故的最常见原因(Hall等人,2019年)。跌倒还可能造成严重的身体损害,如头部受伤(Alexander等人,1992年)。

2024-01-18 14:07:16 930 1

原创 Multi-human Fall Detection and Localization in Videos

根据美国疾病控制和预防中心(CDC, 2017年)的数据,每年有五分之一的老年人跌倒后受到严重伤害,如骨折或头部受伤。因此,考虑到居住在养老院的老年人,数据显示,平均每人每年发生6次跌倒(Rubenstein等人,1990年),其中65%的跌倒发生在家中,26%的跌倒发生在公共道路上(Maldonado等人,2016年)。总的来说,每年有160多万老年人遭受与跌倒有关的伤害。如果能够及早发现跌倒,以减少受伤风险,那么就可以通过适当的行动计划和快速反应来挽救生命。

2024-01-04 16:58:50 825 1

原创 Fall detection based on fused saliency maps

随着年龄的增长,人的各种生理机能严重退化,跌倒等事故频发。跌倒检测是人类异常行为检测的一个重要课题,尤其是对独居老年人的异常行为检测。统计数据显示,摔伤是79岁及以上老年人受伤的主要原因,也是[22]所有年龄组中受伤的第二大原因。一项调查显示,在65岁或以上的老年人中,35%的人每年至少跌倒一次。随着医疗保健行业的发展和世界老年人口的快速增长,对监测系统,特别是跌倒检测系统的需求不断增加。因此,迫切需要一种实时、准确的算法来检测跌倒事件。

2023-12-27 19:32:28 394 1

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

计算机视觉建模长期以来一直由卷积神经网络(cnn)主导。从AlexNet[39]和它在ImageNet图像分类挑战上的革命性性能开始,CNN架构通过更大的规模[30,76]、更广泛的连接[34]和更复杂的卷积形式[70,18,84]而变得越来越强大。随着cnn充当各种视觉任务的骨干网络,这些架构上的进步导致了性能的改进,从而大大提升了整个领域。另一方面,自然语言处理(NLP)中的网络体系结构的演变走上了一条不同的道路,目前流行的体系结构是Transformer[64]。

2023-12-05 20:35:50 826

原创 Conformer: Local Features Coupling Global Representations for Visual Recognition

卷积神经网络(Convolutional neural networks, CNNs)[29,37,40,19,48,22]具有显著的先进的计算机视觉任务,如图像分类、目标检测和实例分割。这在很大程度上归功于卷积操作,它以一种分层的方式收集局部特征,作为强大的图像表示。尽管cnn在局部特征提取上具有优势,但它难以捕获全局表示,例如视觉元素之间的远程关系,这往往是高级计算机视觉任务的关键。一个直观的解决方案是扩大接受域,但这可能需要更密集但有损害的池化操作。

2023-11-27 19:13:01 1192

原创 Towards Privacy-Supporting Fall Detection via Deep Unsupervised RGB2Depth Adaptation

跌倒检测是健康监测中的一项重要任务,因为它允许系统触发警报,从而在人跌倒时实现更快的干预。虽然大多数以前的方法依赖于标准的RGB视频数据,这种详细的外观感知监控带来了严重的隐私问题。另一方面,深度传感器在保护隐私方面做得更好,因为它们只捕捉物体与传感器或相机的距离,而忽略了颜色和纹理信息。在本文中,我们介绍了一种支持隐私的解决方案,该解决方案使RGB训练的模型适用于深度域,并在测试时利用深度数据进行跌倒检测。

2023-11-24 21:19:11 434 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除