自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【论文精读】ASRF Alleviating Over-segmentation Errors by Detecting Action Boundaries

我们提出了一个有效的时间动作分割框架,即动作分割细化框架(ASRF)。模型架构由一个长期特征提取器和两个分支组成:动作分割分支(ASB)和边界回归分支(BRB)。长期特征提取器提供了两个分支的共享特征,具有广泛的时间感受场。ASB用动作类别对视频帧进行分类,而BRB回归动作边界概率。BRB预测的动作边界细化了ASB的输出,这导致了显著的性能提高。(i)我们提出了一个用于时间动作分割的框架ASRF,它将时间动作分割分为逐帧动作分类和动作边界回归。我们的框架使用预测的动作边界改进了动作类别的帧级假设。

2024-04-08 19:39:16 706

原创 【论文精读】SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase Recognition

Purpose:手术相位自动识别是支持基于视频评估(VBA)系统进行外科教育的关键技术之一。利用时间信息对手术相位识别至关重要,因此最近的各种方法提取帧级特征来进行全视频时间建模。SF-TMN不仅可以实现帧级全视频时间建模,还可以实现段级全视频时间建模。

2024-04-02 16:30:46 1955 2

原创 【论文精读】LTC & AdaFoucs

对视频中的长期上下文进行建模对于包括时间动作分割在内的许多细粒度任务至关重要。因此,最近关于时间动作分割的工作将时间卷积网络与仅针对局部时间窗口计算的自我注意相结合。本文引入基于transformer的模型解决长时序建模问题,利用稀疏注意力(sparse att)捕获视频完整上下文。

2024-03-14 14:34:55 1629

原创 【论文精读】ASFormer & DXFormer

AS任务通常使用时序模型预测分钟级视频每一帧的动作,最近的研究表明Transformer在建模序列任务上的潜力,但是直接将transformer应用在AS任务上存在重要问题:1.在小训练集上存在归纳偏差 2.处理长输入序列 3.decoder之间的局限 ,对此提出ASFormer,特征表现在(i)由于特征的高度局部性,引入局部连通性先验,将假设空间限制在一个固定范围内 (ii)用预定义的分层表示,有效处理长输入序列 (iii)设计decoder来细化encoder的初始预测。

2024-03-09 14:18:55 882

原创 【论文精读】BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation

解决全监督动作分割任务,任务旨在-将视频分割成不重叠的片段,每个片段表示不同动作。最近的工作应用transformer在帧级别执行时间建模,这存在高计算成本,并且不能很好地捕捉长时间范围内的动作依赖性。为了解决这些问题,我们提出了一种高效的BI级时间建模(BIT)框架,该框架学习明确的动作标记来表示动作片段,并行地在帧和动作级别上执行时间建模,同时保持较低的计算成本。本模型包括:i frame branch – 使用卷积学习帧级关系的帧分支。

2024-01-21 22:34:35 1560

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除