论文学习——CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning-CSDN博客

本文链接：https://blog.csdn.net/weixin_48637535/article/details/132993894

原文链接：CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning | Papers With Code

介绍：

论文提出了一种 CoLA（Contrastive learning to Localize Actions）——对比学习定位动作方法，结合了弱监督学习和对比学习的思想来解决时序动作定位问题。

什么是弱监督？

在视频定位中，弱监督是一种训练方法，利用仅仅具有弱标注或者较不精确标注的数据进行模型训练，一般情况下，弱监督是指在训练过程中仅仅使用部分不完全或者不精确的标签信息。使用弱监督，最主要的目的是减少标注的工作量和成本，同时也能进行模型训练和任务完成。

论文创新点：

现有的模型一般都采用“通过分类来定位的算法”：定位对于video-level classification贡献最大的时间区域。通常情况下，它们会单独处理每个snippet，从而忽略了丰富的上下文关系，从而导致一个问题，对于视频片段中太过于模糊的“hard snippet（包括hard动作和hard背景）”，难以对其分类，为此。作者提出一种CoLA（snippet Contrastive learning to localize actions）方法来解决。

1.提出一个snipper contrast(SniCo) loss来学习信息更加丰富的特征表示，来引导网络感知精确的时间边界和避免时间间隔的中断。

2.提出了一个boundary-aware Hard Snippet Mining algorithm来定位潜在的hard snippet。

3.在THUMOS’14和ActivityNet v1.2上超过SOTA（此前精确度最高的方法）

参考博客：论文笔记：CoLA Weakly-Supervised Temporal Action Localization With Snippet Contrastive Learning CVPR_2021 - 知乎

一.翻译

1.1Abstract

弱监督时间动作定位（WSTAL）的目的是在只有视频级标签的未修剪视频中定位动作。现有的模型大多遵循“通过分类进行定位”的程序：定位对视频级分类贡献最大的时间区域。通常，它们单独处理每个代码片段（或帧），从而忽略了富有成效的时间上下文关系。这里出现了单片段作弊问题：“硬”片段太模糊，无法分类。在本文中，我们认为通过比较来学习有助于识别这些硬片段，并且我们建议利用片段对比学习来定位动作，简称CoLA。具体地说，我们提出了一种片段对比度（SniCo）损失来细化特征空间中的硬片段表示，从而引导网络感知精确的时间边界，避免时间间隔中断。此外，由于不可能访问帧级注释，因此我们引入了一种硬片段挖掘算法来定位潜在的硬片段。大量的分析证实，这种挖掘策略有效地捕获了硬代码片段，而SniCo损失导致了信息更丰富的特征表示。大量的实验表明，CoLA在THUMOS‘14和激活网络v1.2数据集上取得了最先进的结果。

1.2Introduction

时间动作定位(TAL)的目的是在未修剪的视频中发现动作间隔并进行分类。由于其在监控分析、视频汇总化和检索等方面的广泛应用，得到了业界和学术界的广泛研究[38,15,23]。传统上，完全监督式人工标记技术在人工标记过程中需要大量的劳动力，因此，只需要视频级标签的弱监督式人工标记技术(WS-TAL)得到了广泛的应用。

现有的WS-TAL方法[39,27,30,26,14]em大多采用共同注意机制或多实例学习公式。具体来说，每个输入视频被分成多个固定大小的非重叠片段，并随着时间的推移执行片段分类，以生成时间类激活图/序列(TCAM/T- cas)[27, 34]。最终的定位结果是通过阈值化和合并类激活来生成的。为了说明，我们考虑了na¨ıve的情况，其中整个过程是用单个视频级别的分类损失进行优化的，并且我们在本文中将该管道作为基线。

在没有帧级标签的情况下，WS-TAL存在单个片段作弊问题：难以区分的片段很容易被错误分类，并损害本地化性能。为了说明这一点，我们以图1中的剪辑潜水为例。当单独评估时，两个选择的片段（#2，#3）看起来模棱两可，并且被错误分类：1)#2片段被错误分类，从而打破了时间间隔；2)#3片段被错误地识别为基线中的一个动作，导致不准确地扩展了动作间隔边界。如何解决单个代码片段作弊的问题？让我们重新讨论图1中的情况。通过比较感兴趣的片段与那些可以轻松分类的“简单片段”，可以更容易地区分动作和背景。例如，#2片段和#1简单动作片段是“悬崖潜水”中一个人坠落过程的两种不同视图。#3片段类似于#4简单的背景片段，可以很容易地归类为背景类。有鉴于此，我们认为，通过上下文比较来定位行动提供了一个强大的归纳偏差，有助于区分硬代码片段。基于上述分析，我们提出了另一种相当直观的方法来解决单片段作弊问题——通过对硬片段进行对比学习来本地化操作，简称CoLA。为此，我们引入了一种新的片段对比度（SniCo）损失，在那些更有区别的简单片段的指导下，重新定义硬片段的特性表示。在这里，这些“作弊”的片段由于其歧义而被命名为硬片段。

然而，这个解决方案面临着一个关键的挑战，即如何在我们的弱监督设置下识别合理的代码片段。硬代码片段的选择并不重要，因为它们没有特定的注意力分布模式。例如，在图1基线中，#3硬代码片段的响应值很高，而#2仍然很低。注意到在动作实例的边界区域周围通常存在模糊的硬片段，我们提出了一种边界感知的硬片段挖掘算法——一种简单而有效的重要性采样技术。具体来说，我们首先采用T-CAS阈值，然后暂时采用膨胀和侵蚀操作来挖掘潜在的硬片段。由于硬片片段可以是动作或背景，所以我们选择根据它们的相对位置来区分它们。为了方便的片段，它们定位在最具区别的部分，所以可以选择顶部k/底部kT-CAS分数的片段分别作为简单的动作/背景。此外，我们形成了两个硬-容易的对比对，并通过所提出的SniCo损失进行特征细化。

简而言之，这项工作的主要贡献如下： (1)我们率先地将对比表示学习范式引入WS-TAL，并提出了一种有效的SniCo损失特征表示。(2)提出了一种硬片段挖掘算法来定位边界周围的潜在硬片段，这在弱监督设置下是一种有效的采样策略。(3)在THUMOS‘14和激活网络v1.2数据集上进行的大量实验证明了我们提出的可口可乐的有效性。

1.3Related Work

完全监督的动作本地化利用帧级注释来定位和分类来自长未修剪视频的动作实例的时间间隔。大多数现有的工作可以分为两类:基于提议(自上而下)和基于框架的方法(自下而上)。基于提案的方法[35,47,40,7,5,33,19,17,44,16]首先生成行动提案，然后对其进行分类，并进行时间边界回归。相反，基于帧的方法[18,2,22,46]直接预测帧级动作类别和位置，然后进行一些后处理技术。

弱监督动作本地化只需要视频级别的注释，并引起了广泛的关注。[39]解决这个问题，首先进行剪辑建议分类，然后选择相关的片段在软硬的方式。STPN [27]施加了一个稀疏性约束来强制执行所选线段的稀疏性。隐迷藏[36]公司和MAAN [43]公司分别试图通过随机隐藏斑块或抑制显性反应来扩展鉴别区域。Zhong等人[48]介绍了一种渐进的生成程序来实现类似的目的。W-TALC [30]应用深度度量学习与多实例学习公式的补充。

讨论单片段作弊问题虽然在WS-TAL中很常见，但还没有得到充分的研究。Liu等人，[20]精确地指出了动作完整性建模问题和动作-上下文分离问题。他们利用生成的硬负数据，开发了一个并行的多分支分类架构。相比之下，我们的可乐统一了这两个问题，并与提议的SniCo损失一起以更轻松的方式解决了它们。DGAM [32]提到了动作上下文混淆问题，即动作片段附近的上下文片段容易被错误分类，这可以被认为是我们的单个片段作弊问题的一个子问题。此外，一些背景建模工作[28,14,32]也可以看作是解决这个问题的一个方案。Nguyen等人。[28]利用一种注意机制来建模前景和背景框架的外观，并指导类激活图的生成。BaS-Net [14]引入了一个背景辅助类，并应用非对称训练策略来抑制背景片段的激活。然而，这些方法有其固有的缺点，因为背景片段不一定是静止的，而且很难将它们包含到一个特定的类中。相比之下，我们的CoLA是一个更具适应性和更可解释的解决方案来解决这些问题。

对比表示学习使用数据内部模式来学习一个嵌入空间，在这个嵌入空间中，相关的信号被聚集在一起，而不相关的信号则通过噪声对比估计（NCE）[8]进行区分。CMC [37]提出了一个对比学习框架，最大化同一场景的不同视图之间的互信息，以实现视图不变表示。SimCLR [6]通过使用小批处理中其他项目的增广视图来选择负样本。MoCo[9]使用旧负表示的动量更新记忆库来摆脱批大小限制，使负样本的使用一致。据我们所知，我们是第一个将噪声对比估计引入WS-TAL任务的人。实验结果表明，CoLA改进了硬片段表示，有利于动作定位。

1.4Method

一般而言，CoLA（如下图所示）遵循特征提取（1.4.1节）、动作建模（1.4.2节）和硬易片段挖掘（1.4.3节）通道。优化损失项和推理过程分别详见第1.4.4节和第1.4.5节,分别对应下图中a,b,c,d四个部分。

图片结构解读：

1.4.1Feature Extraction and Embedding

假设我们得到一组N个未修剪的视频N n=1及其视频级标签Nnn=1，其中yn∈RC是一个多热向量，C是动作类别的数量。按照常见的实践[27,28,14]，对于每个输入未修剪的视频Vn，我们将其划分为多帧不重叠的Ln片段，即Vn = {Sn，l} Ln l=1。由于视频长度的变化，采样固定数量的T片段{Sn，Tt=1。然后分别用预先训练的特征提取器（如I3D [4]）提取RGB特征R=、R=特征O=1和光流特征=1。这里，x R t∈Rd和x O t∈R d，d是每个代码片段的特征维度。然后，我们在Xn R和Xn O的连接上应用一个嵌入函数，得到我们提取的特征Xn E∈RT×2d。女性化是采用时间卷积，然后是ReLU激活函数。

1.4.2Actionness Modeling

我们引入了动作性概念，指的是每个片段包含通用动作实例的可能性。在我们指定动作性建模过程之前，让我们重新审视通常采用的时间类激活序列（T-CAS）。给定嵌入的特征Xn E，我们应用分类器fcls获得片段级T-CAS。具体来说，类定义符包含一个时间卷积，然后是ReLU激活和退出。这可以表述为视频Vn：=fcls（XnE；φcls），(1)，其中φcls表示可学习参数。获得的一个∈RT×C表示在每个时间片段上发生的动作分类结果。然后，当涉及到对操作性进行建模时，一种常见的方法是对每个代码片段进行二进制分类，但这将不可避免地带来额外的开销。由于在Eqn中生成了T-CAS和∈RT×C。1已经包含了片段级的类特定的预测，我们简单地沿着通道维数（fsum）和T-CAS，然后是sigmo=函数，以获得类无关的聚合，并使用它来表示操作性n∈RT：n=（fsum（∈））。

1.4.3Hard &Easy Snippet Mining

回想一下，我们的目标是使用容易发现的片段作为先验来消除有争议的片段的歧义。我们系统地研究了硬片段和简单片段的对比对构造过程。

图3.硬代码片段挖掘算法示意图。左：去掉不同掩模的侵蚀序列，得到内部区域（绿色）；右：去掉不同掩模的扩张序列，得到外部区域（粉红色）。

1.4.3.1 Hard Snippet Mining

直观地说，对于大多数位于动作或背景间隔内的代码片段，它们远离时间边界，噪声干扰更小，并且具有相对可信的特征表示。然而，对于边界相邻的片段，它们的可靠性不高，因为它们位于行动和背景之间的过渡区域，从而导致模糊检测。基于以上观察，我们认为在弱监督设置下，边界相邻片段可以作为潜在的硬片段。因此，我们建立了一种新的硬片段挖掘算法来利用边界区域的硬片段。然后将这些挖掘出的硬片段根据其位置分为硬动作和硬背景。首先，我们对动作分数进行阈值化，以生成一个二进制序列（1或0分别表示动作或背景位置）：

其中，ε（·）为混合物阶跃函数，θb为阈值，即如果Aness n≥θb，Abinn为1，否则为0。然后，如图3所示，我们应用两个级联膨胀或侵蚀操作来扩大或缩小作用间隔的时间范围。具有不同膨胀或侵蚀程度的差异区域定义为硬背景或硬作用区域：

式中，（·；∗）+和（·；∗）−分别表示使用掩模∗进行的二元膨胀和侵蚀操作。内部区域Rinner n定义为掩模m较小和掩模m较大的侵蚀序列之间的不同片段，如图3左侧所示（绿色）。同样，外部区域Router n计算为掩模M较大和掩模M较小的扩张序列之间的差值，如图3右侧所示（粉红色）。根据经验，我们将内部区域Rinner n作为硬动作片段集，因为这些区域与Abin n = 1有关。类似地，外部区域路由器n被认为是硬背景片段集。然后从Rinner n：

其中，In内部是Rinner n中的代码片段的索引集。In act是大小为k硬的内部（即|在act| = k硬）的子集，k硬=max（1，Trhard）是控制选择的硬片段数量的超参数，r硬是采样比。考虑到k hard > |In内部|的情况，我们采用了替换采样机制，以确保能够选择总的k个硬片段。类似地，硬背景片段Xn HB∈Rk硬×2d从路由器n中选择。

其中的符号定义与Eqn中的定义相似。为了简洁起见，我们省略了它们。

1.4.3.2Easy Snippet Mining

为了形成对比对，我们仍然需要挖掘有区别的简单片段。基于训练有素的全监督I3D特性，我们假设具有顶部k和底部k动作分数的视频片段分别是简单的操作（Xn EA∈Rkeasy×2d）和简单的背景片段（Xn EB∈Rkeasy×2d）。因此，我们根据Eqn中计算的行动度分数进行简单的片段挖掘。 2.具体流程如下：

其中，Sn DESC和Sn ASC分别表示按DESC和ASC顺序进行的Aness n排序指数。k容易的=max（1，Tr容易），r容易是一个代表选择比率的超参数。请注意，我们在硬片段区域中删除了Rinner n和Router n中的片段，以避免冲突。

1.4.4Network Training

基于挖掘的硬的和简单的片段，我们的CoLA引入了一个额外的片段对比度（SniCo）损失（Ls），并与基线模型相比取得了相当大的改进。总损失可以表示为： Ltotal = La + λLs，(8)，其中La和Ls分别表示动作损失和SniCo损失。λ是平衡因素。我们将详细阐述这两个术语如下。

1.4.4.1Action Loss

动作损失（La）是在预测的视频类别和地面真相之间的分类损失。为了得到视频级的预测，我们聚合了在Eqn中计算的片段级类分数。 1.在[39,30,14]之后，我们采用前k个均值策略：对于每个c类，我们采用具有最大的类特定T-CAS值的k个简单项，并计算它们的平均值作为a；c，即视频Vn的c类的视频级类得分。在获得所有C类的一个；C之后，我们在沿类维度上应用一个Softmax函数来得到视频级类的可能性pn∈RC。然后以交叉熵的形式计算动作损失（La）,其中，yˆn∈RC是标准化的地面真相。：

1.4.4.2Snippet Contrast (SniCo) Loss (片段对比损失)

对比学习已被用于图像或补丁级别的[1,10]。在我们的应用中，给定提取的特征嵌入Xn E，对比学习应用于片段级。我们将其命名为片段对比度（SniCo）丢失（Ls），它旨在细化硬片段的片段级特性，并获得信息更丰富的特性分布。考虑到硬片段被分为硬动作和硬背景，我们在Ls中形成了两个对比对，即“HA细化”和“HB细化”，其中HA和HB分别是硬动作和硬背景的缩写。“HA细化”旨在通过在特征空间中紧凑地驱动硬动作和简单动作片段来转换硬动作片段特征，与“HB细化”类似。形式上，查询x∈R1×2d、正x+∈R1×2d和S负的x−∈RS×2d都是从预先挖掘的片段中选择的。如图2(d)所示，对于“HA细化”，x∼Xn HA、x+∼Xn EA、x−∼Xn EB；对于“HB细化”，x∼Xn HB、x+∼Xn EB、x−∼Xn EA。我们将它们投射到一个标准化的单位球体中，以防止空间坍塌或膨胀。建立了一个使用交叉熵损失的（S + 1）方法分类问题来表示正例子被选择为负例子的概率。在[9]之后，我们使用温度尺度τ = 0.07计算查询和其他示例之间的距离：其中xT是x的转置，建议的SniCo损失如下：

其中，S表示负片段的数量，x−∈R 2d表示第s个负片段。通过这种方式，我们最大化了同一类别（动作或背景）的简单片段和硬片段之间的互信息，这有助于细化特性表示，从而减轻了单个片段的作弊问题。

1.4.5Inference

给定一个输入视频，我们首先预测其片段级的类激活，以形成T-CAS，并聚合Sec中描述的前k个简单分数。3.4.1来得到视频级别的预测。然后选择得分大于θv的类别进行进一步定位。对于每个选择的类别，我们使用θs对其相应的T-CAS进行阈值，以获得候选视频片段。最后，将连续的代码片段分组到提案中，并应用非最大抑制（NMS）来删除重复的提案。

1.5Experiments

1.5.1Datasets

我们在两个流行的行动定位基准数据集上评估我们的CoLA，包括THUMOS‘14 [11]和激活ynetv1.2[3]。我们只使用视频级的类别标签来进行网络训练。

THUMOS‘14包括有20个类别的未修剪的视频。视频的长度变化很大，每个视频可能包含多个动作实例。根据《[14,32]》，我们在验证集中使用200个视频进行训练，在测试集中使用213个视频进行评估。

ActivityNet v1.2是一个流行的大规模基准测试，有100个类别。按照常见的实践[39,34]，我们用4819个视频在训练集上进行训练，并在有2383个视频的验证集上进行测试。

1.5.2 Implementation Details

评估指标。我们遵循标准的评估方案，报告在不同交集的联合（IoU）阈值下的平均精度（mAP）值。对这两个数据集的评估都是使用ActivityNet1提供的基准测试代码进行的。其中阈值表示两个视频片段重叠程度

特征提取器。我们使用动力学[4]预训练的I3D [4]网络进行特征提取。请注意，I3D特性提取器并没有为进行公平的比较而进行微调。采用TVL1 [31]算法预先从RGB流中提取光流流。每个视频流被分为16帧不重叠的片段，片段级的RGB和光流特性具有1024维。

训练细节。THUMOS‘14和激活netv1.2的采样片段数T数量分别设置为750和50。所有的超参数都是由网格搜索确定的：r简单= 8，r硬= 32，S = k容易=max（1，Tr容易）。我们在Eqn中设置了λ=5e−3。 8. θb在等式中。3对两个数据集都设置为0.5。在我们的实验中，膨胀和侵蚀掩模M和M被设置为6和3。我们使用Adam优化器，学习率为1e−4。我们对THUMOS‘14训练6k个批大小为16，对激活网络v1.2训练8k个批大小为128。

测试细节。对于THUMOS‘14和激活ynetv1.2，我们将θv分别设置为0.2和0.1。对于提案生成，我们使用多个阈值，θs为THUMOS‘14设置为[0：0.25：0.025]，θs设置为[0：0.15：0.015]，然后使用IoU阈值0.7执行非最大抑制（NMS）。

1.5.3 Comparison with State-of-the-Arts

我们将THUMOS‘14测试集上的CoLA与最先进的完全监督和弱监督的TAL方法进行了比较。如表1所示，CoLA取得了令人印象深刻的性能，即在所有IoU阈值下，我们始终优于以前的弱监督方法。具体来说，我们的方法在0.5时的mAP分别达到了32.2%和40.9%的mAP@AVG，使最新的技术达到了一个新的水平。值得注意的是，即使有更低的监督水平，我们的方法甚至可以与几种完全监督的方法相比较，遵循最新的完全监督的方法，差距最小。

我们还在ActivityNet v1.2验证集上进行了实验，比较结果总结见表2。再次，我们的方法显示出了比最先进的弱监督TAL方法的显著改进，同时保持了与其他完全监督的方法相比的竞争力。在两个数据集上的一致性优越的结果表明CoLA的有效性。

1.5.4Ablation Studies

在本节中，我们进行了多个消融研究，以提供更多关于我们的设计直觉的见解。根据惯例[28,32,14]，所有的侵蚀实验都在THUMOS‘14测试集上进行。

Q1：SniCo损失有什么作用？评估我们的SniCo损失（Ls）的有效性我们仅以动作损失La作为监督，即表3中的基线，进行对比实验。表3中的sta统计结果表明，通过引入Ls, mAP@0.5的性能大大提高了7.5%，部分原因是SniCo Loss有效地指导了net工作，以实现为WSTAL量身定制的更好的特征分布。为了说明这一点，我们从THUMOS的14个测试集中随机选择2个视频，并分别计算基线和CoLA的特征嵌入dings Xn E。然后使用UMAP[24]将这些嵌入投影到二维空间，如图所示，然后通过UMAP[24]将这些嵌入投影到二维空间，如图4所示。请注意，与基线相比，SniCo Loss有助于更精确地分离静态和背景片段，特别是对于那些模糊的硬片段。总的来说，上述分析强有力地证明了我们提出的SniCo损失的重要性

Q2：是否有必要在SniCo损失中同时考虑HA和HB的再融合？为了探索这一点，我们用两种SniCo Loss进行了消融实验，每一种都只包含Eqn中的一种细化类型。11，即分别为L HA s和L HB s。表3显示，随着删除任何一种改进，性能显著下降，这表明这两种改进都有助于提高性能。

Q3：我们挖掘的硬代码片段有意义吗？如何评估挖掘的硬片段的有效性并非重要。如在第二节中所讨论的。3.3.1，难以区分的帧通常存在于动作时间间隔内或附近，因此我们将这些时间区域定义为容易出错的区域。具体地说，给定一个具有间隔[s，e]和持续时间的地面真实动作实例，我们将其δ尺度容易出错区域定义为[−δd2，e+δd2]，如图5顶部部分。然后，为了评估我们挖掘的硬片段与容易出现错误的区域的位置关系，相对距离偏移（RDO）定义如下： 1)如果挖掘的硬片段不属于任何容易出错的区域，RDO = D T，其中D是这段与所有容易出错的区域之间最近的距离，T是视频长度；否则，RDO = 0。如图5底部所示，在两个训练快照（epoch 0和epoch 2k）的不同尺度δ下，评估所有视频的平均RDO值（mRDO）。mRDO在所有尺度δ上都持续下降，这表明我们挖掘的硬片段随着训练的进行，它们会被更精确地捕捉到。即使在最严格的条件下（δ = 0.2），mRDO也只有3.7%，这表明我们挖掘的大多数硬代码片段都位于这些容易出错的区域，从而有助于网络训练。

表4报告了在不同的负样本量s条件下评价的实验结果。11，负片段是从挖掘的容易片段中随机选择的，所以S≤k很容易。如图所示，mAP值与S呈正相关，表明对比功率通过增加更多的负值而增加。这一现象与许多自监督对比学习工作[29,9,6]和最近的一个有监督对比学习工作[13]一致，部分验证了我们的硬和简单片段挖掘算法对弱监督TAL任务的有效性。

对掩模尺寸M和M的评估。我们对Eqn中的时间间隔侵蚀和膨胀分别降低了两个操作度（大m和小m）。 4.在这里，我们试图评估不同的面具大小的影响。为了简化，我们首先固定m = 3，并将M从4变为9，然后我们固定M = 6，并将m从0更改为5。结果如表5所示。当设置M = 6和m = 3时，效果最好。此外，很明显，性能在M和M范围内保持稳定，这证明了我们提出的硬片段挖掘算法的鲁棒性。

1.5.5Qualitative Results

图6显示了对THUMOS ' 14的两个操作的T-CAS结果。与基线相比，我们的CoLA具有更丰富的信息T-CAS分布，从而导致更准确的定位。图6-A描述了一个典型的案例，视频中的所有帧共享相似的元素，即人、台球桌和球。通过引入SniCo Loss，我们的方法可以寻找动作和硬背景之间的细微差异，从而避免单一动作Loss(基线)产生的许多误报。图图6-B演示了从不同的相机视图观察到的“悬崖跳水”动作，我们的方法成功地识别了整个“悬崖”动作，并抑制了假阳性检测。我们还在时间轴（标记为红色五角星）上可视化了挖掘出的硬片段位置（在epoch2k计算）。正如预期的那样，这些片段在基线中被错误分类，CoLA改进了它们的表示以获得更好的性能。这种可视化也有助于解释第4.4节中的Q3。有关更多的可视化结果，请参阅我们的补充材料。

1.6Conclusion

在本文中，我们提出了一个新的框架（CoLA）来解决弱监督动作定位中的单片段作弊问题。我们利用硬片段经常位于动作实例的边界区域的直觉，并提出了一种硬片段挖掘算法来定位它们。然后，我们应用了一个基于SniCo Loss的方法，来细化挖掘出的硬数据片段的特征表示。在THUMOS‘14和激活网络v1.2两个基准上进行的实验验证了CoLA最先进的性能。