术语:
层级增强:指在多个层次上对数据进行增强的。数据增强是指生成更多的训练数据,“层级”指数据维度。
蒸馏:蒸馏是一种模型优化技术,通常是用一个复杂的大模型(称为教师模型)来指导一个小模型(称为学生模型)的学习。通过蒸馏,学生模型可以继承教师模型的知识,而同时减少计算复杂度。
类增量:这是指一种特殊的学习场景,模型需要逐步学习新类别的数据,而不遗忘之前学过的类别。
音视频识别:这是一个多模态任务,要求模型同时处理音频和视频信息,来识别视频中的内容或动作。
论文的核心是在处理需要逐步学习新类别的音视频识别任务时,提出了一种结合层级增强和知识蒸馏的方法。这种方法希望帮助模型在动态更新类别时,既能学好新类别,又不忘记旧类别的知识。
问题定义:
类增量音视频视频识别 (CIAVVR) 的目标是在学习新的视频类别时,尽可能避免忘记旧类别的知识。形式化地表示为,给定一个任务序列 S S S,包含任务集合 { T 1 , T 2 , … , T S } \{T_1, T_2, \ldots, T_S\} { T1,T2,…,TS},每个任务 T t T_t Tt 都有一个任务特定的类别集合 Y t Y_t Yt。不同任务之间的类别集合是互斥的,即 Y i ∩ Y j = ∅ Y_i \cap Y_j = \emptyset Yi∩Yj=∅(若 i ≠ j i \neq j i=j)。为了保留之前任务的知识,在步骤 t t t 时,将之前 T 1 : ( t − 1 ) T_1:(t-1) T1:(t−1) 任务中的一小部分示例数据存储在大小有限的记忆库 M t − 1 M_{t-1} Mt−1 中。
在第 t t t 个任务中,CIAVVR 使用当前任务的数据集 T t = { ( x , y ) ∣ ( x , y ) ∈ D t } T_t = \{(x, y)|(x, y) \in D_t\} Tt={(x,y)∣(x,y)∈Dt} 和记忆库 M t − 1 M_{t-1} Mt−1 中的示例数据构建一个健壮的音视频模型。其中 x ∈ X x \in X x∈X 表示从视频空间 X X X 中采样的视频, y ∈ Y t y \in Y_t y∈Yt 是其对应的标签,属于任务特定的类别集合 Y t Y_t Yt, D t D_t Dt 是视频 x x x 和标签 y y y 的联合分布。在增量步骤 t t t 时,该音视频模型必须能够准确地分类所有之前 t − 1 t-1 t−1 个任务和当前第 t t t 个任务的测试数据集。
视频 x x x 会被分割为 K K K 个不重叠的音频和视频片段对,即 x = { A i , V i } i = 1 K x = \{A_i, V_i\}_{i=1}^K x={ Ai,Vi}i=1K,其中 A i A_i Ai 和 V i V_i Vi 分别表示第 i i i 个视频片段的音频和视频数据。音视频模型的目标是通过分析所有音频片段 { A i } i = 1 K \{A_i\}_{i=1}^K { Ai}i=1K 和视频片段 { V i } i = 1 K \{V_i\}_{i=1}^K { Vi}i=1K,对视频 x x x 进行分类。
音视频模型 Φ \Phi Φ 包括三个部分:音视频嵌入模块 E E E、音视频融合模块 F F F 和分类器模块 C C C。音视频嵌入模块 E E E 使用预训练且冻结的音频和视频模型提取低级模态特征 F = { f a i , f v i } i = 1 K F = \{f_{a_i}, f_{v_i}\}_{i=1}^K F={ fai,fvi}i=1K,其中 f a i f_{a_i} fai 是音频片段的特征, f v i f_{v_i} fvi 是视频片段的特征。因此,CIAVVR 的主要难点在于如何在避免遗忘的同时更新音视频融合模块和分类器模块。
E E E:像一个“感知器”,从音频和视频中提取基础信息。
F F F:像一个“结合器”,把音频和视频的信息融合成统一的理解。
C C C:像一个“决策器”,根据融合后的信息做出最终分类判断。
整个系统就像你看电影:先听声音和看画面( E E E),再结合这两部分信息理解情节( F F F),最后判断这部电影的类型( C C C)
在第 t t t 个任务中,来自前 t − 1 t-1