Background
让NLP模型能够不断地从动态的数据流中学习和获取知识,同时避免灾难性遗忘,即在学习新任务时忘记之前任务的知识
Overview
Method
1.信息解耦:作者提出了一种基于信息解耦的正则化方法,将文本隐藏表示分解为任务通用空间和任务特定空间,分别对这两个空间进行不同程度的约束,以保留通用知识和适应特定知识。任务通用空间是包含不同任务共享的信息的隐藏空间,如语法知识等。任务特定空间是包含每个任务独有的信息的隐藏空间,如情感词汇等
2.辅助任务:作者引入了两个简单的辅助任务来学习更好的通用和特定表示空间。一个是下一句预测,用于从隐藏表示中提取任务通用信息,即判断两个文本片段是否连贯。另一个是任务标识符预测,用于从隐藏表示中提取任务特定信息,即判断一个文本片段属于哪个任务。
3.正则化损失:作者在训练新任务时,对任务通用空间和任务特定空间分别施加不同程度的正则化损失,以防止它们在学习新任务时变化过大而导致灾难性遗忘。作者使用L2范数作为正则化损失,并设置不同的系数来控制不同空间的变化幅度
G是通用空间,S是特定空间
4.记忆选择规则:作者为了进一步减轻灾难性遗忘而不增加太多的内存和训练时间,提出了一种记忆选择规则,只存储和重放一小部分有代表性的样本。作者使用K-Means算法对每个任务的训练集进行聚类,并只选择距离每个聚类中心最近的样本作为记忆。
数据集
AGNews、DBpedia、Yelp Review Polarity、Amazon Review Polarity,Yahoo Answers
评估指标
- Average Accuracy (ACC):所有任务上的平均准确率。
- Backward Transfer (BWT):新任务对之前任务性能的影响,正值表示正向迁移,负值表示灾隔性遗忘。
- Forward Transfer (FWT):之前任务对新任务性能的影响,正值表示正向迁移,负值表示负向迁移。
- Transfer Efficiency (TE):迁移效率,即ACC与JT之间的比值,反映了模型利用通用知识的能力。