Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks文献翻译
摘要:在进入神经网络之前,一个token一般会转换成对应的onehot表示,这是词汇表的离散分布。平滑表示是从预训练的掩码语言模型中获得的候选标记的概率,可以看作是对 one-hot 表示的信息更丰富的替代。我们提出了一种有效的数据增强方法,称为文本平滑,通过将句子从其单热表示转换为可控平滑表示。我们在资源匮乏的情况下在不同的基准上评估文本平滑。实验结果表明,文本平滑在很大程度上优于各种主流数据增强方法。此外,文本平滑可以与那些数据增强方法相结合,以获得更好的性能。1.介绍数据增强是一种广泛使用的技术