中国人工智能大赛机器阅读理解任务冠军方案出炉~

百度大脑

于 2020-09-14 17:56:37 发布

阅读量921

点赞数

文章标签：大数据算法编程语言 python 神经网络

本文链接：https://blog.csdn.net/weixin_45449540/article/details/108591178

版权

点击左上方蓝字关注我们

【飞桨开发者说】王肖，中国科学院信息工程研究所研究生在读，自然语言处理技术爱好者，研究方向为文本匹配、文本分类、本文对抗、知识蒸馏、模型压缩、推荐系统、多任务学习等。

参赛背景

在研一深度学习课程中首次接触飞桨，并有幸在研二时对PALM (PArallel Learning from Multi-tasks) [2] 这一开源的、灵活通用的NLP大规模预训练和多任务学习框架作出部分贡献。在本次中国人工智能大赛·语言与知识技术竞赛的是非观点型机器阅读理解任务中，我借助数据增广、ERNIE[6]、RoBERTa [1] 等多预训练模型微调、对抗训练、k折模型融合等方法，利用PALM框架 [2]，形成基于鲁棒性优化的多模型融合学习策略，在本次个人赛最终获得冠军，测试集中达到85.55的准确率。

比赛介绍

机器阅读理解无论是在工业界还是学术界都有着很高的研究价值。本次大赛任务中所使用的DuReader [3] 数据集克服了以往 SQuAD [4] 等数据集的数据依赖人工合成、任务简单、应用领域有限等缺点。在竞赛中，竞赛者对数据集的理解至关重要。本文认为，竞赛中使用的一切方法和优化都应当是建立在竞赛者充分理解数据集这一前提下的，都应当是充分适配当前比赛任务的。此外，适当的数据增强是扩充数据规模的有效方法之一。在保证数据质量的前提下增大数据规模可以使得模型具备更好的泛化能力。

预训练的方法最初在图像领域提出，近年来，NLP领域中也涌现出越来越多的性能优异的预训练模型。基于预训练模型在下游NLP特定任务中进行微调往往能迅速得到理想效果。本文基于飞桨PaddlePaddle开源深度学习平台[5]，利用了RoBERTa [1]、BERT [7] 各自具备不同特性的预训练模型在本次竞赛中的是非观点型阅读理解任务上分别进行了微调。

虽然基于预训练模型的微调可以在是非观点型机器阅读理解任务中达到较优性能，但模型的鲁棒性仍有待提高，对于一些细粒度的语义差别，模型仍难以准确捕捉。近年来，诸多研究表明机器阅读理解模型对于对抗攻击是非常脆弱的，导致其在很多应用场景上出现效果鲁棒性问题甚至安全问题。对抗训练是提高模型鲁棒性的重要方式。和图像领域不同，文本中的词语是离散的，而非连续的 RGB 值。这就导致，如果我们直接在原始本文上进行扰动，则极有可能扰动的方向和大小都没有任何明确的语义对应。但 [8] 认为 word embedding 的表示是可以认为是连续的，在word embedding上的扰动一定程度上是有意义的。本文中使用的对抗训练对word embedding添加扰动，以避免模型过拟合。

此外，模型融合借鉴集成学习的思想，在一定程度上提升模型的稳定性与泛化能力 [9]。Bagging主要在于优化variance，即模型的鲁棒性，boosting主要在于优化bias，即模型的精确性。本文中所述方法借助模型融合的方法进一步提升模型在本次竞赛任务中的表现。

综上，本文所述基于鲁棒性优化的多模型融合的是非观点极性分析方法包含数据增强、多预训练模型微调、对抗训练、模型融合等方法，具备较好的稳定性与泛化能力，在中国人工智能大赛 · 语言与知识技术竞赛 · 个人赛的最终测试集中达到85.55的准确率。