面向长代码序列的Transformer模型优化方法，提升长代码场景性能

最新推荐文章于 2024-04-13 21:14:10 发布

阿里云技术

最新推荐文章于 2024-04-13 21:14:10 发布

阅读量346

点赞数

文章标签： transformer 深度学习机器学习云计算阿里云

本文链接：https://blog.csdn.net/weixin_43970890/article/details/125760092

版权

阿里云与华东师大合作在SIGIR2022发表SASA模型，解决长代码序列中Transformer的性能问题。SASA通过结构感知稀疏注意力，降低计算复杂度，提高效率，并在CodeXGLUE任务上表现出色，适用于处理长序列的自然语言处理任务。

摘要由CSDN通过智能技术生成

阿里云机器学习平台PAI与华东师范大学高明教授团队合作在SIGIR2022上发表了结构感知的稀疏注意力Transformer模型SASA，这是面向长代码序列的Transformer模型优化方法，致力于提升长代码场景下的效果和性能。由于self-attention模块的复杂度随序列长度呈次方增长，多数编程预训练语言模型（Programming-based Pretrained Language Models, PPLM）采用序列截断的方式处理代码序列。SASA方法将self-attention的计算稀疏化，同时结合了代码的结构特性，从而提升了长序列任务的性能，也降低了内存和计算复杂度。

论文：Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, and Aoying Zhou. Understanding Long Programming Languages with Structure-Aware Sparse Attention. SIGIR 2022

模型框架

下图展示了SASA的整体框架：

其中，SASA主要包含两个阶段：预处理阶段和Sparse Transformer训练阶段。在预处理阶段得到两个token之间的交互矩阵，一个是top-k frequency矩阵，一个是AST pattern矩阵。Top-k frequency矩阵是利用代码预训练语言模型在CodeSearchNet语料上学习token之间的attention交互频率，AST pattern矩阵是解析代码的抽象语法树（Abstract Syntax Tree，AST ），根